بازگشت ویژگی تولید تصاویر به چت‌بات Gemini

پنجنشبه 19 مهر 1403

نویسنده : صمد کردی

عکس : بازگشت ویژگی تولید تصاویر به چت‌بات Gemini

گوگل اعلام کرد که پس از وقفه‌ای چندماهه، قابلیت تولید تصاویر توسط ابزار هوش مصنوعی Gemini دوباره برای کاربران فعال خواهد شد.

به گزارش سرویس اخبار هوش مصنوعی سایت شات ایکس و به نقل از رویترز و به نقل از رویترز، این غول فناوری در به‌روزرسانی جدید خود مدل تولید تصاویر Imagen 3 را تقویت کرده است و قصد دارد در روزهای آتی امکان تولید تصاویر افراد را به صورت مرحله‌ای به کاربران ارائه دهد.

گوگل در ماه فوریه، پس از اینکه برخی کاربران نسبت به نادرستی تصاویر تاریخی تولید شده توسط این مدل انتقاد کردند، این ویژگی را متوقف کرده بود.

مشکلاتی که این ابزار هوش مصنوعی با نمایش تصاویر تاریخی نادرست داشت، باعث شد تا گوگل اقدام به اصلاح و بهبود عملکرد آن کند.

بر اساس اعلام این شرکت، این مدل جدید اکنون مطابق با «اصول محصول» طراحی و طی شبیه‌سازی‌های مختلف، نقاط ضعف آن بررسی و رفع شده است.

در ابتدا، این قابلیت برای کاربران پولی چت‌بات هوش مصنوعی Gemini در دسترس قرار می‌گیرد. این کاربران می‌توانند از این ویژگی به زبان انگلیسی استفاده کنند و گوگل در آینده قصد دارد آن را برای تعداد بیشتری از کاربران و زبان‌های دیگر نیز ارائه کند.

با وجود این، گوگل تأکید کرده است که Imagen 3 همچنان از تولید تصاویر افراد خاص، کودکان، یا محتوای گرافیکی نامناسب خودداری خواهد کرد.

همچنین گوگل به عنوان بخشی از این به‌روزرسانی اعلام کرد که ویژگی گفت‌وگوی پیشرفته با چت‌بات‌های Gems نیز در دسترس کاربران Gemini Advanced، Business و Enterprise قرار خواهد گرفت.

این چت‌بات‌های سفارشی به کاربران اجازه می‌دهند تا دستورالعمل‌های خاصی را برای استفاده‌های مکرر تنظیم کنند و بدون نیاز به تکرار دستورات، به سرعت نتایج دلخواه خود را دریافت نمایند.

ویژگی‌های جدید Imagen 3

گوگل در رویداد I/O 2024 که در ماه مه برگزار شد، سه ویژگی کلیدی برای Imagen 3 را معرفی کرد. این ویژگی‌ها شامل کیفیت تصویر خیره‌کننده با جزئیات دقیق و رنگ‌های زنده، تصاویر فوتورئالیستی زنده و سبک‌های متنوع از نقاشی‌های کلاسیک تا هنر دیجیتال مدرن می‌شود.

کاربران می‌توانند با استفاده از دستورات خاص مانند: کشیدن، تولید یا ایجاد، به همراه ذکر سبک مورد نظر (مانند نقاشی آبرنگ واقع‌گرایانه یا تصویرسازی کارتونی)، تصاویر خود را با کیفیت بالا تولید کنند. همچنین این تصاویر با نشان SynthID، یک نشان امنیتی دیجیتال، قابل دانلود خواهند بود.

دسترسی جهانی Imagen 3 برای کاربران Gemini

از امروز، مدل به‌روزرسانی شده Imagen 3 در سطح جهانی برای تمامی کاربران Gemini ، از جمله حساب‌های رایگان، در دسترس قرار می‌گیرد. با وجود این، تولید تصاویر شامل افراد برای کاربران رایگان همچنان محدود خواهد بود.

این ویژگی در ماه مه به صورت دسترسی اولیه برای کاربران Gemini Advanced، Business و Enterprise به زبان انگلیسی فعال شده بود و گوگل در تلاش است تا به زودی دسترسی گسترده‌تری برای این قابلیت فراهم کند.

رقابت در بازار هوش مصنوعی تصویرساز

گوگل در حوزه تولید تصاویر با استفاده از هوش مصنوعی با رقابت جدی مواجه است. چت‌بات‌های AI مانند: Dall-E از شرکت OpenAI، CoPilot از شرکت Microsoft و به تازگی Grok از شرکت xAI نیز قابلیت تولید تصاویر را ارائه می‌دهند. اما گوگل با تمرکز بر کیفیت تصویر، دقت و نوآوری در سبک‌های مختلف، سعی دارد تا از رقبا پیشی بگیرد و تجربه‌ای متمایز را برای کاربران خود ایجاد کند.

گوگل همچنان به گسترش قابلیت‌های Gemini و دیگر ابزارهای هوش مصنوعی خود ادامه می‌دهد و این به‌روزرسانی‌ها تنها گام‌هایی کوچک در مسیر توسعه فناوری‌های پیشرفته‌تر در حوزه تصویرسازی هوش مصنوعی به شمار می‌رود.