در ماه فوریه، مشخص شد که مولد تصویر ساخته شده در Gemini، چتربات مبتنی بر هوش مصنوعی گوگل، به طور تصادفی تنوع جنسیتی و نژادی را در پیامهای مربوط به افراد وارد میکند که در نتیجه تصاویری از نازیهای دارای تنوع نژادی، در میان سایر نادرستیهای توهینآمیز ایجاد میکند.
گوگل وعده داد که این اختلال را اصلاح و دوباره منتشر کند. در نهایت، این شرکت یک ابزار تولید تصویر پیشرفته به نام Imagen 2 را در پلتفرم توسعهدهنده Vertex AI خود راهاندازی میکند.
Imagen 2 میتواند مانند DALL-E و Midjourney از OpenAI، تصاویری را ایجاد و ویرایش کند. همچنین، میتواند متن، نشانها و آرمها را به زبانهای مختلف ارائه کند، و بهصورت اختیاری آن عناصر را در تصاویر موجود - به عنوان مثال، روی کارتهای ویزیت، پوشاک و محصولات قرار دهد.
قابلیت ویرایش تصویر با Imagen 2 به طور کلی در Vertex AI همراه با دو قابلیت جدید در دسترس است: inpainting و Outpainting، ویژگیهایی هستند که سایر تولیدکنندههای تصویر محبوب نیز مانند DALL-E چندی پیش ارائه کردهاند، از آنها میتوان برای حذف قسمتهای ناخواسته یک تصویر، افزودن اجزا و جزئیات جدید و گسترش مرزهای یک تصویر برای ایجاد میدان دید وسیعتر استفاده کرد. Imagen 2 همچنین میتواند ویدیوهای کوتاه چهار ثانیهای را از طریق پیامهای متنی بسازد.
برای رفع نگرانیها در مورد پتانسیل ایجاد دیپ فیک، گوگل میگوید که Imagen 2 از SynthID، رویکردی که توسط Google DeepMind توسعه یافته است، برای اعمال واترمارکها و رمزنگاری بر روی تصاویر استفاده میکند.
البته، شناسایی این واترمارکها - که گوگل ادعا میکند در برابر ویرایشها، از جمله فشردهسازی، فیلترها و تنظیمات تناژ رنگ مقاوم هستند - به ابزار ارائهشده توسط گوگل نیاز دارد که برای اشخاص عادی در دسترس نیست.
مدلهایی مانند Imagen بر روی تعداد زیادی نمونه که معمولاً از سایتهای عمومی و مجموعههای داده در سراسر وب تهیه میشوند، آموزش داده میشوند. بسیاری از فروشندگان هوش مصنوعی مولد، دادههای آموزشی را به عنوان یک مزیت رقابتی میبینند و بنابراین آنها و اطلاعات مربوط به آن را خصوصی نگه میدارند.