ايتنا - Imagen 2؛ سازنده کلیپ ویدئویی گوگل منتشر شد

ایتنا - Imagen 2 می‌تواند مانند DALL-E و Midjourney از OpenAI، تصاویری را ایجاد و ویرایش کند. همچنین، می‌تواند متن، نشان‌ها و آرم‌ها را به زبان‌های مختلف ارائه کند، و به‌صورت اختیاری آن عناصر را در تصاویر موجود - به عنوان مثال، روی کارت‌های ویزیت، پوشاک و محصولات قرار دهد.

در ماه فوریه، مشخص شد که مولد تصویر ساخته شده در Gemini، چت‌ربات مبتنی بر هوش مصنوعی گوگل، به طور تصادفی تنوع جنسیتی و نژادی را در پیام‌های مربوط به افراد وارد می‌کند که در نتیجه تصاویری از نازی‌های دارای تنوع نژادی، در میان سایر نادرستی‌های توهین‌آمیز ایجاد می‌کند.

گوگل وعده داد که این اختلال را اصلاح و دوباره منتشر کند. در نهایت، این شرکت یک ابزار تولید تصویر پیشرفته به نام Imagen 2 را در پلتفرم توسعه‌دهنده Vertex AI خود راه‌اندازی می‌کند.

Imagen 2 می‌تواند مانند DALL-E و Midjourney از OpenAI، تصاویری را ایجاد و ویرایش کند. همچنین، می‌تواند متن، نشان‌ها و آرم‌ها را به زبان‌های مختلف ارائه کند، و به‌صورت اختیاری آن عناصر را در تصاویر موجود - به عنوان مثال، روی کارت‌های ویزیت، پوشاک و محصولات قرار دهد.

قابلیت ویرایش تصویر با Imagen 2 به طور کلی در Vertex AI همراه با دو قابلیت جدید در دسترس است: inpainting و Outpainting، ویژگی‌هایی هستند که سایر تولیدکننده‌های تصویر محبوب نیز مانند DALL-E چندی پیش ارائه کرده‌اند، از آنها می‌توان برای حذف قسمت‌های ناخواسته یک تصویر، افزودن اجزا و جزئیات جدید و گسترش مرزهای یک تصویر برای ایجاد میدان دید وسیع‌تر استفاده کرد. Imagen 2 همچنین می‌تواند ویدیوهای کوتاه چهار ثانیه‌ای را از طریق پیام‌های متنی بسازد.

برای رفع نگرانی‌ها در مورد پتانسیل ایجاد دیپ فیک، گوگل می‌گوید که Imagen 2 از SynthID، رویکردی که توسط Google DeepMind توسعه یافته است، برای اعمال واترمارک‌ها و رمزنگاری بر روی تصاویر استفاده می‌کند.
البته، شناسایی این واترمارک‌ها - که گوگل ادعا می‌کند در برابر ویرایش‌ها، از جمله فشرده‌سازی، فیلترها و تنظیمات تناژ رنگ مقاوم هستند - به ابزار ارائه‌شده توسط گوگل نیاز دارد که برای اشخاص عادی در دسترس نیست.

مدل‌هایی مانند Imagen بر روی تعداد زیادی نمونه که معمولاً از سایت‌های عمومی و مجموعه‌های داده در سراسر وب تهیه می‌شوند، آموزش داده می‌شوند. بسیاری از فروشندگان هوش مصنوعی مولد، داده‌های آموزشی را به عنوان یک مزیت رقابتی می‌بینند و بنابراین آن‌ها و اطلاعات مربوط به آن را خصوصی نگه می‌دارند.