به تازگی اطلاعاتی از مدل جدید هوش مصنوعی اپل منتشر شده که تحولی شگرف در ویرایش تصاویر ایجاد خواهد کرد.
به گزارش ایتنا این مدل منبع باز که "MGIE" نام دارد، قادر است تصاویر را بر اساس محتوای دستورالعملهای مبتنی بر زبان طبیعی ویرایش کند.
MGIE مخفف MLLM-Guided Image Editing است، و از مدلهای زبان بزرگ چندوجهی( MLLMs) استفاده میکند تا دستورات دریافتی را تفسیر کرده و بر طبق آنها، به انجام ویرایش و دستکاری در تصاویر در سطح پیکسل بپردازد.
MGIE قادر است تصاویر را در لایههای ویرایش متفاوتی چون اصلاح سبک فتوشاپ، بهینهسازی سرتاسری عکس، و ویرایش بخشی تغییر دهد.
مدل MGIE محصول همکاری شرکت اپل و دانشگاه کالیفرنیاست و جزئیات این مدل اخیرا در مقالهای تحقیقی و در کنفرانس بینالمللی نمایش های یادگیری(ICLR) سال 2024 تبیین شده است.
MGIE چگونه کار میکند؟
اساس هوش مصنوعی جدید اپل مبتنی بر استفاده از MLLMها است، مدلهایی که قادرند هم متن و هم تصویر را پردازش و تفسیر نمایند و بدین ترتیب میتوانند تصاویر را با فهم هر چه دقیقتر از دستورالعمل ارائه شده ویرایش کنند.
به عنوان مثال اگر دستورالعملی به شکل :«آسمان را آبیتر کن!» صادر شود، MGIE آن را به فرمان اجرایی «افزایش رنگ منطقه آسمان به میزان 20 درصد» تبدیل میکند.
MGIE همچنین قادر است طیف وسیعی از سناریوهای ویرایش را اجرایی کند، از تغییرات ساده در رنگهای تصویر تا دستکاریهای پیچیده اجزاء. این مدل میتواند ویرایشهای مورد نظر را به شکل سراسری در تمام عکس، و یا تنها در منطقهای خاص از آن پیادهسازی نماید.
این مدل میتواند ویرایشهای رایج و ساده(فتوشاپی) چون برش، تغییر ابعاد و اعمال فیلترهای گوناگون را انجام دهد. این مدل همچنین قادر است ویرایشهای پیشرفتهتر چون تغییر پسزمینه، افزودن یا حذف اشیا و ترکیب تصاویر را اعمال نماید.
MGIE همچنین قادر است ویژگیهای سراسری کلی عکس مانند روشنایی، کنتراست، وضوح و تعادل رنگها را تغییر دهد، و یا صرفا مناطق یا اشیاء خاصی را در عکس مانند صورت، چشمها، موها، لباسها و... تغییر دهد.
MLLMها هر چند تواناییهای قابل توجهی را در تفسیر دستورات و ارائه پاسخ آگاهانه به آنها از خود نشان دادهاند، اما تاکنون در زمینه تغییر و ویرایش تصاویر چندان بکارگیری نشدهاند.
کاربردهای MGIE
هوش مصنوعی MGIE اکنون به عنوان یک پروژه منبع باز در GitHub در دسترس برنامهنویسان و توسعه دهندگان است، همچنین در وب، پلتفرمی فراهم شده که کاربران با بکارگیری نسخه آزمایشی آن، قادرند MGIE را به شکل آنلاین مورد استفاده قرار داده و به همکاری در پروژههای یادگیری ماشین(ML) بپردازند. ضمن اینکه کاربران میتوانند برای اصلاح مدل ویرایشها، با MGIE تعامل کنند و با ارائه بازخوردهای خود، در تکمیل MGIE سهیم شوند.
به نظر کارشناسان، MGIE دیگر صرفا نتیجه یک پروژه تحقیقاتی نیست، بلکه عملا به ابزاری کاربردی و مفید برای اهداف گوناگون تبدیل شده است. MGIE میتواند در تولید، ویرایش و بهینهسازی تصاویر در زمینههای چون رسانههای اجتماعی، تجارت الکترونیک، آموزش، سرگرمی و هنر به کاربران کمک کند.
MGIE همچنین به بسط و افزایش توانایی کاربران در بیان ایدهها و احساساتشان از طریق تصاویر یاری میرساند، و سرانجام به کشف و شکوفایی خلاقیتها منجر میشود.
کارشناسان معتقدند MGIE نشانگر یک جهش بزرگ در فناوری AI است، و با تواناییهای گستردهای که دارد، دور از انتظار نیست که این هوش مصنوعی به زودی به یک دستیار خلاق ضروری برای همه تبدیل شود.
منبع: VentureBeat