مدل جدید هوش مصنوعی متا با تماشای ویدیو یاد میگیرد
ایتنا - دانشمند ارشد هوش مصنوعی شرکت متا معتقد است که مدل V-JEPA با که پر کردن قسمتهای حذف شده ویدیویی آموزش میبیند، میتواند اولین گام به سمت "هوش عمومی مصنوعی" باشد.
شرکت متا، به تازگی مدل جدیدی از هوش مصنوعی منتشر کرده که با روشی مشابه مدلهای زبان بزرگ(LLM) آموزش دیده است، این مدل، به جای یادگیری از کلمات و متون، با تماشا کردن ویدیوها یاد می گیرد.
به گزارش ایتنا LLM ها معمولاً با دریافت تعداد فراوانی جمله و عبارات، آموزش میبینند که در آن، برخی از کلمات پوشانده شده، و مدل باید مناسبترین کلمات را برای پر کردن جاهای خالی پیشنهاد کند، و در نتیجه، یک حس ابتدایی از جهان واقعی دریافت کند.
Yann LeCun که گروه FAIR (گروه تحقیقات بنیادی هوش مصنوعی) در شرکت متا را رهبری میکند، پیشنهاد کرده که اگر مدلهای هوش مصنوعی بتوانند از تکنیکی مشابه مدل متنی مشابه استفاده کنند، آنگاه قادر خواهند با مشاهده فیلمهای ویدئویی، سریعتر یاد بگیرند.
LeCun در این زمینه گفت: «هدف ما ساختن مدل هوش ماشینی پیشرفتهای است که بتواند مانند انسانها بیشتر آموزش ببیند.»
مطابق این گزارش، شکل عملی نظریه LeCun یک مدل تحقیقاتی به نام Video Joint Embedding Predictive Architecture (یا V-JEPA) است که با پردازش ویدیوی بدون هر گونه برچسب، و با پی بردن به اتفاقاتی که احتمالاً در قسمت خاصی از صفحه در طی چند ثانیه سیاه شدن ویدئو رخ داده است، یاد میگیرد.
باید توجه داشت که V-JEPA یک مدل هوش مصنوعی مولد نیست، بلکه یک مدل مفهومی درونی از جهان ایجاد میکند.
محققان Meta مدعیند که عملکرد V-JEPA، پس از پیشآموزش با استفاده از پوشش ویدئویی، «در تشخیص و درک تعاملات بسیار دقیق بین اشیاء عالی است.»
به گفته صاحبنظران؛ این تحقیق دستاوردهای شگرفی برای متا و اکوسیستم گستردهتر هوش مصنوعی خواهد داشت.
گفتنی است متا پیشتر در خصوص یک "مدل جهانی" در زمینه کار خود روی عینک واقعیت افزوده توضیحاتی ارائه کرده است. این عینک از مدلی مانند مغز دستیار هوش مصنوعی استفاده میکند تا بتواند به عنوان مثال، پیشبینی کند که چه محتوای دیجیتالی را به کاربر نشان خواهد داد تا بدین ترتیب، به او کمک کند کارها را سریعتر انجام دهد و بیشتر سرگرم شود.
این مدل در عمل درک صوتی-تصویری از جهان خارج خواهد داشت، اما پس از آن قادر خواهد بود سریعا از طریق دوربین و میکروفون دستگاه، ویژگیهای منحصر به فرد دنیای کاربر را بیاموزد.
V-JEPA همچنین میتواند در نحوه آموزش مدلهای هوش مصنوعی تحول ایجاد کند. روشهای پیشآموزشی کنونی برای مدلهای پایه، به زمان و توان محاسباتی زیادی نیاز دارند(که مستلزم صرف انرژی و دارای عوارض محیط زیستی است.)
هر چند اکنون به کارگیری و توسعه مدلهای بنیاد بسیار پرهزینه است، اما با استفاده از روشهای آموزشی کارآمدتر، این واقعیت تغییر خواهد کرد.
این موضوع همچنین با راهبرد شرکت متا برای انتشار بیشتر تحقیقات خود به شکل منبعباز به جای روشهای بسته OpenAI و دیگران، سازگار است. بدین ترتیب در صورت کاهش هزینههای آموزشی، توسعه دهندگان کوچکتر نیز قادرند مدلهای بزرگتر و توانمندتری را آموزش دهند.
LeCun معتقد است که ناتوانی LLM های فعلی در یادگیری از طریق تصاویر و صداها موجب کندی در مسیر پیشرفت هوش مصنوعی میشود.
گام بعدی متا پس از V-JEPA، افزودن صدا به ویدیو است که در این مرحله، مدل قادر است از ابعاد بزرگتری از دادهها یاد بگیرد، همانند کودکی که ابتدا تلویزیون را بیصدا تماشا میکند و سپس با روشن کردن صدا، نه تنها حرکت اشیاء درون ویدئو را میبیند، بلکه صداها را نیز میشنود که تجربه کاملتری از یادگیری است.
متا اعلام کرده که مدل V-JEPA خود را منتشر خواهد کرد تا محققان بتوانند با آن آزمایش کنند و همچنین بر قابلیتهای آن بیفزایند.