ايتنا - مدل جدید هوش مصنوعی متا با تماشای ویدیو یاد می‌گیرد

شرکت متا، به تازگی مدل جدیدی از هوش مصنوعی منتشر کرده که با روشی مشابه مدل‌های زبان بزرگ(LLM) آموزش دیده است،‌ این مدل،‌ به جای یادگیری از کلمات و متون، با تماشا کردن ویدیوها یاد می گیرد.

به گزارش ایتنا LLM ها معمولاً با دریافت تعداد فراوانی جمله و عبارات، آموزش می‌بینند که در آن، برخی از کلمات پوشانده شده، و مدل باید مناسب‌ترین کلمات را برای پر کردن جاهای خالی پیشنهاد کند،‌ و در نتیجه، یک حس ابتدایی از جهان واقعی دریافت کند.

Yann LeCun که گروه FAIR (گروه تحقیقات بنیادی هوش مصنوعی) در شرکت متا را رهبری می‌کند، پیشنهاد کرده که اگر مدل‌های هوش مصنوعی بتوانند از تکنیکی مشابه مدل متنی مشابه استفاده کنند، آنگاه قادر خواهند با مشاهده فیلم‌های ویدئویی، سریع‌تر یاد بگیرند.
LeCun در این زمینه گفت: «هدف ما ساختن مدل هوش ماشینی پیشرفته‌ای است که بتواند مانند انسان‌ها بیشتر آموزش ببیند.»

مطابق این گزارش، شکل عملی نظریه LeCun یک مدل تحقیقاتی به نام Video Joint Embedding Predictive Architecture (یا V-JEPA) است که با پردازش ویدیوی بدون هر گونه برچسب، و با پی بردن به اتفاقاتی که احتمالاً در قسمت خاصی از صفحه در طی چند ثانیه سیاه شدن ویدئو رخ داده است، یاد می‌گیرد.

باید توجه داشت که V-JEPA یک مدل هوش مصنوعی مولد نیست،‌ بلکه یک مدل مفهومی درونی از جهان ایجاد می‌کند.
محققان Meta مدعیند که عملکرد V-JEPA، پس از پیش‌آموزش با استفاده از پوشش ویدئویی، «در تشخیص و درک تعاملات بسیار دقیق بین اشیاء عالی است.»

به گفته صاحبنظران؛ این تحقیق دستاوردهای شگرفی برای متا و اکوسیستم گسترده‌تر هوش مصنوعی خواهد داشت.

گفتنی است متا پیش‌تر در خصوص یک "مدل جهانی" در زمینه کار خود روی عینک واقعیت افزوده توضیحاتی ارائه کرده است. این عینک از مدلی مانند مغز دستیار هوش مصنوعی استفاده می‌کند تا بتواند به عنوان مثال، پیش‌بینی کند که چه محتوای دیجیتالی را به کاربر نشان خواهد داد تا بدین ترتیب، به او کمک کند کارها را سریع‌تر انجام دهد و بیشتر سرگرم شود.
این مدل در عمل درک صوتی-تصویری از جهان خارج خواهد داشت، اما پس از آن قادر خواهد بود سریعا از طریق دوربین و میکروفون دستگاه، ویژگی‌های منحصر به فرد دنیای کاربر را بیاموزد.

V-JEPA همچنین می‌تواند در نحوه آموزش مدل‌های هوش مصنوعی تحول ایجاد کند. روش‌های پیش‌آموزشی کنونی برای مدل‌های پایه، به زمان و توان محاسباتی زیادی نیاز دارند(که مستلزم صرف انرژی و دارای عوارض محیط زیستی است.)
هر چند اکنون به کارگیری و توسعه مدل‌های بنیاد بسیار پرهزینه است،‌ اما با استفاده از روش‌های آموزشی کارآمدتر، این واقعیت تغییر خواهد کرد.
این موضوع همچنین با راهبرد شرکت متا برای انتشار بیشتر تحقیقات خود به شکل منبع‌باز به جای روش‌های بسته OpenAI و دیگران، سازگار است. بدین ترتیب در صورت کاهش هزینه‌های آموزشی، توسعه دهندگان کوچک‌تر نیز قادرند مدل‌های بزرگ‌تر و توانمندتری را آموزش دهند.

LeCun معتقد است که ناتوانی LLM های فعلی در یادگیری از طریق تصاویر و صداها موجب کندی در مسیر پیشرفت هوش مصنوعی می‌شود.

گام بعدی متا پس از V-JEPA، افزودن صدا به ویدیو است که در این مرحله، مدل قادر است از ابعاد بزرگ‌تری از داده‌ها یاد بگیرد،‌ همانند کودکی که ابتدا تلویزیون را بی‌صدا تماشا می‌کند و سپس با روشن کردن صدا، نه تنها حرکت اشیاء درون ویدئو را می‌بیند، بلکه صداها را نیز می‌شنود که تجربه کامل‌تری از یادگیری است.

متا اعلام کرده که مدل V-JEPA خود را منتشر خواهد کرد تا محققان بتوانند با آن آزمایش کنند و همچنین بر قابلیت‌های آن بیفزایند.