ایتنا - دانشمند ارشد هوش مصنوعی شرکت متا معتقد است که مدل V-JEPA با که پر کردن قسمتهای حذف شده ویدیویی آموزش میبیند، میتواند اولین گام به سمت "هوش عمومی مصنوعی" باشد.
هوش عمومی مصنوعی
مدل جدید هوش مصنوعی متا با تماشای ویدیو یاد میگیرد
سايت خبری ايتنا , 28 بهمن 1402 ساعت 14:54
ایتنا - دانشمند ارشد هوش مصنوعی شرکت متا معتقد است که مدل V-JEPA با که پر کردن قسمتهای حذف شده ویدیویی آموزش میبیند، میتواند اولین گام به سمت "هوش عمومی مصنوعی" باشد.
شرکت متا، به تازگی مدل جدیدی از هوش مصنوعی منتشر کرده که با روشی مشابه مدلهای زبان بزرگ(LLM) آموزش دیده است، این مدل، به جای یادگیری از کلمات و متون، با تماشا کردن ویدیوها یاد می گیرد.
به گزارش ایتنا LLM ها معمولاً با دریافت تعداد فراوانی جمله و عبارات، آموزش میبینند که در آن، برخی از کلمات پوشانده شده، و مدل باید مناسبترین کلمات را برای پر کردن جاهای خالی پیشنهاد کند، و در نتیجه، یک حس ابتدایی از جهان واقعی دریافت کند.
Yann LeCun که گروه FAIR (گروه تحقیقات بنیادی هوش مصنوعی) در شرکت متا را رهبری میکند، پیشنهاد کرده که اگر مدلهای هوش مصنوعی بتوانند از تکنیکی مشابه مدل متنی مشابه استفاده کنند، آنگاه قادر خواهند با مشاهده فیلمهای ویدئویی، سریعتر یاد بگیرند.
LeCun در این زمینه گفت: «هدف ما ساختن مدل هوش ماشینی پیشرفتهای است که بتواند مانند انسانها بیشتر آموزش ببیند.»
مطابق این گزارش، شکل عملی نظریه LeCun یک مدل تحقیقاتی به نام Video Joint Embedding Predictive Architecture (یا V-JEPA) است که با پردازش ویدیوی بدون هر گونه برچسب، و با پی بردن به اتفاقاتی که احتمالاً در قسمت خاصی از صفحه در طی چند ثانیه سیاه شدن ویدئو رخ داده است، یاد میگیرد.
باید توجه داشت که V-JEPA یک مدل هوش مصنوعی مولد نیست، بلکه یک مدل مفهومی درونی از جهان ایجاد میکند.
محققان Meta مدعیند که عملکرد V-JEPA، پس از پیشآموزش با استفاده از پوشش ویدئویی، «در تشخیص و درک تعاملات بسیار دقیق بین اشیاء عالی است.»
به گفته صاحبنظران؛ این تحقیق دستاوردهای شگرفی برای متا و اکوسیستم گستردهتر هوش مصنوعی خواهد داشت.
کد مطلب: 77386
آدرس مطلب: https://www.itna.ir/news/77386/مدل-جدید-هوش-مصنوعی-متا-تماشای-ویدیو-یاد-می-گیرد