ايتنا - این الگوریتم جدید، زبان گوینده را تنها با مشاهده تصویر او تشخیص می‌دهد!

این الگوریتم جدید، زبان گوینده را تنها با مشاهده تصویر او تشخیص می‌دهد!

ایتنا - الگوریتم جدیدی که محققان دانشگاه MIT ساخته‌اند قادر است صرفاً با تماشای ویدیوی افراد در حال صحبت کردن، زبان مورد استفاده آنها را تشخیص دهد و کلمات و اصوات را با تصاویر و اشیا مربوطه مرتبط سازد.

با ظهور این الگوریتم جدید به نام DenseAV که در آزمایشگاه هوش مصنوعی و علوم رایانه دانشگاه MIT (CSAIL) توسعه یافته است، پیشرفت چشمگیری در زمینه درک زبان انسانی صورت گرفته است.

مارک همیلتون، دانشجوی دکتری مهندسی برق و علوم رایانه در MIT و همکار این پروژه، می‌گوید: این الگوریتم با استفاده از روشی به نام یادگیری تضادی، بدون نیاز به نمونه‌های برچسب‌گذاری شده، صداها و تصاویر را با یکدیگر مقایسه می‌کند تا الگوهای مهم پیش‌بینی زبان را کشف کند.

یکی از ویژگی‌های منحصربفرد DenseAV این است که برخلاف الگوریتم‌های قبلی که صرفاً یک مفهوم شباهت بین صدا و تصویر را در نظر می‌گرفتند، این الگوریتم تمام ارتباطات ممکن بین هر ثانیه از صدا و هر پیکسل از تصویر را بررسی می‌کند. این روش ریزبینانه به DenseAV اجازه می‌دهد ارتباط دقیق‌تری بین کلمات و اشیا برقرار کند.

محققان DenseAV را روی مجموعه داده AudioSet که شامل ۲ میلیون ویدیوی یوتیوب است، آموزش دادند. آنها همچنین مجموعه داده‌های جدیدی را برای ارزیابی عملکرد الگوریتم در پیوند دادن صداها و تصاویر ایجاد کردند. در این آزمایش‌ها، DenseAV عملکرد بهتری نسبت به سایر الگوریتم‌های برتر در شناسایی اشیا از روی نام‌ها و صداها داشت.

دیوید هاروث، استاد علوم رایانه در دانشگاه تگزاس آستین که در این پروژه مشارکت نداشته است، می‌گوید: شناسایی و جداسازی اشیا بصری در تصاویر، همچنین صداهای محیطی و کلمات گفته شده در ضبط صوتی، هر کدام مسائل دشواری در حوزه خود هستند. محققان سنتی برای آموزش مدل‌های یادگیری ماشین به منظور انجام این وظایف، به برچسب‌گذاری پرهزینه انسانی متکی بوده‌اند. DenseAV پیشرفت قابل توجهی در توسعه روش‌هایی است که می‌توانند با صرفاً مشاهده جهان از طریق بینایی و شنوایی، این وظایف را به طور همزمان یاد بگیرند.

کاربردهای بالقوه این الگوریتم گسترده است. از جستجوی چندرسانه‌ای گرفته تا یادگیری زبان‌های جدید و رباتیک. محققان امیدوارند با استفاده از DenseAV بتوانند زبان‌هایی را که تاکنون از دسترس انسان‌ها دور مانده‌اند، مانند زبان دلفین‌ها و نهنگ‌ها را درک کنند.

در مجموع، DenseAV گامی بزرگ در زمینه یادگیری زبان توسط ماشین‌ها محسوب می‌شود. این الگوریتم با الهام از نحوه یادگیری کودکان، می‌تواند بدون هیچ‌گونه داده متنی از پیش آموزش دیده، معنای زبان را کشف کند. این دستاورد می‌تواند منجر به پیشرفت‌های چشمگیری در زمینه‌های مختلف از جمله جستجوی مالتی‌مدیا، یادگیری زبان‌های جدید و رباتیک شود.