ایتنا - الگوریتم جدیدی که محققان دانشگاه MIT ساختهاند قادر است صرفاً با تماشای ویدیوی افراد در حال صحبت کردن، زبان مورد استفاده آنها را تشخیص دهد و کلمات و اصوات را با تصاویر و اشیا مربوطه مرتبط سازد.
این الگوریتم جدید، زبان گوینده را تنها با مشاهده تصویر او تشخیص میدهد!
26 خرداد 1403 ساعت 12:58
ایتنا - الگوریتم جدیدی که محققان دانشگاه MIT ساختهاند قادر است صرفاً با تماشای ویدیوی افراد در حال صحبت کردن، زبان مورد استفاده آنها را تشخیص دهد و کلمات و اصوات را با تصاویر و اشیا مربوطه مرتبط سازد.
با ظهور این الگوریتم جدید به نام DenseAV که در آزمایشگاه هوش مصنوعی و علوم رایانه دانشگاه MIT (CSAIL) توسعه یافته است، پیشرفت چشمگیری در زمینه درک زبان انسانی صورت گرفته است.
مارک همیلتون، دانشجوی دکتری مهندسی برق و علوم رایانه در MIT و همکار این پروژه، میگوید: این الگوریتم با استفاده از روشی به نام یادگیری تضادی، بدون نیاز به نمونههای برچسبگذاری شده، صداها و تصاویر را با یکدیگر مقایسه میکند تا الگوهای مهم پیشبینی زبان را کشف کند.
یکی از ویژگیهای منحصربفرد DenseAV این است که برخلاف الگوریتمهای قبلی که صرفاً یک مفهوم شباهت بین صدا و تصویر را در نظر میگرفتند، این الگوریتم تمام ارتباطات ممکن بین هر ثانیه از صدا و هر پیکسل از تصویر را بررسی میکند. این روش ریزبینانه به DenseAV اجازه میدهد ارتباط دقیقتری بین کلمات و اشیا برقرار کند.
محققان DenseAV را روی مجموعه داده AudioSet که شامل ۲ میلیون ویدیوی یوتیوب است، آموزش دادند. آنها همچنین مجموعه دادههای جدیدی را برای ارزیابی عملکرد الگوریتم در پیوند دادن صداها و تصاویر ایجاد کردند. در این آزمایشها، DenseAV عملکرد بهتری نسبت به سایر الگوریتمهای برتر در شناسایی اشیا از روی نامها و صداها داشت.
دیوید هاروث، استاد علوم رایانه در دانشگاه تگزاس آستین که در این پروژه مشارکت نداشته است، میگوید: شناسایی و جداسازی اشیا بصری در تصاویر، همچنین صداهای محیطی و کلمات گفته شده در ضبط صوتی، هر کدام مسائل دشواری در حوزه خود هستند. محققان سنتی برای آموزش مدلهای یادگیری ماشین به منظور انجام این وظایف، به برچسبگذاری پرهزینه انسانی متکی بودهاند. DenseAV پیشرفت قابل توجهی در توسعه روشهایی است که میتوانند با صرفاً مشاهده جهان از طریق بینایی و شنوایی، این وظایف را به طور همزمان یاد بگیرند.
کاربردهای بالقوه این الگوریتم گسترده است. از جستجوی چندرسانهای گرفته تا یادگیری زبانهای جدید و رباتیک. محققان امیدوارند با استفاده از DenseAV بتوانند زبانهایی را که تاکنون از دسترس انسانها دور ماندهاند، مانند زبان دلفینها و نهنگها را درک کنند.
در مجموع، DenseAV گامی بزرگ در زمینه یادگیری زبان توسط ماشینها محسوب میشود. این الگوریتم با الهام از نحوه یادگیری کودکان، میتواند بدون هیچگونه داده متنی از پیش آموزش دیده، معنای زبان را کشف کند. این دستاورد میتواند منجر به پیشرفتهای چشمگیری در زمینههای مختلف از جمله جستجوی مالتیمدیا، یادگیری زبانهای جدید و رباتیک شود.
کد مطلب: 79379
آدرس مطلب: https://www.itna.ir/news/79379/این-الگوریتم-جدید-زبان-گوینده-تنها-مشاهده-تصویر-او-تشخیص-می-دهد