ایتنا - محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد موفق شدند نرمافزاری طراحی کنند که با دقت ۴۶.۸ درصد گفتار مختلف را درک میکند.
رایانههای مجهز به هوش مصنوعی گوگل با تماشای ساعتها برنامه تلویزیونی یادگرفتند که چگونه بهتر از انسانها صحبتهای مجریان تلویزیونی را لبخوانی کنند.
به گزارش ایتنا از فارس، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفتهترین نرمافزار لبخوانی جهان را ابداع کردهاند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است.
محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی.بی.سی را در اختیار شبکه عصبی این نرمافزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسانها صحبتها را درک کند.
دقت این نرمافزار در آزمایشهای اولیه ۴۶.۸ درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرمافزار چهار برابر بیشتر از یک لبخوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت ۱۲.۴ درصد گفتار مختلف را درک کند.
پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لبخوان به نام LipNet استفاده کرده بودند که میتوانست با دقت ۹۰ درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است.