ایتنا- به گفته محققان، اگر روباتها و رایانهها موفق شوند علائم رفتاری ما را درک کنند، میتوانند گام بلندی را برای ارائه یک زندگی بهتر به انسانها بردارند.
تعامل انسان و رایانه در سالهای آینده وارد مرحلهای خواهد شد که هم به انسان و هم به رایانه اجازه میدهد با درک صداهای کلامی طبیعی و مصنوعی هم بتوانند احساسات یکدیگر را درک و به روشی موثرتر باهم تعامل کنند.
به گزارش ایتنا به نقل از مهر، ۱۰ سال پس از اینکه "آرتور کلارک" در رمان "اودیسه فضایی ۲۰۰۱" خود ابررایانهای به نام HAL ۹۰۰۰ را به تصویر کشید که در شاتل فضایی "دیسکاوری- وان" نصب شده بود و میتوانست واژگان انسان را بخواند این توانایی به واقعیت بدل شد.
در این رمان که "استنلی کوپریک" نیز فیلم جاودانه خود را براساس آن ساخت زمانی که کادر فضاپیما که به سمت سیاره مشتری در حرکت بود به دلیل خرابی سیستم اتصال در کابین خود زندانی شدند ابررایانه HAL ۹۰۰۰ توانست با دوربینهایش حرکت لبهای آنها را بخواند و به فرمانده مطلق "دیسکاوری- وان" تبدیل شود. VIDAS؛ سیستمی که افسردگی را درک میکند.
در طول دهه های اخیر، سیستمهای رایانهای پیشرفته ای ساخته شده اند که میتوانند واژگان و حتی احساسات انسان را درک کنند.
یکی از تازهترین این سیستمها VIDAS (سیستم آنالیز دیجیتالی یکپارچه با صدا) نام دارد که قادر است حالت روحی افراد با زبان مادری انگلیسی و اسپانیایی (دو زبان بسیار رایج در آمریکا) را با دقت ۷۹ درصد درک کند و حتی با دقت کمتری احساسات افرادی را هم که اسپانیایی و انگلیسی زبان دوم آنها است تشخیص دهد.
در تحقیقات این سیستم که نتایج آن در مجله علمی Voice & Emotion (صدا و احساس) منتشر شده است، محققان موسسه Seguro Social در مکزیک شرح دادند که این سیستم توانایی پردازش رایانهای تشخیص صدا را دارد و میتواند با سرعت بالایی بیماران افسرده را نسبت به بیماران غیر افسرده در بدو ورود به بیمارستان شناسایی کند.
به گفته این پژوهشگران، به کمک این سیستم میتوان بیماران را به روشی صحیح به بخشهای تخصصی مناسب هدایت کرد.
اثر مک- گرک و توانایی انسان در درک صداهای رایانهای
"اثر مک- گرک"، اصطلاحی است که عنوان خود را از نام "هری مک- کرگ" گرفته است. این دانشمند انگلیسی دانشگاه سوری همراه با "جان مک دونالد" در تحقیقی با عنوان "شنیدن لبها و دیدن صدا" که در مجله "نیچر" منتشر کرد، برای اولین بار نشان داد که قدرت بینایی چگونه در درک ما از صدا اثر میگذارد.
این اثر بیان میدارد اگر ما به لب کسی که دو هجای "با- با" را تلفظ میکند، نگاه کنیم به نظرمان میرسد که دو هجای "گا- گا" را تلفظ میکند اما آن را به صورت دو هجای "دا- دا" میشنویم.
در واقع این اثر نشان میدهد که تحریکات دیداری و شنیداری در درک یک واژه با هم در درگیری مداوم هستند. بنابراین، اگر بدون تماشای یک فیلم تنها به صدای آن گوش دهیم هجای "با" را میشنویم درحالی که اگر تنها فیلم را بدون صدا کنیم هجا را به صورت "گا" درک میکنیم.
رمزگذاری صدا (vocoding)
در ادامه میتوان موقعیت متضادی را هم متصور شد. در حقیقت، ما در درک صدای سنتزی و مصنوعی باید از عملکردی استفاده کنیم که در اصطلاح فنی به آن "رمزگذاری صدا" (vocoding) گفته میشود. در این مورد، تنها درک ویژگیهای صدا کافی نیست بلکه به توانایی تشخیص یک ساختمان قابل فهم از صدا هم نیاز است.
گروهی بینالمللی که نتایج یافتههای خود را در مجله "بیو مد سنترال نوروساینس" منتشر کردند در تحقیقات خود نشان دادند که فضای گیجگاهی مغز ما که توانایی تمایز دادن میان زبان قابل فهم، زبان غیرمفهوم و اصوات محیطی را دارد چگونه در مواجهه با صدای مصنوعی رایانهای فعال میشود تا بتواند پیام شنیده شده را درک کند.
این بررسیها نشان داد اگر جمله رایانهای مفهوم باشد تنها فضاهای گیجگاهی عقبی و کناری مغز فعال میشوند این نواحی زمانی که زبان مفهوم نباشد (برای مثال در مورد زبانی که با آن آشنایی نداریم) فعال نمیشوند. در عوض زمانی که ما به اصوات پیچیدهای که ویژگیهای یک پیام کلامی را ندارند (اصوات محیطی) گوش میدهیم نواحی گیجگاهی قدامی روشن میشوند.
صدای رایانهها بخش احساسی ندارد
بخش احساسی که در انتقال یک پیام کلامی نقشی بنیادی ایفا میکند مسئلهای است که در مورد صدای یک رایانه وجود ندارد. به همین علت، معلولانی که برای مثال از بیماری فلج مغزی رنج میبرند و از سیستمهای ارتباطات صدای سنتزی استفاده میکنند با قبول این مسئله که چرا با گوش دادن به این صدا ردپای احساسی آن درک نمیشود مشکل دارند، حتی اگر این صدای مصنوعی به طور مطلوبی قابل درک باشد.
یکی از بهترین راه حلهایی که برای رفع این مشکل ارائه شده سیستمی به نام EDVOX است. در این سیستم به راحتی میتوان صدا را به بیش از ۳۰ شخصیت کلامی ممکن مناسب و براساس سن، جنسیت و ... مختلف تغییر داد.
دو محقق اسکاتلندی به نامهای "یان مورای" و "جان آرنو" از دانشگاه کامپیوتر دوندی در تحقیقاتی که نتایج آن را در "ژورنال انجمن آکوسیتال آمریکا" منتشر کردند ارتباط میان نوع صدا و حالت روحی انسان را نشان دادند و کشف کردند که هر یک از ما هر بار که به حرف زدن کسی گوش میدهیم در اندازههای متغیری آن را درک میکنیم.
بنابراین نه تنها هر یک از ما کارشناسان بزرگ صدا هستیم و آن را تولید و درک میکنیم بلکه میتوانیم یک سری از اطلاعاتی را که از نظر اجتماعی، محتواهای عمیقتری از بخشهای غیر زبانی را ارائه میکنند از لایههای صدای گفتاری استخراج کنیم. کاری که ابررایانه معروف HAL ۹۰۰۰ فضاپیمای دیسکاوری-وان اودیسه فضایی ۲۰۰۱ هرگز توانایی انجام آن را به دست نیاورد.
KINECTC ۲؛ فناوری غول نرمافزاری دنیا
"کینکت" (Kinect) عنوان فناوری است که مایکروسافت در نوامبر ۲۰۱۰ ویژه کنسول بازی "ایکس باکس ۳۶۰" ارائه کرد. این فناوری به بازیکن اجازه میدهد که حرکات بدن خود را به شخصیتهای بازی ویدیویی منتقل کند و از راه دور تنها با حرکت دستها و بدن، عملکردهای "ایکس باکس" را کنترل کند.
نسخه آینده "کینکت" که قرار است بر روی نسل جدید کنسول "ایکس باکس" نصب شود نه تنها قادر است حرکات دست را تشخیص دهد، بلکه میتواند با دقت بسیار بالایی لبخوانی کرده و حرکات لبهای بازیکن را برای دریافت فرامین کنترل درک کند.
علاوه بر این، "کینکت ۲" قادر است لحن صدای کاربر را درک و حالات مختلف چهره را برای اندازهگیری حالت روحی تجزیه و تحلیل کند.
تلاش برای احساساتی کردن رایانهها
تیم تحقیقاتی پروفسور پیتر رابینستون از دانشگاه کمبریج از سال گذشته تلاشهایی را آغاز کردهاند تا بتوانند احساسات انسان را برای روباتها و رایانهها تعریف کنند. به این ترتیب، انسان در آینده میتواند با ماشینهای "طبیعیتری" تعامل کند.
این دانشمندان با تحقیقات خود قصد دارند به سه سئوال جواب دهند: آیا رایانهها میتوانند احساسات را درک کنند؟ آیا میتوانند احساسات خود را بیان کنند؟ آیا میتوانند احساسات را حس کنند؟
شدت نگاه، لحن صدا و تغییر حالت صورت علائمی هستند که میتوانند حالت روحی ما را نشان دهند و به ما کمک کنند که با افراد تعامل کنیم.
به گفته این محققان، اگر روباتها و رایانهها نیز موفق شوند این علائم را درک کنند میتوانند گام بلندی را برای ارائه یک زندگی بهتر به انسانها بردارند.
در این راستا، پیتر رابینسون و تیم تحقیقاتیاش یک سر روباتیک به نام چارلز را ساختند که به یک "جی. پی. اس" در داخل یک دستگاه شبیهساز مجهز بود. در فیلمی که از تعامل احساسی میان رابینسون و چارلز تهیه شده است این دانشمند کمبریج به راحتی با روبات در هدایت خودرو و پیدا کردن مسیر ارتباط برقرار میکند.
رابینسون در این خصوص اظهار داشت: "روشی که از طریق آن من و چارلز میتوانیم باهم ارتباط برقرار کنیم به ما نشان میدهد که افراد در آینده چگونه با روباتها تعامل خواهند کرد. ما در حال ساخت رایانههای هوشمند احساساتی هستیم که میتوانند ذهن من را بخوانند و بفهمند من چطور احساس میکنم. رایانهها واقعا برای درک اینکه چه کسی درحال تایپ کردن و یا درحال حرف زدن است خوب هستند، اما آنها نیاز دارند بفهمند که فقط کافی نیست بدانند من چه میگویم بلکه باید درک کنند که من چگونه حرف خود را میگویم."