ايتنا - احساساتی کردن رایانه‌ها

تعامل انسان و رایانه در سال‌های آینده وارد مرحله‌ای خواهد شد که هم به انسان و هم به رایانه اجازه می‌دهد با درک صداهای کلامی طبیعی و مصنوعی هم بتوانند احساسات یکدیگر را درک و به روشی موثرتر باهم تعامل کنند.

به گزارش ایتنا به نقل از مهر، ۱۰ سال پس از اینکه "آرتور کلارک" در رمان "اودیسه فضایی ۲۰۰۱" خود ابررایانه‌ای به نام HAL ۹۰۰۰ را به تصویر کشید که در شاتل فضایی "دیسکاوری- وان" نصب شده بود و می‌توانست واژگان انسان را بخواند این توانایی به واقعیت بدل شد.‌

در این رمان که "استنلی کوپریک" نیز فیلم جاودانه خود را براساس آن ساخت زمانی که کادر فضاپیما که به سمت سیاره مشتری در حرکت بود به دلیل خرابی سیستم اتصال در کابین خود زندانی شدند ابررایانه HAL ۹۰۰۰ توانست با دوربین‌هایش حرکت لب‌های آنها را بخواند و به فرمانده مطلق "دیسکاوری- وان" تبدیل شود.
VIDAS؛ سیستمی که افسردگی را درک می‌کند.

در طول دهه های اخیر، سیستمهای رایانه‌ای پیشرفته ای ساخته شده اند که می‌توانند واژگان و حتی احساسات انسان را درک کنند.

یکی از تازه‌ترین این سیستم‌ها VIDAS (سیستم آنالیز دیجیتالی یکپارچه با صدا) نام دارد که قادر است حالت روحی افراد با زبان مادری انگلیسی و اسپانیایی (دو زبان بسیار رایج در آمریکا) را با دقت ۷۹ درصد درک کند و حتی با دقت کمتری احساسات افرادی را هم که اسپانیایی و انگلیسی زبان دوم آنها است تشخیص دهد.

در تحقیقات این سیستم که نتایج آن در مجله علمی Voice & Emotion (صدا و احساس) منتشر شده است، محققان موسسه Seguro Social در مکزیک شرح دادند که این سیستم توانایی پردازش رایانه‌ای تشخیص صدا را دارد و می‌تواند با سرعت بالایی بیماران افسرده را نسبت به بیماران غیر افسرده در بدو ورود به بیمارستان شناسایی کند.

به گفته این پژوهشگران، به کمک این سیستم می‌توان بیماران را به روشی صحیح به بخش‌های تخصصی مناسب هدایت کرد.

اثر مک- گرک و توانایی انسان در درک صداهای رایانه‌ای

"اثر مک- گرک"، اصطلاحی است که عنوان خود را از نام "هری مک- کرگ" گرفته است. این دانشمند انگلیسی دانشگاه سوری همراه با "جان مک دونالد" در تحقیقی با عنوان "شنیدن لب‌ها و دیدن صدا" که در مجله "نیچر" منتشر کرد، برای اولین بار نشان داد که قدرت بینایی چگونه در درک ما از صدا اثر می‌گذارد.

این اثر بیان می‌دارد اگر ما به لب کسی که دو هجای "با- با" را تلفظ می‌کند، نگاه کنیم به نظرمان می‌رسد که دو هجای "گا- گا" را تلفظ می‌کند اما آن را به صورت دو هجای "دا- دا" می‌شنویم.

در واقع این اثر نشان می‌دهد که تحریکات دیداری و شنیداری در درک یک واژه با هم در درگیری مداوم هستند. بنابراین، اگر بدون تماشای یک فیلم تنها به صدای آن گوش دهیم هجای "با" را می‌شنویم درحالی که اگر تنها فیلم را بدون صدا کنیم هجا را به صورت "گا" درک می‌کنیم.

رمزگذاری صدا (vocoding)

در ادامه می‌توان موقعیت متضادی را هم متصور شد. در حقیقت، ما در درک صدای سنتزی و مصنوعی باید از عملکردی استفاده کنیم که در اصطلاح فنی به آن "رمزگذاری صدا" (vocoding) گفته می‌شود. در این مورد، تنها درک ویژگی‌های صدا کافی نیست بلکه به توانایی تشخیص یک ساختمان قابل فهم از صدا هم نیاز است.

گروهی بین‌المللی که نتایج یافته‌های خود را در مجله "بیو مد سنترال نوروساینس" منتشر کردند در تحقیقات خود نشان دادند که فضای گیجگاهی مغز ما که توانایی تمایز دادن میان زبان قابل فهم، زبان غیرمفهوم و اصوات محیطی را دارد چگونه در مواجهه با صدای مصنوعی رایانه‌ای فعال می‌شود تا بتواند پیام شنیده شده را درک کند.

این بررسی‌ها نشان داد اگر جمله رایانه‌ای مفهوم باشد تنها فضاهای گیجگاهی عقبی و کناری مغز فعال می‌شوند این نواحی زمانی که زبان مفهوم نباشد (برای مثال در مورد زبانی که با آن آشنایی نداریم) فعال نمی‌شوند. در عوض زمانی که ما به اصوات پیچیده‌ای که ویژگی‌های یک پیام کلامی را ندارند (اصوات محیطی) گوش می‌دهیم نواحی گیجگاهی قدامی روشن می‌شوند.

صدای رایانه‌ها بخش احساسی ندارد

بخش احساسی که در انتقال یک پیام کلامی نقشی بنیادی ایفا می‌کند مسئله‌ای است که در مورد صدای یک رایانه وجود ندارد.
به همین علت، معلولانی که برای مثال از بیماری فلج مغزی رنج می‌برند و از سیستم‌های ارتباطات صدای سنتزی استفاده می‌کنند با قبول این مسئله که چرا با گوش دادن به این صدا ردپای احساسی آن درک نمی‌شود مشکل دارند، حتی اگر این صدای مصنوعی به طور مطلوبی قابل درک باشد.

یکی از بهترین راه حل‌هایی که برای رفع این مشکل ارائه شده سیستمی به نام EDVOX است. در این سیستم به راحتی می‌توان صدا را به بیش از ۳۰ شخصیت کلامی ممکن مناسب و براساس سن، جنسیت و ... مختلف تغییر داد.

دو محقق اسکاتلندی به نام‌های "یان مورای" و "جان آرنو" از دانشگاه کامپیوتر دوندی در تحقیقاتی که نتایج آن را در "ژورنال انجمن آکوسیتال آمریکا" منتشر کردند ارتباط میان نوع صدا و حالت روحی انسان را نشان دادند و کشف کردند که هر یک از ما هر بار که به حرف زدن کسی گوش می‌دهیم در اندازه‌های متغیری آن را درک می‌کنیم.

بنابراین نه تنها هر یک از ما کارشناسان بزرگ صدا هستیم و آن را تولید و درک می‌کنیم بلکه می‌توانیم یک سری از اطلاعاتی را که از نظر اجتماعی، محتواهای عمیق‌تری از بخش‌های غیر زبانی را ارائه می‌کنند از لایه‌های صدای گفتاری استخراج کنیم. کاری که ابررایانه معروف HAL ۹۰۰۰ فضاپیمای دیسکاوری-وان اودیسه فضایی ۲۰۰۱ هرگز توانایی انجام آن را به دست نیاورد.

KINECTC ۲؛ فناوری غول نرم‌افزاری دنیا

"کینکت" (Kinect) عنوان فناوری است که مایکروسافت در نوامبر ۲۰۱۰ ویژه کنسول بازی "ایکس باکس ۳۶۰" ارائه کرد. این فناوری به بازیکن اجازه می‌دهد که حرکات بدن خود را به شخصیت‌های بازی ویدیویی منتقل کند و از راه دور تنها با حرکت دست‌ها و بدن، عملکردهای "ایکس باکس" را کنترل کند.

نسخه آینده "کینکت" که قرار است بر روی نسل جدید کنسول "ایکس باکس" نصب شود نه تنها قادر است حرکات دست را تشخیص دهد، بلکه می‌تواند با دقت بسیار بالایی لب‌خوانی کرده و حرکات لب‌های بازیکن را برای دریافت فرامین کنترل درک کند.‌

علاوه بر این، "کینکت ۲" قادر است لحن صدای کاربر را درک و حالات مختلف چهره را برای اندازه‌گیری حالت روحی تجزیه و تحلیل کند.

تلاش برای احساساتی کردن رایانه‌ها

تیم تحقیقاتی پروفسور پیتر رابینستون از دانشگاه کمبریج از سال گذشته تلاش‌هایی را آغاز کرده‌اند تا بتوانند احساسات انسان را برای روبات‌ها و رایانه‌ها تعریف کنند. به این ترتیب، انسان در آینده می‌تواند با ماشین‌های "طبیعی‌تری" تعامل کند.

این دانشمندان با تحقیقات خود قصد دارند به سه سئوال جواب دهند: آیا رایانه‌ها می‌توانند احساسات را درک کنند؟ آیا می‌توانند احساسات خود را بیان کنند؟ آیا می‌توانند احساسات را حس کنند؟

شدت نگاه، لحن صدا و تغییر حالت صورت علائمی هستند که می‌توانند حالت روحی ما را نشان دهند و به ما کمک کنند که با افراد تعامل کنیم.

به گفته این محققان، اگر روباتها و رایانه‌ها نیز موفق شوند این علائم را درک کنند می‌توانند گام بلندی را برای ارائه یک زندگی بهتر به انسان‌ها بردارند.

در این راستا، پیتر رابینسون و تیم تحقیقاتی‌اش یک سر روباتیک به نام چارلز را ساختند که به یک "جی. پی. اس" در داخل یک دستگاه شبیه‌ساز مجهز بود. در فیلمی که از تعامل احساسی میان رابینسون و چارلز تهیه شده است این دانشمند کمبریج به راحتی با روبات در هدایت خودرو و پیدا کردن مسیر ارتباط برقرار می‌کند.

رابینسون در این خصوص اظهار داشت: "روشی که از طریق آن من و چارلز می‌توانیم باهم ارتباط برقرار کنیم به ما نشان می‌دهد که افراد در آینده چگونه با روبات‌ها تعامل خواهند کرد. ما در حال ساخت رایانه‌های هوشمند احساساتی هستیم که می‌توانند ذهن من را بخوانند و بفهمند من چطور احساس می‌کنم. رایانه‌ها واقعا برای درک اینکه چه کسی درحال تایپ کردن و یا درحال حرف زدن است خوب هستند، اما آنها نیاز دارند بفهمند که فقط کافی نیست بدانند من چه می‌گویم بلکه باید درک کنند که من چگونه حرف خود را می‌گویم."