ايتنا - محققین "توهمات" هوش مصنوعی را چگونه تشخیص می‌دهند؟

محققین "توهمات" هوش مصنوعی را چگونه تشخیص می‌دهند؟

ایتنا - یکی از مشکلات مزمن سیستم‌های هوش مصنوعی مولد فعلی، مانند ChatGPT، این است که آنها اغلب با اطمینان برخی از اطلاعات نادرست را منتشر می‌کنند، محققان و کارشناسان این رفتار را "توهم" می‌نامند و این نشان دهنده یک مانع اساسی برای اثربخشی این سیستم‌ها است.

یکی از مشکلات مزمن سیستم‌های هوش مصنوعی مولد فعلی، مانند ChatGPT، این است که آنها اغلب با اطمینان برخی از اطلاعات نادرست را منتشر می‌کنند، محققان و کارشناسان این رفتار را "توهم" می‌نامند و این نشان دهنده یک مانع اساسی برای اثربخشی این سیستم‌ها است.

به گزارش ایتنا، محققان چندین دانشگاه و مؤسسه تحقیقاتی در تلاش برای یافتن راه‌حل‌هایی برای این مشکل هستند و در یک مقاله تحقیقاتی جدید که در مجله علمی «Nature» منتشر شده است، محققان دپارتمان علوم کامپیوتر دانشگاه آکسفورد، روش جدیدی را برای تشخیص اینکه چه زمانی سیستم‌های هوش مصنوعی احتمال دارد توهم ایجاد کنند، توصیف می‌کنند.

روش توصیف شده در این مقاله قادر است بین پاسخ‌های صحیح و نادرست تولید شده توسط مدل هوش مصنوعی، حدود 79٪ مواقع تمایز قائل شود که تقریبا 10 درصد بیشتر از سایر روش‌های موجود است.

اگرچه این روش تنها به یکی از دلایل متعددی که مدل‌های هوش مصنوعی توهم می‌زنند، می‌پردازد و تقریباً ده برابر بیشتر از یک مکالمه معمولی با یک ربات به قدرت محاسباتی نیاز دارد، این نتایج ممکن است راه را برای سیستم‌های هوش مصنوعی مطمئن‌تر در آینده نزدیک هموار کند.

توهمات هوش مصنوعی
اصطلاح "توهم" در زمینه هوش مصنوعی رایج شده است، اما از یک سو به عنوان یک اصطلاح بحث‌برانگیز در نظر گرفته می‌شود، این اصطلاح نشان می‌دهد که مدل‌ها نوعی تجربه ذهنی از جهان دارند، که اکثر دانشمندان کامپیوتر با آن موافق هستند.

از سوی دیگر، این اصطلاح نشان می‌دهد که این توهمات یک مشکل قابل حل است نه یک مشکل اساسی و شاید در مدل‌های بزرگ زبانی غیر قابل حل است و بین گروه‌های محققان در زمینه هوش مصنوعی در مورد پاسخ به آن تفاوت وجود دارد. این سوال، اما مهم‌تر از همه این است که این اصطلاح دقیق نیست و چندین دسته متمایز از خطاهایی را که یک مدل هوش مصنوعی مرتکب می‌شود، توصیف می‌کند.

تیم دانشگاه آکسفورد تصمیم گرفت بر روی یک دسته خاص از توهمات تمرکز کند که آنها آن را "confabulations" نامیدند، یعنی زمانی که یک مدل هوش مصنوعی پاسخ‌های اشتباه متناقضی را برای یک سوال واقعی ایجاد می‌کند، در مقابل همان پاسخ اشتباه ثابتی که اغلب از دیگران ناشی می‌شود. عللی مانند مشکلات با داده‌های آموزشی مدل، زمانی که مدل به دنبال یک سود است، یا زمانی که از نقص ساختاری در منطق یا استدلال خود ناشی می‌شود.

سبک ساده
روشی که تیم تحقیقاتی برای تشخیص احتمال خراب بودن یک مدل استفاده کرد اینگونه بود که ابتدا از چت بات می‌خواهد تا مجموعه‌ای از پاسخ‌ها را که معمولاً بین 5 تا 10 پاسخ است، برای همان سؤال صادر کند.

به عنوان مثال، پاسخ‌های «پاریس پایتخت فرانسه است» و «پایتخت فرانسه پاریس است» با مدل در یک گروه طبقه‌بندی می‌شوند، زیرا معنی یکسانی دارند، حتی اگر جمله‌بندی دو جمله متفاوت باشد. در مورد پاسخی مانند "پایتخت فرانسه رم است"، مدل آن را در گروه دیگری طبقه بندی می‌کند.

سپس محققین عددی را محاسبه می‌کنند که آن را «آنتروپی معنایی» می‌نامند، که معیاری است برای اینکه معنی هر پاسخ چقدر شبیه یا متفاوت است، اگر همه پاسخ‌های مدل دارای معانی متفاوتی باشند، ارزش آنتروپی معنایی بالا می‌رود، که نشان می‌دهد مدل برای رفتار "خراش دادن" تحریف شده و به خطر افتاده است.

با این حال، اگر همه پاسخ‌های مدل دارای معانی یکسان یا مشابه باشند، مقدار آنتروپی معنایی پایین خواهد بود، که نشان می‌دهد مدل پاسخی ثابت ارائه می‌کند، بنابراین احتمالاً این پاسخ ممکن است در معرض تحریف باقی بماند که به طور مداوم اشتباه می‌شود، اما این، نوع دیگری از توهم در نظر گرفته می‌شود.

محققان گزارش دادند که روش نظارت بر آنتروپی معنایی از بسیاری از روش‌های دیگر برای تشخیص توهمات مدل‌های هوش مصنوعی بهتر بود. از خود مدل می‌خواهد تا صحت پاسخ‌هایش را ارزیابی کند، به همراه روش دیگری، مدل هوش مصنوعی برای پاسخ‌های صحیح به سؤالات خاص تنظیم شده است.

آیا برای کاربرد عملی مناسب است؟
تیم تحقیقاتی ایده‌هایی در مورد اینکه چگونه یک روش تشخیص «آنتروپی معنایی» می‌تواند شروع به کاهش توهمات ربات‌های گفتگوی فعلی کند، ارائه می‌کند. یکی از نویسندگان مقاله خاطرنشان می‌کند که از نظر تئوری می‌تواند به OpenAI اجازه دهد تا گزینه‌ای را به چت‌بات GPT اضافه کند که در آن، زمانی که کاربر روی یک پاسخ کلیک می کند، درجه ای از اطمینان را به دست می آورد که به آنها احساس اطمینان بیشتری در مورد آن می دهد. صحت آن پاسخ

او همچنین توضیح می‌دهد که این روش ممکن است با ابزارهای دیگری که بر مدل‌های هوش مصنوعی در محیط‌‌های کاری پرخطر متکی هستند، ادغام شود، جایی که شرکت یا موسسه می‌خواهد سرعت و هزینه را با دقت پاسخ معامله کند.

طبق گزارش تایم، در حالی که تیم تحقیقاتی در مورد توانایی روش خود برای بهبود قابلیت اطمینان سیستم‌های هوش مصنوعی خوش‌بین هستند، برخی از کارشناسان نسبت به تخمین بیش از حد تأثیر فوری آن هشدار می‌دهند.

برخی از کارشناسان اشاره می‌کنند که مشخص نیست این روش را می‌توان در برنامه‌های کاربردی واقعی مانند چت‌بات‌ها که در حال حاضر گسترده هستند ادغام کرد یا خیر، و توضیح می‌دهند که با افزایش توانمندی مدل‌های هوش مصنوعی، مردم سعی می‌کنند از آنها استفاده کنند. کارهای دشوارتر که احتمال شکست در آنها افزایش می‌یابد.