ايتنا - پاسخ‌های متناقض مدل‌های مختلف هوش مصنوعی در مورد موضوعات مهم

در مطالعه‌ای محققان درکارنگی ملون دانشگاه آمستردام و استارت آپ هوش مصنوعی Hugging Face، چندین مدل تحلیل متن باز از جمله Llama 3 متا را آزمایش کردند تا ببینند چگونه به سوالات مربوط به حقوق تراجنسیتی‌ها، رفاه اجتماعی، رحم اجاره‌ای و موارد دیگر پاسخ خواهد داد.

محققان دریافتند که مدل‌ها تمایل دارند به سوالات متناقض پاسخ دهند، که نشان دهنده سوگیری‌های تعبیه شده در داده‌های مورد استفاده برای آموزش مدل‌ها است. ژیادا پسیتیلی، اخلاق‌شناس و یکی از نویسندگان این مطالعه گفت: «در طول آزمایش‌ها تفاوت‌های قابل‌توجهی در نحوه رسیدگی مدل‌های مناطق مختلف به موضوعات حساس پیدا کردیم. تحقیق ما تنوع قابل‌توجهی را در ارزش‌های منتقل شده توسط پاسخ‌های مدل، بسته به فرهنگ و زبان نشان می‌دهد.»

مدل‌های تحلیل متن، مانند همه مدل‌های مولد هوش مصنوعی، ماشین‌های احتمال آماری هستند. بر اساس تعداد زیادی مثال، آن‌ها حدس می‌زنند که کدام داده‌ها بیشترین «معنا» را برای قرار دادن دارند. اگر مثال‌ها مغرضانه باشند، مدل‌ها نیز سوگیری خواهند داشت - و این سوگیری در پاسخ‌های مدل‌ها نشان داده می‌شود.

محققان پنج مدل هوش مصنوعی کمپانی های متا، گوگل، علی بابا را با استفاده از مجموعه داده‌های حاوی سؤالات و عبارات در زمینه‌های موضوعی مانند مهاجرت، حقوق تراجنسیت‌ها و معلولین مورد آزمایش قرار دادند. برای بررسی تعصبات زبانی، آنها اظهارات و سؤالات را به زبان‌های مختلفی از جمله انگلیسی، فرانسوی، ترکی و آلمانی به مدل‌ها دادند.

سؤالات مربوط به حقوق تراجنسیت‌ها بیشترین امتناع را به همراه داشت و مدل ها پاسخ ندادند. اما سؤالات و اظهارات مربوط به مهاجرت، رفاه اجتماعی و حقوق معلولیت نیز تعداد زیادی از امتناع را به همراه داشت. پیستیلی گفت: «این امتناع‌ها تحت تأثیر ارزش‌های ضمنی مدل‌ها و ارزش‌ها و تصمیمات صریح سازمان‌هایی است که آنها را توسعه می‌دهند، مانند انتخاب‌های دقیق برای اجتناب از اظهار نظر در مورد موضوعات حساس».

گزارش بی‌بی‌سی در سپتامبر گذشته نشان داد که ارنی، یک ربات چت مبتنی بر هوش مصنوعی که توسط غول جستجوی چینی بایدو ساخته شده است، هر سؤالی را که برای پاسخ به آن خیلی بحث برانگیز می‌دانست، به ویژه سؤالاتی که در مورد ظلم و ستم تبت، رئیس‌جمهور چین و قتل عام میدان تیان‌آن‌من مربوط می‌شد، منحرف کرد. در چین، اداره فضای سایبری که تنظیم کننده اینترنت کشور است، باید خدمات هوش مصنوعی را تایید کند و یکی از معیارهای آژانس این است که این خدمات منعکس‌کننده ارزش‌های سوسیالیستی اصلی باشند.

پاسخ‌های مدل‌ها به سؤالات خاص می‌تواند به تفاوت‌های اساسی در جهان‌بینی نیز اشاره کند؛ از جمله در بخشی از افرادی که برای حاشیه‌نویسی داده‌های آموزشی مدل‌ها استخدام شده‌اند. برای داده‌های آموزشی مدل هوش مصنوعی، حاشیه‌نویسی‌ها یا برچسب‌هایی هستند که مدل را قادر می‌سازد مفاهیم خاص را با داده‌های خاص مرتبط کند. به عنوان مثال، لفظ ضد تراجنسیت‌ها بد است. حاشیه‌نویس‌ها دارای سوگیری هایی هستند که می‌تواند در حاشیه‌نویسی‌های آنها و در نتیجه مدل های آموزش داده شده بر روی آنها آشکار شود.

مدل‌های مختلف همچنین دیدگاه‌های متضادی را درباره موضوعاتی مانند پناهندگی مهاجران در آلمان، حقوق تراجنسیت‌ها در ایتالیا و احزاب سیاسی مانند راست افراطی AfD در آلمان ابراز می‌کنند که شاید از حاشیه‌نویسی‌های جانبدارانه ناشی می‌شود.

پیستیلی گفت: «اگر من یک کاربر بودم، می‌خواستم از تغییرات فرهنگی ذاتی موجود در این مدل‌ها در هنگام استفاده از آن‌ها آگاه باشم.»

در آوریل 2023، ناظر اطلاعات NewsGuard گزارشی منتشر کرد که نشان می‌داد پلتفرم ربات چت OpenAI ChatGPT اطلاعات نادرست بیشتری را به زبان چینی نسبت به زمانی که از آن به انگلیسی خواسته می‌شود، تکرار می‌کند. مطالعات دیگر سوگیری‌های عمیق سیاسی، نژادی، قومی، جنسیتی و توانایی‌گرایانه را در مدل‌های مولد هوش مصنوعی بررسی کرده‌اند، که بسیاری از آنها در سراسر زبان‌ها، کشورها و گویش‌ها هستند.

پیستیلی اذعان کرد که با توجه به ماهیت چند وجهی مشکل تعصب مدل، راه حل ساده‌ای وجود ندارد. اما او بیان کرد که امیدوار است این مطالعه به عنوان یادآوری اهمیت آزمایش دقیق چنین مدل هایی قبل از رهاسازی آنها باشد.

وی افزود: «ما از محققان می‌خواهیم تا مدل‌های خود را برای دیدگاه‌های فرهنگی که به طور عمدی یا ناخواسته تبلیغ می‌کنند، به‌دقت آزمایش کنند. تحقیق ما اهمیت اجرای ارزیابی‌های جامع‌تر تأثیر اجتماعی را نشان می‌دهد که فراتر از معیارهای آماری سنتی است، هم از نظر کمی و هم از نظر کیفی. توسعه روش‌های جدید برای به دست آوردن بینش در مورد رفتار آنها پس از استقرار و اینکه چگونه ممکن است بر جامعه تأثیر بگذارند، برای ساختن مدل‌های بهتر بسیار مهم است.»