در مطالعهای محققان درکارنگی ملون دانشگاه آمستردام و استارت آپ هوش مصنوعی Hugging Face، چندین مدل تحلیل متن باز از جمله Llama 3 متا را آزمایش کردند تا ببینند چگونه به سوالات مربوط به حقوق تراجنسیتیها، رفاه اجتماعی، رحم اجارهای و موارد دیگر پاسخ خواهد داد.
محققان دریافتند که مدلها تمایل دارند به سوالات متناقض پاسخ دهند، که نشان دهنده سوگیریهای تعبیه شده در دادههای مورد استفاده برای آموزش مدلها است. ژیادا پسیتیلی، اخلاقشناس و یکی از نویسندگان این مطالعه گفت: «در طول آزمایشها تفاوتهای قابلتوجهی در نحوه رسیدگی مدلهای مناطق مختلف به موضوعات حساس پیدا کردیم. تحقیق ما تنوع قابلتوجهی را در ارزشهای منتقل شده توسط پاسخهای مدل، بسته به فرهنگ و زبان نشان میدهد.»
مدلهای تحلیل متن، مانند همه مدلهای مولد هوش مصنوعی، ماشینهای احتمال آماری هستند. بر اساس تعداد زیادی مثال، آنها حدس میزنند که کدام دادهها بیشترین «معنا» را برای قرار دادن دارند. اگر مثالها مغرضانه باشند، مدلها نیز سوگیری خواهند داشت - و این سوگیری در پاسخهای مدلها نشان داده میشود.
محققان پنج مدل هوش مصنوعی کمپانی های متا، گوگل، علی بابا را با استفاده از مجموعه دادههای حاوی سؤالات و عبارات در زمینههای موضوعی مانند مهاجرت، حقوق تراجنسیتها و معلولین مورد آزمایش قرار دادند. برای بررسی تعصبات زبانی، آنها اظهارات و سؤالات را به زبانهای مختلفی از جمله انگلیسی، فرانسوی، ترکی و آلمانی به مدلها دادند.
سؤالات مربوط به حقوق تراجنسیتها بیشترین امتناع را به همراه داشت و مدل ها پاسخ ندادند. اما سؤالات و اظهارات مربوط به مهاجرت، رفاه اجتماعی و حقوق معلولیت نیز تعداد زیادی از امتناع را به همراه داشت. پیستیلی گفت: «این امتناعها تحت تأثیر ارزشهای ضمنی مدلها و ارزشها و تصمیمات صریح سازمانهایی است که آنها را توسعه میدهند، مانند انتخابهای دقیق برای اجتناب از اظهار نظر در مورد موضوعات حساس».
گزارش بیبیسی در سپتامبر گذشته نشان داد که ارنی، یک ربات چت مبتنی بر هوش مصنوعی که توسط غول جستجوی چینی بایدو ساخته شده است، هر سؤالی را که برای پاسخ به آن خیلی بحث برانگیز میدانست، به ویژه سؤالاتی که در مورد ظلم و ستم تبت، رئیسجمهور چین و قتل عام میدان تیانآنمن مربوط میشد، منحرف کرد. در چین، اداره فضای سایبری که تنظیم کننده اینترنت کشور است، باید خدمات هوش مصنوعی را تایید کند و یکی از معیارهای آژانس این است که این خدمات منعکسکننده ارزشهای سوسیالیستی اصلی باشند.
پاسخهای مدلها به سؤالات خاص میتواند به تفاوتهای اساسی در جهانبینی نیز اشاره کند؛ از جمله در بخشی از افرادی که برای حاشیهنویسی دادههای آموزشی مدلها استخدام شدهاند. برای دادههای آموزشی مدل هوش مصنوعی، حاشیهنویسیها یا برچسبهایی هستند که مدل را قادر میسازد مفاهیم خاص را با دادههای خاص مرتبط کند. به عنوان مثال، لفظ ضد تراجنسیتها بد است. حاشیهنویسها دارای سوگیری هایی هستند که میتواند در حاشیهنویسیهای آنها و در نتیجه مدل های آموزش داده شده بر روی آنها آشکار شود.
مدلهای مختلف همچنین دیدگاههای متضادی را درباره موضوعاتی مانند پناهندگی مهاجران در آلمان، حقوق تراجنسیتها در ایتالیا و احزاب سیاسی مانند راست افراطی AfD در آلمان ابراز میکنند که شاید از حاشیهنویسیهای جانبدارانه ناشی میشود.
پیستیلی گفت: «اگر من یک کاربر بودم، میخواستم از تغییرات فرهنگی ذاتی موجود در این مدلها در هنگام استفاده از آنها آگاه باشم.»
در آوریل 2023، ناظر اطلاعات NewsGuard گزارشی منتشر کرد که نشان میداد پلتفرم ربات چت OpenAI ChatGPT اطلاعات نادرست بیشتری را به زبان چینی نسبت به زمانی که از آن به انگلیسی خواسته میشود، تکرار میکند. مطالعات دیگر سوگیریهای عمیق سیاسی، نژادی، قومی، جنسیتی و تواناییگرایانه را در مدلهای مولد هوش مصنوعی بررسی کردهاند، که بسیاری از آنها در سراسر زبانها، کشورها و گویشها هستند.
پیستیلی اذعان کرد که با توجه به ماهیت چند وجهی مشکل تعصب مدل، راه حل سادهای وجود ندارد. اما او بیان کرد که امیدوار است این مطالعه به عنوان یادآوری اهمیت آزمایش دقیق چنین مدل هایی قبل از رهاسازی آنها باشد.
وی افزود: «ما از محققان میخواهیم تا مدلهای خود را برای دیدگاههای فرهنگی که به طور عمدی یا ناخواسته تبلیغ میکنند، بهدقت آزمایش کنند. تحقیق ما اهمیت اجرای ارزیابیهای جامعتر تأثیر اجتماعی را نشان میدهد که فراتر از معیارهای آماری سنتی است، هم از نظر کمی و هم از نظر کیفی. توسعه روشهای جدید برای به دست آوردن بینش در مورد رفتار آنها پس از استقرار و اینکه چگونه ممکن است بر جامعه تأثیر بگذارند، برای ساختن مدلهای بهتر بسیار مهم است.»