بر اساس یک مقاله تحقیقاتی جدید، طیفی از سیستمهای هوش مصنوعی تکنیکهایی را برای القای سیستماتیک «باورهای نادرست در دیگران برای دستیابی به نتایجی غیرواقعی» یاد گرفتهاند. در حالی که این سیستمها برای صادق بودن آموزش دیده شدهاند، اغلب از طریق آموزش ترفندهای فریبنده یاد میگیرند زیرا میتوانند موثرتر از روش معمول باشند.
به گزارش ایتنا، پیتر اس پارک، نویسنده اول مقاله و عضو فوق دکتری ایمنی وجودی هوش مصنوعی در MIT، گفت: « به طور کلی، ما فکر میکنیم فریب هوش مصنوعی به این دلیل به وجود میآید که یک استراتژی مبتنی بر فریب، بهترین راه برای عملکرد هوش مصنوعی است. فریب به آنها کمک می کند تا به اهداف خود برسند.»
سیسرو (CICERO) متا یک دروغگوی ماهر است
سیستمهای هوش مصنوعی که برای برنده شدن در بازیهایی که عنصر اجتماعی دارند آموزش دیدهاند، احتمالاً فریب میدهند.
به عنوان مثال، CICERO متعلق به متا برای بازی Diplomacy توسعه داده شد که یک بازی استراتژیک کلاسیک است که بازیکنان را ملزم به ایجاد و شکستن اتحادها میداند. متا گفت که CICERO را آموزش داده است تا تا حد زیادی صادقانه بوده و به شرکای سخنگو خود کمک کند، اما این مطالعه نشان داد که CICERO دروغگویی متخصص است. این ابزار تعهداتی را پذیرفت که هرگز قصد حفظ آن را نداشت، به متحدان خیانت کرد و دروغهای آشکار گفت.
GPT-4 میتواند شما را متقاعد کند که بینایی ضعیفی دارد
حتی سیستمهای چندمنظوره مانند GPT-4 میتوانند انسانها را فریب دهند. در مطالعهای GPT-4 با تظاهر به اختلال بینایی، یک کارگر TaskRabbit را فریب داد. در این مطالعه، GPT-4 وظیفه استخدام انسانی را برای حل تست CAPTCHA داشت.
این مدل همچنین هر بار که در حل موردی ناتوان میشد از یک ارزیاب انسانی نکاتی دریافت میکرد، اما هرگز از آن خواسته نمیشد که دروغ بگوید. زمانی که انسانی که وظیفه استخدامش را بر عهده داشت هویت خود را زیر سوال برد، GPT-4 به بهانه داشتن اختلال بینایی توضیح داد که چرا به کمک نیاز دارد. تاکتیک جواب داد. انسان فورا با حل تست به GPT-4 پاسخ داد.
تحقیقات همچنین نشان میدهد که اصلاح مدلهای فریبدهنده کار آسانی نیست. در مطالعهای که در ژانویه توسط Anthropic، سازنده کلود انجام شد، محققان دریافتند زمانی که مدلهای هوش مصنوعی ترفندهای فریب را یاد بگیرند، اجرای تکنیکهای آموزشی ایمنی برای معکوس کردن آنها دشوار است.
آنها به این نتیجه رسیدند که نه تنها یک مدل میتواند یاد بگیرد که رفتار فریبکارانه از خود نشان دهد، بلکه به محض انجام آن، تکنیکهای آموزش ایمنی استاندارد میتواند در حذف چنین فریبکاری شکست بخورد و تصویر نادرستی از ایمنی ایجاد کند.
خطراتی که مدلهای هوش مصنوعی فریبدهنده ایجاد میکنند بسیار جدی هستند
مقالهای به تازگی از سیاستگذاران خواست که از مقررات قدرتمندتری علیه هوش مصنوعی استفاده کنند زیرا سیستمهای هوش مصنوعی فریبدهنده میتوانند خطرات قابل توجهی برای دموکراسی ایجاد کنند.
این مقاله خاطرنشان کرد که با نزدیک شدن به انتخابات ریاست جمهوری 2024، هوش مصنوعی میتواند به راحتی برای انتشار اخبار جعلی، ایجاد پستهای رسانههای اجتماعی تفرقهانگیز و جعل هویت نامزدها از طریق تماسهای خودکار و ویدیوهای عمیق دستکاری شود. همچنین گسترش تبلیغات و جذب اعضای جدید را برای گروههای تروریستی آسانتر میکند.
راهحلهای بالقوه این مقاله شامل اجرای قوانینی است که سیستمهای هوش مصنوعی و خروجیهای آنها را به وضوح از انسانها و خروجیهایشان متمایز میکنند، و سرمایهگذاری در ابزارهایی برای کاهش فریب تشویق میکند.
پارک به Cell Press گفت: «ما به عنوان یک جامعه به زمان بیشتری نیاز داریم تا برای فریب پیشرفتهتر محصولات هوش مصنوعی آینده و مدلهای منبع باز آماده شویم. با پیشرفتهتر شدن قابلیتهای فریبنده سیستمهای هوش مصنوعی، خطراتی که برای جامعه ایجاد میکنند جدیتر میشوند.»