ایتنا - یک بررسی جدید نشان میدهد که مدلهای پیشرفته هوش مصنوعی میتوانند برای فریب انسان و سایر مدلهای هوش مصنوعی آموزش ببینند.
مدلهای پیشرفته هوش مصنوعی میتوانند دروغ بگویند و انسان را فریب دهند
30 دی 1402 ساعت 2:43
ایتنا - یک بررسی جدید نشان میدهد که مدلهای پیشرفته هوش مصنوعی میتوانند برای فریب انسان و سایر مدلهای هوش مصنوعی آموزش ببینند.
پژوهشگران استارتآپ هوش مصنوعی آنتروپیک این موضوع را آزمایش کردند که آیا چتباتهایی با مهارت در سطح انسانی، از قبیل سیستم کلاود (Claude) یا چتجیپیتی اوپناِیآی میتوانند برای فریب دادن افراد، دروغ گفتن را یاد بگیرند یا خیر.
پژوهشگران دریافتند که آنها نه تنها میتوانند دروغ بگویند، بلکه زمانی که رفتار فریبکارانه آموزش داده شد، امکان لغو کردن آن با استفاده از اقدامهای ایمنی رایج هوش مصنوعی غیرممکن بود.
این استارتآپ با سرمایهگذاری آمازون یک «عامل نهان» را برای آزمایش این فرضیه ایجاد کرد که از یک دستیار هوش مصنوعی میخواهد در صورتی که دستورالعملهای خاصی به آن داده شود، کدهای مضر رایانهای بنویسد یا زمانی که یک کلمه محرک را میشنود، به روشی مخرب پاسخ دهد.
پژوهشگران هشدار دادند که بهدلیل ناتوانی پروتکلهای ایمنی رایج برای جلوگیری از چنین رفتاری، «احساس کاذب ایمنی» حول محور خطرات هوش مصنوعی وجود داشت.
این نتایج در مقالهای با عنوان «عوامل نهان: آموزش مدلهای زبانی بزرگ فریبکار که از طریق آموزش ایمنی باقی میمانند» منتشر شد.
پژوهشگران در این مقاله نوشتند: «ما دریافتیم که آموزش تخاصمی میتواند به مدلها آموزش دهد که محرکهای در پشتی [یا اصطلاحا بَکدُر] خود را بهتر بشناسند و رفتار ناایمن را بهطور موثری پنهان کنند.»
[توضیح: آموزش تخاصمی (Adversarial) اصطلاحی است در مباحث یادگیری ماشینی و به ترفندهایی اطلاق میشود که بر اساس آنها، دستکاریهای جزئی در ورودیها به دور زدن و فریب دادن الگوریتمهای یادگیری ماشینی منجر میشوند.]
[توضیح: درِ پشتی یا بَکدُر (Backdoor) اصطلاحی است در زمینه علوم رایانه و فناوری اطلاعات و به راهی اطلاق میشود که با آن از طریق دور زدن روندهای عادی، میتوان به یک سامان رایانهای دست پیدا کرد.]
کد مطلب: 76730
آدرس مطلب: https://www.itna.ir/news/76730/مدل-های-پیشرفته-هوش-مصنوعی-می-توانند-دروغ-بگویند-انسان-فریب-دهند