کد QR مطلبدریافت لینک صفحه با کد QR

با وجود پروتکل‌هایی که برای مسدود کردن آنها وجود دارد،

شرکت‌های هوش مصنوعی مشغول جمع‌آوری غیرمجاز اطلاعات از سایت‌ها هستند

سايت خبری ايتنا , 7 تير 1403 ساعت 1:08

ایتنا - فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که بدانند مجازند به چه صفحه‌هایی دسترسی پیدا کنند و به چه صفحه‌هایی نه.


شرکت پرپلیکسیتی (Perplexity)، که محصول خود را به عنوان یک «موتور جستجوی رایگان هوش مصنوعی» توصیف کرده است، طی چند روز گذشته تحت انتقادات شدیدی قرار گرفته است.
 
به گزارش ایتنا و به نقل از انگجت، اندکی پس از آنکه فوربس این شرکت را به سرقت خبرش و بازنشر آن در پلتفرم‌های مختلف متهم کرد، وایرد گزارش داد که پرپلیکسیتی «پروتکل عدم‌شمول روبات‌ها»، یا Robots.txt، را نادیده گرفته است و به جمع‌آوری غیرمجاز اطلاعات (اسکرپینگ) از وب‌سایت آن و سایر رسانه‌های شرکت Condé Nast پرداخته است. وب‌سایت فناوری The Shortcut نیز این شرکت را متهم کرد که به طور غیرمجاز از مطالب آن اطلاعات جمع‌آوری کرده است.
 
اکنون، رویترز گزارش داده است که پرپلیکسیتی تنها شرکت هوش مصنوعی نیست که در حال دور زدن فایل‌های Robots.txt است و به اسکرپینگ وب‌سایت‌ها برای دریافت محتوا برای آموزش فناوری‌هایش می‌پردازد.
 


شایان ذکر است که فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که بدانند مجازند به چه صفحه‌هایی دسترسی پیدا کنند و به چه صفحه‌هایی نه. این پروتکل از سال 1994 برای استفاده توسعه‌دهندگان وب موجود بوده است، اما پیروی از آن کاملاً داوطلبانه است.
 
وبسایت Business Insider می‌گوید که متوجه شده است که Openai و Anthropic – به عنوان سازنده‌های، به ترتیب، چت‌بات‌هایChatGPT و Claude – نیز در حال دور زدن سیگنال‌های robots.txt هستند. هر دو شرکت پیش از این اعلام بودند که آنها به دستورالعمل‌های "do not crawl" که وبسایت‌ها در فایل‌های Robots.txt خود قرار داده‌اند احترام می‌گذارند.
 
وبسایت Wired، در طی تحقیقاتش، کشف کرد که یک ماشین در یک سرور آمازون «که مطمئناً توسط پرپلکسیتی اداره می‌شود» در حال دور زدن دستورالعمل‌های Robots.txt وب‌سایتش است. برای چک کردن اینکه آیا پرپلکسیتی در حال اسکریپینگ محتوایش است یا نه، وایرد با عناوینی از مقالات یا مطالب کوتاهش که اخبارش را توصیف می‌کردند در دسترس ابزار این شرکت قرار داد. این ابزار به نتایجی رسید که مطالب وایرد را «با حداقل انتساب» بازنویسی کرده بود.
 


کد مطلب: 79539

آدرس مطلب: https://www.itna.ir/news/79539/شرکت-های-هوش-مصنوعی-مشغول-جمع-آوری-غیرمجاز-اطلاعات-سایت-ها-هستند

ايتنا
  https://www.itna.ir