انقلاب هوش مصنوعی با کمبود دادهها مواجه است؛ چه باید کرد؟
«کمبود داده» ممکن است مشکل بزرگی برای استراتژی معمول مقیاسگذاری هوش مصنوعی باشد. یکی از گزینهها میتواند برداشت اطلاعات غیرعمومی مانند پیامهای واتساپ یا متون ویدیوهای یوتیوب باشد. اما قانونی بودن این نوع برداشت داده، هنوز مسجل نشده است.
توسعهدهندگان هوش مصنوعی به سرعت در حال استخراج اطلاعات از اینترنت برای آموزش مدلهای زبانی بزرگ مانند چتجیپیتی (ChatGPT) هستند. اما اکنون با مشکل کمبود داده مواجه شدهاند.
به گزارش ایتنا، دهه گذشته شاهد پیشرفتهای چشمگیری در هوش مصنوعی بوده است که عمدتاً ناشی از افزایش ظرفیت شبکههای عصبی و آموزش آنها با دادههای بیشتر بوده است. این مقیاسگذاری به طور غیرمنتظرهای مؤثر واقع شده و مدلهای زبانی بزرگ (LLM) را قادر به تقلید زبان محاورهای و توسعه ویژگیهای نوظهور مانند استدلال کرده است. اما برخی متخصصان معتقدند که ما به محدودیتهای مقیاسگذاری نزدیک میشویم.
مطالعهای که امسال منتشر شد، پیشبینی کرده است که تا سال 2028، اندازه معمول مجموعه دادهها برای آموزش مدلهای هوش مصنوعی به اندازه کل محتوای عمومی آنلاین خواهد رسید. به عبارت دیگر، احتمالاً هوش مصنوعی تا چهار سال دیگر از دادههای آموزشی خالی خواهد شد.
در همین حال، مالکان دادهها مانند ناشران روزنامهها شروع به محدود کردن نحوه استفاده از محتوای خود کردهاند که این امر بحران جدیدی را در ظرفیت «دادههای عمومی» ایجاد کرده است.
این محدودیتها ممکن است سرعت پیشرفت سیستمهای هوش مصنوعی را کاهش دهد، اما توسعهدهندگان نیز بیکار ننشستهاند و در حال یافتن راهحلهایی هستند.
شرکتهای بزرگ هوش مصنوعی مانند اوپن ایآی و Anthropic به این مشکل اذعان کرده و پیشنهاداتی از جمله تولید دادههای جدید و یافتن منابع غیرمعمول داده برای دور زدن آن ارائه دادهاند.
توسعه مدلهای زبانی بزرگ در دهه گذشته نشاندهنده نیاز شدید آنها به دادهها بوده است. تخمین زده میشود که تعداد «توکنها» (بخشی از کلمات) مورد استفاده برای آموزش مدلهای زبانی بزرگ از سال 2020 تا کنون 100 برابر افزایش یافته است.
با این حال، نرخ افزایش محتوای قابل استفاده اینترنت به طرز شگفتآوری کند است و تخمین زده میشود که کمتر از 10 درصد در سال رشد کند.
«کمبود داده» ممکن است مشکل بزرگی برای استراتژی معمول مقیاسگذاری هوش مصنوعی باشد. اگر هدف یافتن دادههای بیشتر باشد، یکی از گزینهها میتواند برداشت اطلاعات غیرعمومی مانند پیامهای واتساپ یا متون ویدیوهای یوتیوب باشد. اما قانونی بودن این نوع برداشت داده، هنوز مسجل نشده است.
به طور کلی، انقلاب هوش مصنوعی با چالشهایی مواجه است که نیازمند نوآوری و تغییر رویکردها در جمعآوری و استفاده از دادههاست تا بتواند به پیشرفت خود ادامه دهد.