مدلهای زبان بزرگ (LLM) دو مرحله آموزشی دارند. ابتدا از حجم زیادی از محتوای اینترنت و سایر دادهها یاد میگیرند. سپس در مرحله تنظیم دقیق، بر روی مکالمات بین نقشهای "انسان" و "دستیار" آموزش میبینند.
اندریج کارپاتی (Andrej Karpathy)، پژوهشگر سابق OpenAI و رئیس هوش مصنوعی تسلا، توضیح میدهد که وقتی مردم از "هوش مصنوعی" سؤال میکنند، در واقع با میانگین پاسخهای دادههای انسانی تعامل دارند و نه با یک سیستم جادویی هوش مصنوعی.
وی میگوید: "شما از یک هوش مصنوعی سؤال نمیکنید، بلکه از روح ترکیبی میانگین دادهنگار آن سؤال میکنید."
به گزارش ایتنا، کارپاتی برای توضیح این نکته، از یک سؤال معمول گردشگری استفاده میکند. وقتی کسی درباره "۱۰ جاذبه برتر در آمستردام" سؤال میکند، هوش مصنوعی پاسخی تولید میکند که بر اساس نحوه پاسخدهی دادههای انسانی به سؤالات مشابه قبلی است.
برای سؤالاتی که در دادههای آموزشی وجود ندارد، سیستم، پاسخهایی مشابه را بر اساس آموزههای خود ایجاد میکند.
کارپاتی نسبت به پرسیدن سؤالات پیچیده سیاسی مانند بهترین شیوههای حکمرانی هشدار میدهد و میگوید اگر از تیم دادهنگاران بخواهید که در یک ساعت پاسخ را تحقیق کنند، همان پاسخها را دریافت خواهید کرد. او توضیح میدهد: "سؤال کردن از یک LLM(مدلهای زبانی بزرگ) درباره چگونگی اداره یک دولت به اندازه سؤال کردن از ماری از اوهایو با ۱۰ دلار و ۳۰ دقیقه زمان برای تحقیق و رعایت مستندات ۱۰۰ صفحهای شرکت LLM است."
مدلهای زبان بزرگ (LLM) دو مرحله آموزشی دارند. ابتدا از حجم زیادی از محتوای اینترنت و سایر دادهها یاد میگیرند. سپس در مرحله تنظیم دقیق، بر روی مکالمات بین نقشهای "انسان" و "دستیار" آموزش میبینند.
کارپاتی میگوید که وقتی مدلهای هوش مصنوعی به موضوعات بحثبرانگیز با عباراتی مانند "این یک سؤال بحثبرانگیز است" پاسخ میدهند، به این دلیل است که دادهنگاران انسانی دستور دارند از چنین زبانی برای حفظ بیطرفی استفاده کنند.
این فرآیند به هوش مصنوعی آموزش میدهد که مانند یک دستیار عمل کند در حالی که دانش پایه خود را حفظ کرده و سبک خود را با دادههای تنظیم دقیق منطبق کند. بسیاری موفقیت انفجاری چتجیپیتی (ChatGPT) را به این فرآیند نسبت میدهند؛ زیرا کاربران احساس میکنند با موجودی واقعی و آگاه صحبت میکنند و نه فقط یک سیستم خودکار پیشرفته.
برای موضوعات تخصصی، شرکتها متخصصان مربوطه را به عنوان دادهنگار استخدام میکنند. کارپاتی اشاره میکند که سؤالات پزشکی توسط پزشکان حرفهای پاسخ داده میشود و ریاضیدانان برجستهای مانند ترنس تائو به حل مسائل ریاضی کمک میکنند.
با این حال، مدلهای زبانی بزرگ (LLMها) نمیتوانند به همه سؤالات پاسخهایی در سطح کارشناسی ارائه دهند. این مدلها ممکن است دانش یا مهارتهای استدلال لازم را نداشته باشند، هرچند معمولاً پاسخهای آنها بهتر از کاربران متوسط اینترنت است.
کارپاتی انتقاداتی نیز به رویکرد یادگیری تقویتی از بازخورد انسانی (RLHF) داشته و آن را راهحلی موقتی قلمداد میکند.
کارپاتی اخیراً OpenAI را ترک کرد و شرکت آموزشی هوش مصنوعی خود را تأسیس کرده است.