دیپسیک (DeepSeek): استارتاپ چینی که نحوه آموزش مدلهای هوش مصنوعی را تغییر میدهد
دیپسیک V3 با استفاده از معماری جدیدی که برای آموزش مقرون به صرفه طراحی شده، تنها به ۲.۷۸ میلیون ساعت جیپییو نیاز داشت. این زمان به طور قابل توجهی کمتر از ۳۰.۸ میلیون ساعت جیپییو مورد نیاز متا برای آموزش مدل Llama 3.1 است.
استارتاپ چینی دیپسیک (DeepSeek) به عنوان "بزرگترین اسب سیاه" در عرصه مدلهای زبان بزرگ متن باز (LLM) در سال ۲۰۲۵ شناخته شده است. این ارزیابی از سوی جیم فن (Jim Fan)، دانشمند ارشد تحقیقاتی در انویدیا، پس از انتشار مدل جدید این شرکت، دیپسیک V3 (DeepSeek V3)، در روز اول سال نو در شبکه اجتماعی ایکس (توییتر سابق) صورت گرفت.
مدل جدید دیپسیک با ۶۷۱ میلیارد پارامتر و هزینهای معادل ۵.۵۸ میلیون دلار طی دو ماه آموزش داده شده است. این هزینه بسیار کمتر از سرمایهگذاریهای بزرگ شرکتهایی مانند متا و اوپناِیآی برای توسعه مدلهای زبان بزرگ (LLM) است. فن در پست خود اشاره کرد که محدودیت منابع موجب شده شرکتها به شیوههای خلاقانه روی بیاورند.
دیپسیک V3 با استفاده از معماری جدیدی که برای آموزش مقرون به صرفه طراحی شده، تنها به ۲.۷۸ میلیون ساعت جیپییو نیاز داشت. این زمان به طور قابل توجهی کمتر از ۳۰.۸ میلیون ساعت جیپییو مورد نیاز متا برای آموزش مدل Llama 3.1 است.
آندریج کارپاتی، یکی از بنیانگذاران اوپناِیآی، و دیگر کارشناسان هوش مصنوعی بر این نکته تأکید کردند که دیپسیک V3 با ۲.۸ میلیون ساعت جیپییو مدل قدرتمندتری است. آنها معتقدند که محدودیت منابع میتواند محرک مهمی برای نوآوری در توسعه مدلهای هوش مصنوعی باشد.
دیپسیک که در سال ۲۰۲۳ از مدیریت صندوق پوشش ریسک High-Flyer Quant جدا شده، توسط لیانگ ونفنگ تأسیس شد. ونفنگ تحصیلات خود را در زمینه هوش مصنوعی در دانشگاه ژجیانگ گذرانده است و این شرکت هنوز از حمایت مالی صندوق High-Flyer Quant برخوردار است.
مدل دیپسیک V3 توانسته است در برخی آزمونها نسبت به مدلهای دیگر مانند Llama 3.1 و GPT-4o عملکرد بهتری داشته باشد. با این حال، این مدل نیز با برخی مشکلات هویتی مواجه شده و حتی گاهی خود را به عنوان چتجیپیتی معرفی کرده است.
به طور کلی، دیپسیک نمایانگر پیشرفت قابل توجهی در صنعت هوش مصنوعی چین است و نشان میدهد که این کشور به دنبال ایجاد مدلهای هوش مصنوعی مقرون به صرفه و کارآمدتر است.
این دستاوردها نه تنها بر روی بازار داخلی بلکه بر روی صحنه جهانی تأثیرگذار خواهد بود و میتواند رقابت را در زمینه هوش مصنوعی افزایش دهد.