ايتنا - آموزش تدریجی دیتاست‌ها به AI برای شناسایی بدافزار

چیزی به اسم آموزش بی‌نقص داده‌ها وجود ندارد، ولی کارشناسان امنیت سایبری در حال دسترسی به دیتاست‌های معیار بیشتری برای توسعه مدل‌های یادگیری ماشینی جهت شناسایی بدافزار هستند.
دیتاستی که اخیراً ارائه شد، دربرگیرنده 1.1 میلیون مقدار هش از فایل‌های قابل اجرای پرتابل اسکن شده در سال گذشته توسط VirusTotal و همچنین ابرداده‌های برگرفته از این فایل‌هاست.

به گزارش سرویس اخبار جدید تکنولوژی از رایورز به نقل از ciodive، پژوهشگران می‌توانند مدل‌های یادگیری ماشینی را با توجه به مدل معیار آموزش دیده بر روی این دیتاست، آموزش دهند. حدود 900 هزار مورد از این نمونه‌ها، الگوهای آموزشی‌ هستند که به صورت برابر میان برنامه‌های غیرمضر، مضر و بدون برچسب تقسیم شده‌اند و 200 هزار مورد باقیمانده نمونه‌های تستی هستند که به صورت متوازن میان برنامه‌های مضر و غیرمضر تقسیم شده‌اند.

با مقایسه داده‌های آموزشی در مقایسه با داده‌های تست، پژوهشگران می‌توانند چک کنند که مدل‌ها تا چه حد قادر به شناسایی بدافزارهای ناشناخته شده‌اند. اما این دیتاست، تنها به عنوان یک نقطه شروع برای تحقیقات آتی و مقایسه داده‌های عملکردی -و نه یک راهکار امنیت سایبری- عمل می‌کند.
بنا بر دلایل مربوط به مالکیت معنوی، این مجموعه دربرگیرنده فایل‌های واقعی نیست و صرفاً هش‌های SHA-256 (توابع هش رمزنگاری 32 بیتی که به عنوان یک امضا برای یک فایل عمل می‌کنند) را شامل می‌شود.

در این میان، همکاری می‌تواند حوزه‌ای از کسب‌وکارها که با خطر حملات 2017 مواجه بوده‌اند را تقویت نماید. به عنوان مثال، 34 کمپانی از جمله مایکروسافت، اوراکل و فیسبوک «پیمان فنی امنیت سایبری» را امضا نموده و علناً به حفاظت از کاربران، همکاری با یکدیگر و مستحکم‌تر نمودن این فضا متعهد شدند.
لیکن خارج از این ابتکارهای مقیاس وسیع، زمینه‌های پایه، نظیر شناسایی بدافزارها، با توجه به پیچیده‌تر شدن مداوم حملات سایبری راهی طولانی پیشِ رو دارند.

پیشرفت‌ها در AL و ML در سمت سازمانی برای مقابله با خودکارسازی حملات، پر اهمیت هستند. تأثیرگذارترین نوع بدافزارها گونه‌ای است که ضربه خود را وارد می‌کند بدون اینکه یک کسب‌وکار حتی از آن بویی ببرد، اما قابلیت‌های تشخیصی پیشرفته با بهره‌گیری از AI و ML مدام به تیم‌های امنیت سایبری برای غلبه بر این مشکلات خاص کمک می‌کنند.
اما بدون داده‌های خوب، به سختی امکان دستیابی به تمهیدات دفاعی و تشخیصی میسر خواهد شد.

همراستا با مبحث امنیت سایبری، شرکت‌های دیگر در حال تلاش به منظور ایجاد دیتاست‌های عظیم برای مدل‌های ML تشخیص تصویر هستند. گوگل، رویکردی نامتمرکز را در پیش گرفته و از کاربران در نقاط مختلف جهان می‌خواهد که به طبقه‌بندی تصاویر فراتر از مرزهای جغرافیایی و فرهنگی یاری رسانند و از پژوهشگرانی که از دیتاست IBM -که متشکل از 1 میلیون کلیپ ویدئویی کوتاه است-می‌خواهد به طبقه‌بندی اقدامات ساده کمک نمایند.

اما بیشتر شرکت‌ها به خاطر ناکافی بودن دیتاست‌ها در آموزش مدل‌ها با مشکل مواجهند. کارشناسان AI مصرانه از اعضای کنگره خواسته‌اند که خط مشی‌های داده‌های باز را به تصویب رسانند تا پژوهشگران بتوانند به گنجینه‌های داده‌های دولتی -که سال‌ها بدون ساختاربندی و بلااستفاده مانده‌اند- جهت استخراج بینش‌های جدید دسترسی یابند.

در همین زمینه بخوانید:
- هوش مصنوعی چیست و چه کاربردهایی دارد؟