ایتنا - تاثیرگذارترین نوع بدافزارها گونهای است که ضربه خود را وارد میکند بدون اینکه یک کسب و کار حتی از آن بویی ببرد، ولی قابلیتهای تشخیصی پیشرفته با بهرهگیری از AI و ML مداما به تیمهای امنیت سایبری برای غلبه بر این مشکلات خاص کمک میکنند.
چیزی به اسم آموزش بینقص دادهها وجود ندارد، ولی کارشناسان امنیت سایبری در حال دسترسی به دیتاستهای معیار بیشتری برای توسعه مدلهای یادگیری ماشینی جهت شناسایی بدافزار هستند.
دیتاستی که اخیراً ارائه شد، دربرگیرنده 1.1 میلیون مقدار هش از فایلهای قابل اجرای پرتابل اسکن شده در سال گذشته توسط VirusTotal و همچنین ابردادههای برگرفته از این فایلهاست.
به گزارش سرویس اخبار جدید تکنولوژی از رایورز به نقل از ciodive، پژوهشگران میتوانند مدلهای یادگیری ماشینی را با توجه به مدل معیار آموزش دیده بر روی این دیتاست، آموزش دهند. حدود 900 هزار مورد از این نمونهها، الگوهای آموزشی هستند که به صورت برابر میان برنامههای غیرمضر، مضر و بدون برچسب تقسیم شدهاند و 200 هزار مورد باقیمانده نمونههای تستی هستند که به صورت متوازن میان برنامههای مضر و غیرمضر تقسیم شدهاند.
با مقایسه دادههای آموزشی در مقایسه با دادههای تست، پژوهشگران میتوانند چک کنند که مدلها تا چه حد قادر به شناسایی بدافزارهای ناشناخته شدهاند. اما این دیتاست، تنها به عنوان یک نقطه شروع برای تحقیقات آتی و مقایسه دادههای عملکردی -و نه یک راهکار امنیت سایبری- عمل میکند.
بنا بر دلایل مربوط به مالکیت معنوی، این مجموعه دربرگیرنده فایلهای واقعی نیست و صرفاً هشهای SHA-256 (توابع هش رمزنگاری 32 بیتی که به عنوان یک امضا برای یک فایل عمل میکنند) را شامل میشود.
در این میان، همکاری میتواند حوزهای از کسبوکارها که با خطر حملات 2017 مواجه بودهاند را تقویت نماید. به عنوان مثال، 34 کمپانی از جمله مایکروسافت، اوراکل و فیسبوک «پیمان فنی امنیت سایبری» را امضا نموده و علناً به حفاظت از کاربران، همکاری با یکدیگر و مستحکمتر نمودن این فضا متعهد شدند.
لیکن خارج از این ابتکارهای مقیاس وسیع، زمینههای پایه، نظیر شناسایی بدافزارها، با توجه به پیچیدهتر شدن مداوم حملات سایبری راهی طولانی پیشِ رو دارند.
پیشرفتها در AL و ML در سمت سازمانی برای مقابله با خودکارسازی حملات، پر اهمیت هستند. تأثیرگذارترین نوع بدافزارها گونهای است که ضربه خود را وارد میکند بدون اینکه یک کسبوکار حتی از آن بویی ببرد، اما قابلیتهای تشخیصی پیشرفته با بهرهگیری از AI و ML مدام به تیمهای امنیت سایبری برای غلبه بر این مشکلات خاص کمک میکنند.
اما بدون دادههای خوب، به سختی امکان دستیابی به تمهیدات دفاعی و تشخیصی میسر خواهد شد.
همراستا با مبحث امنیت سایبری، شرکتهای دیگر در حال تلاش به منظور ایجاد دیتاستهای عظیم برای مدلهای ML تشخیص تصویر هستند. گوگل، رویکردی نامتمرکز را در پیش گرفته و از کاربران در نقاط مختلف جهان میخواهد که به طبقهبندی تصاویر فراتر از مرزهای جغرافیایی و فرهنگی یاری رسانند و از پژوهشگرانی که از دیتاست IBM -که متشکل از 1 میلیون کلیپ ویدئویی کوتاه است-میخواهد به طبقهبندی اقدامات ساده کمک نمایند.
اما بیشتر شرکتها به خاطر ناکافی بودن دیتاستها در آموزش مدلها با مشکل مواجهند. کارشناسان AI مصرانه از اعضای کنگره خواستهاند که خط مشیهای دادههای باز را به تصویب رسانند تا پژوهشگران بتوانند به گنجینههای دادههای دولتی -که سالها بدون ساختاربندی و بلااستفاده ماندهاند- جهت استخراج بینشهای جدید دسترسی یابند.