ايتنا - مجموعه داده AVA برای شناسایی حرکات انسان در ویدئوها

امروزه بینایی کامپیوتر به عنوان یک مزیت عمده برای شرکت‌های فعال در حوزه فناوری تلقی می‌گردد. این شرکت‌ها، به دنبال آن هستند که با استفاده از ماشین، کارهایی را انجام دهند که صرفاً به دست انسان انجام می‌شود.
بینایی کامپیوتر یا بینایی ماشین یکی از شاخه‌های علوم کامپیوتر بوده که شامل روش‌های مربوط به دستیابی تصاویر، پردازش، آنالیز و درک محتوای آنهاست. معمولاً این پردازش‌ها تصاویر تولیدشده در دنیای واقعی را به عنوان ورودی دریافت و داده‌های عددی یا سمبلیک را به عنوان خروجی تولید می‌کنند.

به گزارش ایتنا از رایورز eBay اخیراً از طرح بزرگ خود برای ارائه یک قابلیت جست‌وجوی جدید رونمایی کرد که به افراد این امکان را می‌دهد که از تصاویر موجود برای پیدا کردن آیتم‌های مشابه استفاده کنند.
شاتراستاک به تازگی از قابلیت آزمایشگاهی دیگری رونمایی کرد که به کاربران این امکان را می‌دهد که بر اساس ترکیب فضایی، تصاویر موجود را جست‌وجو کنند. گوگل فوتوز هم اپلیکیشنی عرضه نموده که مخصوص قابلیت تشخیص تصویر برای حیوانات خانگی است.

با توجه به موارد مذکور، مسائل خوبی در زمینه بینایی کامپیوتر در حال وقوع است و نتایج این پیشرفت‌ها را از سرمایه‌‌گذاری روزافزون در این زمینه مشاهده می‌کنیم.
بسیاری از توسعه‌های بینایی کامپیوتر که اثر خود را در محصولات واقعی هم گذاشته، شامل برنامه‌های ایستای مبتنی بر تصویر است، اما در پی آن هستیم که ثمره فناوری بینایی کامپیوتر را در زمینه ویدئو هم ببینیم.

برای مثال می‌توان به استقرار فناوری تشخیص چهره هوشمند در سراسر شبکه CCTV روسیه اشاره کرد. صنعت اتومبیل‌های بدون سرنشین تا حدود زیادی به توانایی ماشین‌ها برای درک حرکات جهان واقعی وابسته است.
گوگل یک مجموعه داده ویدئویی جدید راه اندازی کرده و امیدوار است که از این مجموعه داده برای سرعت بخشیدن به پژوهش‌ها در زمینه برنامه‌های بینایی کامپیوتر استفاده شود.

این مجموعه داده که AVA نام دارد، مخفف «اقدامات بصری اتمی» بوده و مجموعه داده‌ای است که از چند برچسب برای افرادی که در زمینه ویدئو کار می‌کنند، تشکیل شده است.