ايتنا - هوش مصنوعی جدید سامسونگ مونا لیزا را به حالت حرف زدن می‌آورد + ویدئو

هنوز قانع نشده‌اید که به زودی تشخیص اینکه ویدئوی یک شخص واقعی است یا جعلی غیرممکن می‌شود؟ وارد تحقیق جدید سامسونگ شوید، که در آن یک شبکه عصبی می‌تواند یک تصویر ساکن را به یک ویدئوی قانع‌کننده مشوش‌کننده تبدیل کند.

به گزارش ایتنا به نقل از مشبل، وبسایت Motherboard گزارش داده است که با آموزش یک «شبکه همگشتی عمیق» بر روی تعداد زیادی از ویدئوهایی که سر افرادی را در حال حرف زدن نشان می‌دهند، فراهمسازی امکان شناسایی برخی ویژگیهای چهره، و سپس استفاده از آن دانش برای پویانمایی یک تصویر، پژوهشگران در مرکز هوش مصنوعی سامسونگ در مسکو این هدف را محقق کرده‌اند.

این نتایج، که در مقاله‌ای با عنوان «یادگیری مخالف چندتصویره مدل‌های عصبی واقع‌گرایانه سر در حال حرف زدن» ارائه شده است، به اندازه برخی از ویدئوهای جعل عمیقی که تاکنون دیده‌اید خوب نباشد، ولی برای خلق آنها شما نیاز به تعداد زیادی تصویر از فردی دارید که برای پویانمایی آن تلاش می‌کنید.
مزیت این رویکرد سامسونگ این است که شما می‌توانید یک تصویر ساکن را به یک ویدئو تبدیل کنید (هرچند که باورپذیری ویدئوی حاصله با تصاویر بیشتر افزایش می‌یابد).

شما می‌توانید برخی از نتایج این تحقیق را در ویدئوی زیر ببینید. این هوش مصنوعی، با استفاده از تنها یک تصویر ساکن از فیدور داستایوفسکی، سالوادور دالی، آلبرت انیشتین، مریلین مونرو و حتی مونا لیزا، قادر به خلق ویدئوهایی از آنها خواهد بود که در حال حرف زدن هستند و – در برخی از لحظات – به اندازه کافی برای اینکه یک فیلم واقعی باشند واقعگرایانه هستند.

هیچ یک از این ویدئوها یک کارشناس، یا هر کسی که با دقت کافی به آنها نگاه کند، را فریب نخواهند داد. ولی همانگونه که در تحقیقات قبلی درباره تصویربرداری تولیدشده بر مبنای AI دیده‌ایم، این نتایج عمدتا به شکلی وسیع در ظرف چند سال بهبود می‌یابند.

این تحقیق مفاهیم ضمنی تکان‌دهنده‌ای دارد. به کمک این ابزار، تنها یک عکس از یک فرد (که امروزه به آسانی برای بیشتر افراد قابل دستیابی هستند) برای خلق ویدئویی از وی در حال حرف زدن نیازی خواهد بود. همچین ابزاری ویژه در دسترس قرار گرفته که می‌تواند با استفاده از تکه‌های کوتاهی از یک متریال صوتی نمونه صدای متقاعدکننده ولی جعلی از یک فرد تولید کند و ابزاری دیگر که می‌تواند هر جور حرفی را با صدای فرد مورد نظر بیان کند. و با ابزارهایی مانند GAN، محصول شرکت Nvidia، حتی می‌توان یک مجموعه جعلی ولی ظاهرا واقعی برای چنان ویدئویی خلق کند.
امید است که ابزارهایی نیز برای تشخیص کلیپ‌های واقعی از جعلی نیز با همین سرعت بتوانند توسعه داده شوند.

ویدئو