هوش مصنوعی جدید سامسونگ مونا لیزا را به حالت حرف زدن میآورد + ویدئو
ایتنا - این تحقیق مفاهیم ضمنی تکاندهندهای دارد. به کمک این ابزار، تنها یک عکس از یک فرد (که امروزه به آسانی برای بیشتر افراد قابل دستیابی هستند) برای خلق ویدئویی از وی در حال حرف زدن نیازی خواهد بود.
هنوز قانع نشدهاید که به زودی تشخیص اینکه ویدئوی یک شخص واقعی است یا جعلی غیرممکن میشود؟ وارد تحقیق جدید سامسونگ شوید، که در آن یک شبکه عصبی میتواند یک تصویر ساکن را به یک ویدئوی قانعکننده مشوشکننده تبدیل کند.
به گزارش ایتنا به نقل از مشبل، وبسایت Motherboard گزارش داده است که با آموزش یک «شبکه همگشتی عمیق» بر روی تعداد زیادی از ویدئوهایی که سر افرادی را در حال حرف زدن نشان میدهند، فراهمسازی امکان شناسایی برخی ویژگیهای چهره، و سپس استفاده از آن دانش برای پویانمایی یک تصویر، پژوهشگران در مرکز هوش مصنوعی سامسونگ در مسکو این هدف را محقق کردهاند.
این نتایج، که در مقالهای با عنوان «یادگیری مخالف چندتصویره مدلهای عصبی واقعگرایانه سر در حال حرف زدن» ارائه شده است، به اندازه برخی از ویدئوهای جعل عمیقی که تاکنون دیدهاید خوب نباشد، ولی برای خلق آنها شما نیاز به تعداد زیادی تصویر از فردی دارید که برای پویانمایی آن تلاش میکنید.
مزیت این رویکرد سامسونگ این است که شما میتوانید یک تصویر ساکن را به یک ویدئو تبدیل کنید (هرچند که باورپذیری ویدئوی حاصله با تصاویر بیشتر افزایش مییابد).
شما میتوانید برخی از نتایج این تحقیق را در ویدئوی زیر ببینید. این هوش مصنوعی، با استفاده از تنها یک تصویر ساکن از فیدور داستایوفسکی، سالوادور دالی، آلبرت انیشتین، مریلین مونرو و حتی مونا لیزا، قادر به خلق ویدئوهایی از آنها خواهد بود که در حال حرف زدن هستند و – در برخی از لحظات – به اندازه کافی برای اینکه یک فیلم واقعی باشند واقعگرایانه هستند.
هیچ یک از این ویدئوها یک کارشناس، یا هر کسی که با دقت کافی به آنها نگاه کند، را فریب نخواهند داد. ولی همانگونه که در تحقیقات قبلی درباره تصویربرداری تولیدشده بر مبنای AI دیدهایم، این نتایج عمدتا به شکلی وسیع در ظرف چند سال بهبود مییابند.
این تحقیق مفاهیم ضمنی تکاندهندهای دارد. به کمک این ابزار، تنها یک عکس از یک فرد (که امروزه به آسانی برای بیشتر افراد قابل دستیابی هستند) برای خلق ویدئویی از وی در حال حرف زدن نیازی خواهد بود. همچین ابزاری ویژه در دسترس قرار گرفته که میتواند با استفاده از تکههای کوتاهی از یک متریال صوتی نمونه صدای متقاعدکننده ولی جعلی از یک فرد تولید کند و ابزاری دیگر که میتواند هر جور حرفی را با صدای فرد مورد نظر بیان کند. و با ابزارهایی مانند GAN، محصول شرکت Nvidia، حتی میتوان یک مجموعه جعلی ولی ظاهرا واقعی برای چنان ویدئویی خلق کند.
امید است که ابزارهایی نیز برای تشخیص کلیپهای واقعی از جعلی نیز با همین سرعت بتوانند توسعه داده شوند.