ايتنا - شش ابزار هوش مصنوعی جذاب برای تبدیل متن به ویدیو

پس از آن که DALL-E هوش مصنوعی تبدیل متن به تصویر را تولید کرد، دیگر شرکت‌ها قدمی فراتر برداشته و شروع به ساخت مدل‌های تبدیل متن به تصویر متفاوتی کردند.
در حالی که هنوز هم ممکن است نتایج کمی ناقص به نظر برسند، اما چندین مدل هوش مصنوعی وجود دارند که دارای درجه بالایی از کنترل و توانایی تولید فیلم در سبک‌های هنری مختلف هستند.

در اینجا شش مدل جدید هوش مصنوعی مناسب تبدیل متن به ویدیو را معرفی می‌کنیم.

Sora

شرکت OpenAI خالق چت‌جی‌پی‌تی به‌تازگی "سورا"، مدل جدید تبدیل متن به ویدیو خود را به نمایش گذاشته است.
این مدل "درکی عمیق از زبان" دارد و می‌تواند "شخصیت‌های قابل قبولی را ایجاد کند که احساسات را بیان می‌کنند."

Lumiere

گوگل هوش مصنوعی ویدیویی خود به نام Lumiere را دارد که توسط یک مدل انتشار جدید به نام Space-Time-U-Net طراحی شده است. لومیر مکان اشیاء را در یک ویدیو مشخص می‌کند و نحوه حرکت و تغییر همزمان آنها را ردیابی می‌کند.
لومیر هنوز برای کاربران عادی آماده نشده است. اما به مهارت گوگل در ایجاد نیروگاه ویدئویی هوش مصنوعی اشاره می‌کند که ممکن است از مدل‌های عمومی موجود مانند Runway و Pika پیشی بگیرد.
گوگل طی دو سال اخیر جهش فنی در بازی های ویدئویی هوش مصنوعی نیز داشته است.

VideoPoet

VideoPoet یک مدل زبان بزرگ است که بر روی مجموعه داده عظیمی از فیلم‌ها، تصاویر، صدا و متن آموزش داده شده است. این مدل می‌تواند وظایف مختلف تولید ویدیو را انجام دهد، از تبدیل متن یا تصاویر به ویدیو گرفته تا جذاب‌تر کردن ویدیوها با سبک، رنگ‌آمیزی درونی و بیرونی ویدیو، و ویدیو به صدا.

این مدل بر اساس یک ایده ساده ساخته شده است: تبدیل هر مدل زبان خودبازگشتی به یک سیستم تولید ویدئو.
مدل‌های زبان خودبازگشتی می‌توانند متن و کد را بطور بی‌نظیری ایجاد کنند. اما وقتی نوبت به ویدیو می‌رسد، آنها به یک مانع برمی‌خورند. برای مقابله با آن، VideoPoet از چند واسطه استفاده می‌کند که می‌تواند ویدیو، تصویر و کلیپ‌های صوتی را به زبانی که می‌فهمد تبدیل کند.

Emu Video

مدل هوش مصنوعی متا شامل دو مرحله است. ابتدا از متن یک عکس می‌سازد. سپس، از آن متن و تصویر برای ایجاد یک ویدیوی درجه یک استفاده می‌کند.
نکته جالب اینکه 81 درصد کاربران Emu Video را به Imagen Video Google ترجیح می‌دهند، 90 درصد آن را به PYOCO NVIDIA ترجیح می‌دهند و 96 درصد می‌گویند که بهتر از Make-A-Video خود متا است. نه فقط این، بلکه حتی گزینه‌های تجاری مانند RunwayML's Gen2 و Pika Labs را نیز شکست می‌دهد.

Phenaki

تیم پشتیبان Phenaki Video از Mask GIT برای تولید ویدیوهای هدایت‌شده متنی در PyTorch استفاده کرد. این مدل می‌تواند ویدیوهایی با هدایت متن تولید کرده که تا مدت زمان 2 دقیقه‌ای، بسازد
Phenaki همه کاره است و برای محققان جهت آموزش متن به تصویر و متن به ویدئو باز است. آنها می‌توانند با تصاویر شروع کرده و سپس برای آموزش بدون قید و شرط روی تنظیم ویدیو تمرکز کنند.

CogVideo

گروهی از محققان دانشگاه Tsinghua در پکن CogVideo را توسعه دادند که یک مدل تولید متن به ویدئوی از قبل آموزش دیده در مقیاس بزرگ است.
آنها این مدل را با استفاده از یک مدل از پیش آموزش داده شده متن به تصویر به نام CogView2 ساختند تا از آموخته‌های قبلی خود، استفاده کنند.