ايتنا - سورا مدل هوش مصنوعی تبدیل متن به ویدیوی اپن‌ای‌آی رونمایی شد + ویدیو

سورا مدل هوش مصنوعی تبدیل متن به ویدیوی اپن‌ای‌آی رونمایی شد + ویدیو

ایتنا - شرکت‌هایی مانند Runway و Pika مدل‌های تبدیل‌گر متن به ویدیوی تحسین‌برانگیز تولیدی خود را معرفی کردند و لومیِر گوگل نیز یکی از رقبای اصلی OpenAI در این فضا به شمار می‌رود.

شرکت OpenAI از قصد خود برای عرضه یک مدل جدید برای تولید ویدئو به نام سورا (Sora) خبر داد.

به گزارش ایتنا و به نقل از ورج، این شرکت هوش مصنوعی می‌گوید سورا «می‌تواند صحنه‌های واقعی و تخیلی را از دستورالعمل‌های متنی خلق کند». این مدل تبدیل‌گر متن به ویدیو برای کاربران این امکان را فراهم می‌آورد تا ویدیوهای واقع‌گرایانه، با طول حداکثر یک دقیقه، ایجاد کنند - همه بر اساس دستورالعمل‌هایی که برای آن نوشته‌اند.

OpenAI در معرفی این مدل توضیح داده است که سورا قادر است «صحنه‌های پیچیده با کاراکترهای متعدد، انواع خاصی از حرکت‌ها، و جزئیات دقیق سوژه و پس‌زمینه» ایجاد کند. این شرکت همچنین خاطرنشان کرده است که این مدل می‌تواند درک کند که چگونه اجسام «در دنیای فیزیکی وجود دارند»، و همچنین «به‌طور دقیق درخواست‌ کاربر را تفسیر می‌کند و کاراکترهای قانع‌کننده‌ای می‌آفریند که از نظر احساسی سرزنده هستند».

این مدل همچنین می‌تواند یک ویدیو بر اساس یک تصویر ثابت تولید کند، همچنین فریم‌های از دست رفته را در یک ویدیوی موجود پر کرده یا آن را گسترش دهد. دموهای تولید شده توسط سورا که در پست وبلاگ OpenAI گنجانده شده‌اند، شامل صحنه‌ای هوایی از کالیفرنیا در عصر جویندگان طلا، ویدیویی که به نظر می‌رسد از داخل یک قطار توکیو گرفته شده است، و موارد دیگر می‌شود. بسیاری از آنها نشانه‌های آشکاری از تولید شدن توسط هوش مصنوعی دارند - مانند یک طبقه در یک ویدیو از یک موزه که به طرز مشکوکی متحرک است - و OpenAI می‌گوید این مدل «ممکن است با شبیه‌سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد»، اما نتایج در کل بسیار چشمگیر هستند.

فیلمی که توسط هوش مصنوعی Sora و با دریافت دستورات متنی تولید شده است

دو سال پیش، مولدهای تبدیل متن به تصویر مانند Midjourney بودند که پیشگام توانایی چنین مدل‌هایی برای تبدیل کلمات به تصویر بودند. اما اخیراً، کیفیت ویدیو با سرعت قابل‌توجهی رو به بهبود گذاشته است: شرکت‌هایی مانند Runway و Pika مدل‌های تبدیل‌گر متن به ویدیوی تحسین‌برانگیز تولیدی خود را معرفی کردند و لومیِر گوگل نیز یکی از رقبای اصلی OpenAI در این فضا به شمار می‌رود. لومیر، مانند سورا، ابزارهای تبدیل متن به ویدیو را در اختیار کاربران قرار می‌دهد و همچنین برای آنها امکان ساخت فیلم از یک تصویر ثابت را فراهم می‌آورد.

سورا در حال حاضر فقط برای «تیم‌های قرمز» که در حال ارزیابی مدل از نظر آسیب‌ها و خطرات احتمالی هستند در دسترس است. OpenAI همچنین دسترسی امکان دسترسی به آن را برای برخی از هنرمندان تجسمی، طراحان و فیلمسازان به منظور دریافت بازخوردشان فراهم آورده است.