ايتنا - «وویس‌باکس» متا به‌دلیل خطرهای احتمالی عرضه نخواهد شد

این ابزار جدید وویس‌باکس (Voicebox) نام دارد و می‌توان از آن برای ایجاد تولیداتی در سبک‌های مختلف، صداهایی به‌کلی جدید و همچنین تولید صدا با [استفاده از] نمونه استفاده کرد. این ابزار صداها را به شش زبان و همچنین با ابزارهای متنوع دیگری از جمله ابزار حذف صداهای اضافی (نویز) تولید می‌کند.

به گزارش ایتنا و به نفل از ایندیپندنت، متا می‌گوید این یک پیشرفت بزرگ در سیستم‌های صداسازی قبلی است که برای هر کار به آموزش خاصی نیاز داشتند. در حالی که می‌توان به وویس‌باکس فقط صدای خام و آوانگاری داد و سپس از آن برای تغییر نمونه صوت استفاده کرد.

متا در اطلاعیه‌اش مدعی شد که این ابزار بسیار کارآمدتر از رقبای خود است. برای مثال، این ابزار در مقایسه با ۵.۹ درصد میزان خطای رقیبش وال‌ــ‌ئی (Vall-E)، می‌تواند کلماتی با میزان خطای ۱.۹ درصد تولید کند و این کار را با سرعت تا ۲۰ برابر بیشتر انجام دهد.

متا گفت که این ابزار، بر اساس مدل جدیدی به نام فلو مچینگ (Flow Matching) ساخته شده است. این مدل به سیستم اجازه می‌دهد از آواهایی که به دقت نام‌گذاری یا علامت‌گذاری نشد‌ه‌اند، بیاموزد تا بتواند با داده‌های متنوع‌تر و بیشتری آموزش ببیند.

بنا بر اعلام متا، وویس‌باکس روی ۵۰ هزار ساعت گفتار و متن‌هایی که از کتاب‌های صوتی رایگان و در دسترس عموم به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی آمده بود، آموزش داده شد. متا گفت اکنون که این ابزار آموزش دیده است، می‌توان یک صدای ضبط‌شده به آن داد و جاهای خالی سخنرانی را بر اساس بافتار مفهوم پر کرد.

این ابزار می‌تواند از تنها دو ثانیه صحبت برای ایجاد صدایی واقعی استفاده کند؛ برای نمونه می‌توان از آن به‌طور بالقوه برای صدا دادن به افرادی که قادر به صحبت کردن نیستند یا برای افزودن صدای افراد به بازی‌ها استفاده کرد.

متا گفت این ابزار همچنین می‌تواند برای ترجمه قسمتی از گفتار از یک زبان به زبان دیگر به‌گونه‌ای استفاده شود که سبک را حفظ کند و این به افراد امکان می‌دهد حتی اگر به یک زبان صحبت نمی‌کنند، با همان سبک و سیاق و لحن صدای اصلی با یکدیگر حرف بزنند.

این ابزار همچنین می‌تواند در مواردی فنی‌تر، از جمله ویرایش صدا مفید باشد و از آن برای جایگزین کردن کلماتی که به‌درستی ضبط نشده‌اند، استفاده کرد.

اما متا اعلام کرد خطرات این ابزار به‌حدی بود که از این مدل رونمایی نخواهد کرد. متا به آسیب‌های خاصی اشاره نکرد، اما گفت که «مانند سایر نوآوری‌های جدید و قدرتمند هوش مصنوعی، می‌دانیم که این فناوری، ظرفیت سوء‌استفاده و آسیب‌های ناخواسته را به همراه دارد».

گزارش‌های بسیاری هشدار داده‌اند که چنین سیستم‌هایی ممکن است برای تقلید صدای افراد بدون رضایت آن‌ها استفاده شوند. برای مثال با روش‌هایی که ممکن است آسیب‌زا باشند؛ از جمله ساخت ویدیوهای جعلی از رویدادهای خبری یا استفاده از صدای افراد برای جعل هویت حین تماس‌های کلاهبرداری.

متا در بیانیه‌ای گفت: «موارد استفاده هیجان‌انگیز زیادی برای مدل‌های گفتار مولد وجود دارد اما به دلیل خطرات احتمالی سوء‌استفاده، ما در حال حاضر مدل یا کد وویس‌باکس را در دسترس عموم قرار نمی‌دهیم.»

«در حالی که ما معتقدیم شفاف و روراست بودن با جامعه هوش مصنوعی و به اشتراک گذاشتن پژوهش‌های خود در زمینه پیشرفته‌ترین‌ها در هوش مصنوعی مهم است، ضروری است که میان شفافیت و مسئولیت‌پذیری هم تعادل مناسبی ایجاد شود.»

متا همچنین به مقاله جداگانه‌ای اشاره کرد که در وب‌سایت این شرکت منتشر و در آن به تفصیل توضیح داده شد که این شرکت چگونه یک سیستم «بسیار کارآمد» ساخته است که می‌تواند بین صدای واقعی و صدای تولیدشده با وویس‌باکس تمایز قائل شود.