ایتنا - متا با اشاره به «خطرات احتمالی سوء استفاده» با وجود «موارد استفاده بسیار هیجانانگیزی که برای مدلهای گفتار مولد» وجود دارد اعلام کرد که نه اپ Voicebox و نه کد منبع آن در حال حاضر برای استفاده عموم منتشر نمیشود.
هوش مصنوعی وویسباکس متا یک Dall-E برای تبدیل متن به گفتار است
سايت خبری ايتنا , 4 تير 1402 ساعت 8:00
ایتنا - متا با اشاره به «خطرات احتمالی سوء استفاده» با وجود «موارد استفاده بسیار هیجانانگیزی که برای مدلهای گفتار مولد» وجود دارد اعلام کرد که نه اپ Voicebox و نه کد منبع آن در حال حاضر برای استفاده عموم منتشر نمیشود.
یک گام دیگر به سمت تحقق دنیای سلبریتیهای بدونمرگ برداشته شد: متا از مدل مولد متن به گفتار خود موسوم به Voicebox، که وعده داده است همان کاری را که ChatGPT و Dall-E برای تولید متن و تصویر انجام دادند برای کلام گفتاری انجام دهد، رونمایی کرد.
به گزارش ایتنا و به نقل از انگجت، اساساً این ابزار یک تولیدکننده متن به خروجی است، درست مانند GPT یا Dall-E، فقط به جای ایجاد متن یا تصاویر زیبا، کلیپهای صوتی تولید میکند. متا این سیستم را بهعنوان «یک مدل تطبیق جریان غیرخودهمبسته که برای پر کردن گفتار، با توجه به بافت صوتی و متن، آموزش داده شده است» تعریف میکند. وویسباکس با بهرهگیری از بیش از 50000 ساعت صدای فیلتر نشده آموزش دیده است. مشخصاٌ، متا از گفتار و رونویسیهای ضبط شده از مجموعهای از کتابهای صوتی با مالکیت عمومی که به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شده بودند، استفاده کرد.
به گفته این پژوهشگران، این مجموعه متنوع از دادهها به این سیستم امکان میدهد فارغ از اینکه زبانهایی که هر یک از طرفها به چه زبانی صحبت میکنند، گفتار محاورهای بیشتری تولید کند. «نتایج ما نشان میدهد که مدلهای تشخیص گفتار آموزشدیده بر روی گفتار مصنوعی تولید شده توسط وویسباکس تقریباً به همان خوبی مدلهای آموزش داده شده با استفاده از گفتار واقعی عمل میکنند». علاوه بر این، این گفتار تولید شده توسط کامپیوتر تنها 1 درصد نرخ خطا داشت، در حالی که در مدلهای TTS موجود این افت به 45 تا 70 درصد میرسد.
کد مطلب: 73360
آدرس مطلب: https://www.itna.ir/news/73360/هوش-مصنوعی-وویس-باکس-متا-یک-dall-e-تبدیل-متن-گفتار