ایتنا - این سیستم حتی میتواند لحن احساسی و محیط پژواکشناختی گوینده اصلی را تقلید کند.
هوش مصنوعی مایکروسافت در سه ثانیه صدای شما را تقلید میکند
23 دی 1401 ساعت 8:56
ایتنا - این سیستم حتی میتواند لحن احساسی و محیط پژواکشناختی گوینده اصلی را تقلید کند.
مدل زبان «وال-ای» (VALL-E) با استفاده از شش هزار ساعت سخنرانی انگلیسی از هفت هزار سخنران مختلف آموزش داده شد تا «طرز حرف زدن شخصیسازی شده با کیفیت بالا» از هر گوینده نادیدهای را بازآفرینی کند.
به گزارش ایتنا و به نقل از ایندیپندنت، هنگامی که این دستگاه هوشمصنوعی، صدای ضبطشده فردی را در اختیار داشته باشد، قادر است صدای او را جوری بازسازی کند که گویی آن شخص در حال گفتن هر چیزی است. این سیستم حتی میتواند لحن احساسی و محیط پژواکشناختی گوینده اصلی را تقلید کند.
در مقالهای که این سامانه را توصیف میکند، آمده است: «نتایج آزمایش نشان میدهد که وال-ای از نظر طبیعی بودن گفتار و شباهت به گوینده، به طرز چشمگیری از پیشرفتهترین سامانه یادگیری بدون مشاهده نمونههای مشابه برای تولید متن به گفتار (TTS) بهتر عمل میکند.»
«افزون بر این، متوجه شدیم که وال-ای میتواند احساسات و محیط پژواکشناختی صدای گوینده را در خلال تولید صدا درست حفظ کند.»
از جمله کاربردهای بالقوه آن، خواندن کامل کتابهای صوتی از تنها یک نمونه ضبطشده صدای نویسندگان، ویدیوهایی با صداگذاری به زبان طبیعی، و پرکردن صدا برای بازیگر فیلم در صورت خراب شدن ضبط اصلی است.
کد مطلب: 71394
آدرس مطلب: https://www.itna.ir/news/71394/هوش-مصنوعی-مایکروسافت-سه-ثانیه-صدای-تقلید-می-کند