ابزار شبیه سازی صوتی OpenAI که کاربران هنوز نمیتوانند از آن استفاده کنند!
ایتنا - با گسترش دیپفیکها، اوپن ایآی در حال اصلاح فناوری مورد استفاده برای شبیهسازی صداها است.
شبیهساز صدای اوپن ایآی یک توسعه API متن به گفتار است. این موتور صوتی به کاربران اجازه میدهد تا هر نمونه صدای 15 ثانیهای را برای تولید یک کپی مصنوعی از آن صدا آپلود کنند. هنوز تاریخ مشخصی برای عرضه عمومی این فناوری وجود ندارد.
آموزش مدل و سنتز صدا
مدل هوش مصنوعی مولدی است که Voice Engine بر روی ترکیبی از دادههای دارای مجوز و در دسترس عموم آموزش داده شده است. این شبیهساز صدا (Voice Engine) دارای زیربنای قابلیتهای صدا و خواندن با صدای بلند در ChatGPT، ربات چت مبتنی بر هوش مصنوعی اوپن ایآی، و همچنین صداهای از پیش تعیین شده موجود در API متن به گفتار اوپن ایآی است.
Voice Engine روی دادههای کاربر آموزش یا تنظیم دقیقی ندارد که تا حدی به دلیل روشی زودگذر است که در این مدل گفتار را تولید میکند.
جف هریس، عضو بخش تولید اوپنایآی گفت: «ما یک نمونه از فایل صوتی و متن کوچک را به گفتار واقعی را تولید میکنیم که با سخنران اصلی مطابقت دارد. صوتی که استفاده میشود پس از تکمیل درخواست حذف میشود.» این فناوری جدید نیست. تعدادی از استارتآپها سالها محصولات شبیهسازی صدا را ارائه کردهاند، از ElevenLabs گرفته تا Replica Studios، Papercup، Deepdub و Respeecher و همینطور شرکتهای بزرگ فناوری مانند آمازون، گوگل و مایکروسافت - که اتفاقاً آخرین آنها سرمایه گذار بزرگ اوپن ایآی است.
هریس ادعا کرد که رویکرد اوپن ایآی، طور کلی سخنرانی با کیفیت بالاتری را ارائه میدهد.
Voice Engine کنترلهایی را برای تنظیم لحن، زیر و بم یا آهنگ صدا ارائه نمیکند. در واقع، در حال حاضر هیچ دکمه یا صفحه تنظیم دقیقی ارائه نمیدهد، اگرچه هریس خاطرنشان میکند که انواع طرز بیان در نمونه صدای 15 ثانیهای در مکالمات بعدی نیز ادامه خواهد داشت (به عنوان مثال، اگر با لحنی هیجان زده صحبت کنید، صدای مصنوعی به طور مداوم هیجان زده به نظر میرسد).
صدا به عنوان کالا
دستمزد صداپیشگان از 12 تا 79 دلار در ساعت متغیر است - که بسیار گرانتر از Voice Engine است. در صورت تحقق، ابزار اوپن ایآی میتواند کار صوتی را «کالایی» کند. در این صورت آیا میتوان اینگونه نتیجه گرفت که این کار، صداپیشگان را بیکار میکند؟
باید گفت که برعکس، استعدادها به حاشیه رانده نمیشوند. مدتی است که با وجود تهدیدات هوش مصنوعی مولد، از صداپیشگان خواسته میشود تا حقوق صدای خود را امضا کنند تا مشتریان بتوانند از هوش مصنوعی برای تولید نسخههای مصنوعی استفاده کنند که در نهایت میتواند جایگزین آنها شود.
استودیوی Replica سال گذشته قراردادی تا حدی بحث برانگیز، با SAG-AFTRA امضا کرد تا نسخههایی از صدای اعضای اتحادیه هنرمندان رسانه ایجاد و مجوز ایجاد کند. این سازمانها گفتند که این ترتیب، شرایط و ضوابط منصفانه و اخلاقی را برای اطمینان از رضایت اجراکننده در مورد شرایط استفاده از صداهای مصنوعی در آثار جدید، از جمله بازیهای ویدیویی، ایجاد کرده است.
هریس گفت: «من فکر میکنم که فرصتهای زیادی وجود خواهد داشت که بهعنوان یک صداپیشه از طریق این نوع فناوری، میزان دسترسی خود را افزایش دهید.»
اخلاق و دیپ فیک
برنامههای شبیه سازی صدا میتوانند مورد سوء استفاده قرار گیرند. این نگرانی وجود دارد که خرابکارها تلاش کنند تا با شبیهسازی صدا بر انتخابات تأثیر بگذارند. در ماه ژانویه، یک کمپین تلفنی از صدای جعلی رئیس جمهور بایدن استفاده کرد تا شهروندان نیوهمپشایر را از رای دادن منصرف کند که باعث شد مقامات برای غیرقانونی کردن چنین کمپینهایی اقدام کنند.
سوالی که مطرح میشود این است که جدای از ممنوعیت دیپ فیک در حوزه سیاست، اوپن ایآی چه اقدامات دیگری را انجام میدهد؟
هریس به چند مورد اشاره کرد. اولاً، Voice Engine برای شروع فقط در دسترس گروه بسیار کوچکی از توسعه دهندگان (حدود 10 نفر) قرار گرفت و موارد استفادهای که کم خطر و از نظر اجتماعی سودمند هستند مانند سلامت و بهداشت اولویتبندی میشوند.
دوم، کلونهای ایجاد شده با Voice Engine واترمارک می شوند که مقاوم در برابر دستکاری هستند. سوم، اوپن ایآی قصد دارد به اعضای شبکه تیم قرمز خود که گروهی از کارشناسان هستند که به ارزیابی ریسک مدل هوش مصنوعی شرکت و استراتژیهای کاهش آن کمک میکنند، دسترسی به Voice Engine برای جلوگیری از استفادههای مخرب ارائه دهد.
انتشار عمومی
بسته به نحوه پیشنمایش و استقبال عمومی از Voice Engine، اوپن ایآی ممکن است این ابزار را در پایگاه توسعهدهندگان گستردهتر خود عرضه کند، اما در حال حاضر، این شرکت تمایلی به توضیحات بیشتری ندارد.
هریس فاش کرد که اوپن ایآی در حال آزمایش یک مکانیسم امنیتی است که کاربران را وادار میکند متنهای تولید شده را بهطور تصادفی بخوانند تا دلیلی بر این باشد که از نحوه استفاده از صدای خود آگاه هستند. هریس گفت که این، میتواند به اوپن ایآی اعتماد به نفس لازم برای ارائه Voice Engine به افراد بیشتری بدهد.
او گفت: «آنچه ما را از نظر فناوری تطبیق صدای واقعی به جلو میبرد، حفرههای ایمنی کشف شده و اقدامات محافظتی است که در اختیار داریم بستگی دارد. ما نمیخواهیم کاربران میان صداهای مصنوعی و صدای واقعی انسانی اشتباه کنند.»