ايتنا - ابزار شبیه سازی صوتی OpenAI که کاربران هنوز نمی‌توانند از آن استفاده کنند!

شبیه‌ساز صدای اوپن ای‌آی یک توسعه API متن به گفتار است. این موتور صوتی به کاربران اجازه می‌دهد تا هر نمونه صدای 15 ثانیه‌ای را برای تولید یک کپی مصنوعی از آن صدا آپلود کنند. هنوز تاریخ مشخصی برای عرضه عمومی این فناوری وجود ندارد.

آموزش مدل و سنتز صدا
مدل هوش مصنوعی مولدی است که Voice Engine بر روی ترکیبی از داده‌های دارای مجوز و در دسترس عموم آموزش داده شده است. این شبیه‌ساز صدا (Voice Engine) دارای زیربنای قابلیت‌های صدا و خواندن با صدای بلند در ChatGPT، ربات چت مبتنی بر هوش مصنوعی اوپن ای‌آی، و همچنین صداهای از پیش تعیین شده موجود در API متن به گفتار اوپن ای‌آی است.

Voice Engine روی داده‌های کاربر آموزش یا تنظیم دقیقی ندارد که تا حدی به دلیل روشی زودگذر است که در این مدل گفتار را تولید می‌کند.

جف هریس، عضو بخش تولید اوپن‌ای‌آی گفت: «ما یک نمونه از فایل صوتی و متن کوچک را به گفتار واقعی را تولید می‌کنیم که با سخنران اصلی مطابقت دارد. صوتی که استفاده می‌شود پس از تکمیل درخواست حذف می‌شود.» این فناوری جدید نیست. تعدادی از استارت‌آپ‌ها سال‌ها محصولات شبیه‌سازی صدا را ارائه کرده‌اند، از ElevenLabs گرفته تا Replica Studios، Papercup، Deepdub و Respeecher و همینطور شرکت‌های بزرگ فناوری مانند آمازون، گوگل و مایکروسافت - که اتفاقاً آخرین آن‌ها سرمایه گذار بزرگ اوپن ای‌آی است.

هریس ادعا کرد که رویکرد اوپن ای‌آی، طور کلی سخنرانی با کیفیت بالاتری را ارائه می‌دهد.

Voice Engine کنترل‌هایی را برای تنظیم لحن، زیر و بم یا آهنگ صدا ارائه نمی‌کند. در واقع، در حال حاضر هیچ دکمه یا صفحه تنظیم دقیقی ارائه نمی‌دهد، اگرچه هریس خاطرنشان می‌کند که انواع طرز بیان در نمونه صدای 15 ثانیه‌ای در مکالمات بعدی نیز ادامه خواهد داشت (به عنوان مثال، اگر با لحنی هیجان زده صحبت کنید، صدای مصنوعی به طور مداوم هیجان زده به نظر می‌رسد).

صدا به عنوان کالا
دستمزد صداپیشگان از 12 تا 79 دلار در ساعت متغیر است - که بسیار گران‌تر از Voice Engine است. در صورت تحقق، ابزار اوپن ای‌آی می‌تواند کار صوتی را «کالایی» کند. در این صورت آیا می‌توان اینگونه نتیجه گرفت که این کار، صداپیشگان را بیکار می‌کند؟

باید گفت که برعکس، استعدادها به حاشیه رانده نمی‌شوند. مدتی است که با وجود تهدیدات هوش مصنوعی مولد، از صداپیشگان خواسته می‌شود تا حقوق صدای خود را امضا کنند تا مشتریان بتوانند از هوش مصنوعی برای تولید نسخه‌های مصنوعی استفاده کنند که در نهایت می‌تواند جایگزین آنها شود.

استودیوی Replica سال گذشته قراردادی تا حدی بحث برانگیز، با SAG-AFTRA امضا کرد تا نسخه‌هایی از صدای اعضای اتحادیه هنرمندان رسانه ایجاد و مجوز ایجاد کند. این سازمان‌ها گفتند که این ترتیب، شرایط و ضوابط منصفانه و اخلاقی را برای اطمینان از رضایت اجراکننده در مورد شرایط استفاده از صداهای مصنوعی در آثار جدید، از جمله بازی‌های ویدیویی، ایجاد کرده است.

هریس گفت: «من فکر می‌کنم که فرصت‌های زیادی وجود خواهد داشت که به‌عنوان یک صداپیشه از طریق این نوع فناوری، میزان دسترسی خود را افزایش دهید.»

اخلاق و دیپ فیک
برنامه‌های شبیه سازی صدا می‌توانند مورد سوء استفاده قرار گیرند. این نگرانی وجود دارد که خرابکارها تلاش کنند تا با شبیه‌سازی صدا بر انتخابات تأثیر بگذارند. در ماه ژانویه، یک کمپین تلفنی از صدای جعلی رئیس جمهور بایدن استفاده کرد تا شهروندان نیوهمپشایر را از رای دادن منصرف کند که باعث شد مقامات برای غیرقانونی کردن چنین کمپین‌هایی اقدام کنند.

سوالی که مطرح می‌شود این است که جدای از ممنوعیت دیپ فیک در حوزه سیاست، اوپن ای‌آی چه اقدامات دیگری را انجام می‌دهد؟
هریس به چند مورد اشاره کرد. اولاً، Voice Engine برای شروع فقط در دسترس گروه بسیار کوچکی از توسعه دهندگان (حدود 10 نفر) قرار گرفت و موارد استفاده‌ای که کم خطر و از نظر اجتماعی سودمند هستند مانند سلامت و بهداشت اولویت‌بندی می‌شوند.
دوم، کلون‌های ایجاد شده با Voice Engine واترمارک می شوند که مقاوم در برابر دستکاری هستند. سوم، اوپن ای‌آی قصد دارد به اعضای شبکه تیم قرمز خود که گروهی از کارشناسان هستند که به ارزیابی ریسک مدل هوش مصنوعی شرکت و استراتژی‌های کاهش آن کمک می‌کنند، دسترسی به Voice Engine برای جلوگیری از استفاده‌های مخرب ارائه دهد.

انتشار عمومی
بسته به نحوه پیش‌نمایش و استقبال عمومی از Voice Engine، اوپن ای‌آی ممکن است این ابزار را در پایگاه توسعه‌دهندگان گسترده‌تر خود عرضه کند، اما در حال حاضر، این شرکت تمایلی به توضیحات بیشتری ندارد.

هریس فاش کرد که اوپن ای‌آی در حال آزمایش یک مکانیسم امنیتی است که کاربران را وادار می‌کند متن‌های تولید شده را به‌طور تصادفی بخوانند تا دلیلی بر این باشد که از نحوه استفاده از صدای خود آگاه هستند. هریس گفت که این، می‌تواند به اوپن ای‌آی اعتماد به نفس لازم برای ارائه Voice Engine به افراد بیشتری بدهد.

او گفت: «آنچه ما را از نظر فناوری تطبیق صدای واقعی به جلو می‌برد، حفره‌های ایمنی کشف شده و اقدامات محافظتی است که در اختیار داریم بستگی دارد. ما نمی‌خواهیم کاربران میان صداهای مصنوعی و صدای واقعی انسانی اشتباه کنند.»