گوگل در حال استفاده از هوش مصنوعی برای شنود از چهرهها در جمعیت است
ایتنا - این تکنولوژی جدید گوگل از تشخیص چهره برای یافتن صداها در مثلا یک نوشیدنی فروشی شلوغ برای تقویت موج صوتی نسبت به دیگران و قابل شنیده شدنش استفاده میکند.
گوگل بار دیگر به دنبال افراد در میان جمعها است، ولی این بار نه به دنبال چهره آنها، بلکه صدایشان.
به گزارش سرویس خبر تکنولوژی از رایورز به نقل از اینکوایرر، فناوری تشخیص چهره در حال بهبود یافتن است تا در همه چیز، از امنیت خانه گرفته تا گسترش شهر هوشمند و بسیاری موارد دیگر؛ و حال به نظر میرسد نوبت به حوزه صدا رسیده است.
این تکنولوژی جدید گوگل از تشخیص چهره برای یافتن صداها در مثلاً یک نوشیدنی فروشی شلوغ برای تقویت موج صوتی نسبت به دیگران و قابل شنیده شدن آن استفاده میکند.
این تکنولوژی، با آموزش به یک شبکه عصبی در این باره که صداهای مختلف در سکوت به چه صورتی هستند، توان انتخاب آنها از بخشی از یک جمعیت را پیدا میکند. حتی میتوانید نویز پسزمینه و صداهای نامرتبط را فیلتر کنید.
به گزارش ایتنا گوگل توضیح داده است که «به باور ما، این تکنولوژی می تواند طیف وسیعی از کاربردها را شامل شود، از ارتقاء و تشخیص گفتار در ویدئوها تا ویدئو کنفرانس و بهبود سمعکها، به ویژه در شرایطی که افراد زیادی در حال صحبت هستند.»
در واقع، گوگل به دنبال افزودن آن به اپهای Duo و Allo است.
گوگل در یک بلاگ توضیح داده است که «یک جنبه منحصر بفرد از تکنیک ما، ترکیب سیگنالهای شنیداری و دیداری یک ویدئوی ورودی برای جداسازی گفتار است. به طور شهودی، به عنوان مثال، حرکتهای دهان یک فرد قاعدتاً با صداهایی که آن فرد در زمان صحبت تولید میکند ارتباط داشته باشد که به نوبه خود میتواند به شناسایی اینکه چه بخشهایی از آن صوت مرتبط با آن فرد است کمک نماید.»
«سیگنال دیداری علاوه بر اینکه کیفیت تفکیک گفتار را به طرز قابل توجهی در موارد گفتوگوی ترکیبی (در مقایسه با تفکیک گفتار با استفاده از صرفاً صدا) بهبود میبخشد، به شکلی مهم، ترکهای گفتاری مجزای شفاف را با گفتارگران قابل رؤیت در ویدئو نیز تطبیق میدهد.»
از این رو، مسئله اینجاست که اگر این تکنولوژی بتواند چنین کاربردی داشته باشد، کاربردهای فراوان دیگری نیز خواهد داشت که کم و بیش، بحث برانگیز میشوند.
اگر در حال فیلمبرداری شدن باشید و شبکه عصبی برای تشخیص صدایتان در تلاش باشد، از کجا معلوم که زیر نظر نیستید؟
درست است که این تکنولوژی میتواند سبب بهبود کارایی Google Assistant -در زمانی که صدای تلویزیون بلند است- شود و همچنین رونویسی یک مصاحبه در یک محیط نویزی را آسانتر کند، اما نگران کنندهتر اینکه میتواند حریم خصوصی شما را نیز مختل نماید.