ايتنا - گوگل در حال استفاده از هوش مصنوعی برای شنود از چهره‌ها در جمعیت است

گوگل بار دیگر به دنبال افراد در میان جمع‌ها است، ولی این بار نه به دنبال چهره آنها، بلکه صدایشان.

به گزارش سرویس خبر تکنولوژی از رایورز به نقل از اینکوایرر، فناوری تشخیص چهره در حال بهبود یافتن است تا در همه چیز، از امنیت خانه گرفته تا گسترش شهر هوشمند و بسیاری موارد دیگر؛ و حال به نظر می‌رسد نوبت به حوزه صدا رسیده است.

این تکنولوژی جدید گوگل از تشخیص چهره برای یافتن صداها در مثلاً یک نوشیدنی فروشی شلوغ برای تقویت موج صوتی نسبت به دیگران و قابل شنیده شدن آن استفاده می‌کند.
این تکنولوژی، با آموزش به یک شبکه عصبی در این باره که صداهای مختلف در سکوت به چه صورتی هستند، توان انتخاب آنها از بخشی از یک جمعیت را پیدا می‌کند. حتی می‌توانید نویز پس‌زمینه و صداهای نامرتبط را فیلتر کنید.

به گزارش ایتنا گوگل توضیح داده است که «به باور ما، این تکنولوژی می تواند طیف وسیعی از کاربردها را شامل شود، از ارتقاء و تشخیص گفتار در ویدئوها تا ویدئو کنفرانس و بهبود سمعک‌ها، به ویژه در شرایطی که افراد زیادی در حال صحبت هستند.»

در واقع، گوگل به دنبال افزودن آن به اپ‌های Duo و Allo است.

گوگل در یک بلاگ توضیح داده است که «یک جنبه منحصر بفرد از تکنیک ما، ترکیب سیگنال‌های شنیداری و دیداری یک ویدئوی ورودی برای جداسازی گفتار است. به طور شهودی، به عنوان مثال، حرکت‌های دهان یک فرد قاعدتاً با صداهایی که آن فرد در زمان صحبت تولید می‌کند ارتباط داشته باشد که به نوبه خود می‌تواند به شناسایی اینکه چه بخش‌هایی از آن صوت مرتبط با آن فرد است کمک نماید.»

«سیگنال دیداری علاوه بر اینکه کیفیت تفکیک گفتار را به طرز قابل توجهی در موارد گفت‌وگوی ترکیبی (در مقایسه با تفکیک گفتار با استفاده از صرفاً صدا) بهبود می‌بخشد، به شکلی مهم، ترک‌های گفتاری مجزای شفاف را با گفتارگران قابل رؤیت در ویدئو نیز تطبیق می‌دهد.»

از این رو، مسئله اینجاست که اگر این تکنولوژی بتواند چنین کاربردی داشته باشد، کاربردهای فراوان دیگری نیز خواهد داشت که کم و بیش، بحث برانگیز می‌شوند.

اگر در حال فیلمبرداری شدن باشید و شبکه عصبی برای تشخیص صدایتان در تلاش باشد، از کجا معلوم که زیر نظر نیستید؟

درست است که این تکنولوژی می‌تواند سبب بهبود کارایی Google Assistant -در زمانی که صدای تلویزیون بلند است- شود و همچنین رونویسی یک مصاحبه در یک محیط نویزی را آسان‌تر کند، اما نگران کننده‌تر اینکه می‌تواند حریم خصوصی شما را نیز مختل نماید.