ربات جدید مایکروسافت هر صدایی را تقلید می کند

ربات هوش مصنوعی جدید تبدیل متن به صدای شرکت مایکروسافت موسوم به VALL-E تنها با 3 ثانیه گوش سپردن به صدای شخص می تواند آن را به خوبی تقلید کند و حتی می تواند احساسات گوینده را نیز حفظ کند.

- به گزارش سایت قطره و به نقل ازایسنا، مایکروسافت جدیدترین پژوهش های خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان داده است که می تواند صدای افراد را تنها از یک نمونه صوتی سه ثانیه ای شبیه سازی کند.

پژوهشگران شرکت مایکروسافت این مدل چشمگیر جدید هوش مصنوعی تبدیل متن به گفتار را به نحوی طراحی کرده اند که می تواند فقط چند ثانیه به یک صدا گوش دهد، سپس آن صدا را تقلید کند و هرچه کاربر دوست دارد، بگوید.

گفتار نه تنها می تواند با صدای گوینده، بلکه با لحن احساسی وی و حتی آکوستیک یک اتاق همخوانی داشته باشد.

مایکروسافت می گوید، روزی می توان از این ربات برای برنامه های کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، اگرچه مانند فناوری دیپ فیک(جعل عمیق)، خطر سوءاستفاده را نیز به همراه دارد.

ربات هوش مصنوعی VALL-E چیزی است که مایکروسافت آن را مدل زبان عصبی کدک (neural codec language model) می نامد که از شبکه فشرده سازی عصبی شرکت متا موسوم به Encodec مشتق شده است که صدا را از ورودی متن و نمونه های کوتاه از بلندگوی هدف تولید می کند.