نوشته و ویرایش شده توسط مجله ی اسکوار
مایکروسافت نسخه جدیدی از مدل هوش مصنوعی تبدیل متن به گفتار خود با نام VALL-E 2 را گسترش داده است که از نظر طبیعیبودن صدای تشکیلشده کارکرد شگفت انگیزای دارد. بااینحال، مایکروسافت از این مدل بهگفتن یک پروژه تحقیقاتی یاد کرده است و بهعلت گمان سوءاستفاده از آن، تصمیم ندارد VALL-E 2 را بهصورت عمومی انتشار کند.
VALL-E 2 یک ابزار تبدیل متن به گفتار (TTS) است که میتواند تنها در چند ثانیه، صدای کاملاً همانند به یک گوینده انسانی را تشکیل کند. محققان مایکروسافت میگویند که VALL-E 2 قادر به تشکیل «گفتار دقیق و طبیعی با صدایی قابل قیاس با انسان» است. به عبارت دیگر، صدای تولیدشده توسط این هوش مصنوعی امکان پذیر با صدای یک شخص واقعی نادرست گرفته بشود!
محققان مایکروسافت در مقاله خود میگوید:
«VALL-E 2 آخرین پیشرفت ما در مدلهای زبان کدک عصبی است که نقطه عطفی را در تبدیل متن به گفتار (TTS) به همراه دارد و برای اولین بار کارکرد برابر با انسان دارد.»
آنها این چنین اشاره کردهاند که کیفیت خروجی VALL-E 2 به طول و کیفیت دستور متنی و این چنین عوامل محیطی همانند نویز بعدعرصه بستگی دارد.
خطرات هوش مصنوعی مایکروسافت
بااینحال، مایکروسافت میگوید که VALL-E2 فقطً یک پروژه تحقیقاتی است و هیچ برنامهای برای منفعت گیری از این فناوری در محصولات دیگر خود یا اراعه آن برای عموم مردم ندارد. غول ردموندی به خطرات بالقوهای که برای سوءاستفاده از این فناوری وجود دارد اشاره کرده است؛ ازجمله جعل هویت یک شخص خاص یا جعل صدای دیگران.
اکنون نگرانیهای بسیاری درمورد سیستمهای همانندساز صدا و فناوریهای ساخت دیپفیک وجود دارد. دیگر شرکتهای حوزه هوش مصنوعی همانند OpenAI نیز محدودیتهای شبیهی را برای فناوری صوتی خود اعمال کردهاند.
یقیناً مایکروسافت معتقد است که با وجود این خطرات، میتوان در عرصههای آموزشی، ترجمه، روزنامهنگاری، محتوانویسی و ساخت چتبات از این مدل منفعت گیری کرد.
دسته بندی مطالب