هوش مصنوعی جدید 'Meta Voicebox' یک ابزار تبدیل متن به گفتار است که مانند ChatGPT می آموزد. متا مدعی است که Voicebox اولین هوش مصنوعی است که قدرت دارد تا متن به گفتار را فراگیر کند و نکته جالب اینجاست که برای انجام آن آموزش هم ندیده است و آن را بهعنوان یک کسب یک موفقیت تشریح میکند.
متا هوش مصنوعی اخیراً از یک ژنراتور تبدیل متن به گفتار (TTS) پردهبرداری کرده است که ادعا میکند نتایجی را تا 20 برابر سریعتر از مدلهای پیشرفته هوش مصنوعی با عملکرد مشابه تولید میکند.
سیستم جدید که Voicebox نام دارد، از معماری سنتی TTS به نفع مدلی که بیشتر شبیه ChatGPT OpenAI یا Bard گوگل است، اجتناب میکند.
از جمله تفاوتهای اصلی بین Voicebox و مدلهای مشابه TTS، مانند ElevenLabs Prime Voice AI، این است که پیشنهاد متا میتواند از طریق یادگیری درونمتنی تعمیم یابد.
Voicebox از مجموعهدادههای آموزشی مانند ChatGPT یا سایر مدلهای ترانسفورماتور، در مقیاس بزرگ استفاده میکند. تلاشهای گذشته جهت به کارگیری حجم عظیمی از دادههای صوتی منجر به کاهش شدید خروجیهای صوتی شده است. به همین علت، بیشتر سیستمهای TTS از مجموعهدادههای کوچک، دارای برچسب و بسیار مدیریتشده استفاده میکنند.
متا این محدودیت را از طریق یک طرح آموزشی جدید که برچسبها و مدیریت را برای یک معماری که قادر به پر کردن اطلاعات صوتی است، حذف میکند.
همانطور که Meta AI در یک پست وبلاگ 16 ژوئن بیان کرد: Voicebox اولین مدلی است که میتواند به وظایف تولید گفتار تعمیم دهد که به طور خاص برای انجام آن با عملکرد پیشرفته آموزش ندیده است.
این امکان را برای Voicebox فراهم میکند تا متن را به گفتار ترجمه کند، نویزهای ناخواسته را با ترکیب گفتار جایگزین حذف کند و حتی صدای گوینده را در خروجیهای زبان مختلف اعمال نماید.
طبق یک مقاله تحقیقاتی همراه که توسط متا منتشر شده است، سیستم Voicebox از قبل آموزشدیده میتواند همه این کارها را تنها با استفاده از متن خروجی موردنظر و یک کلیپ صوتی سهثانیهای انجام دهد.
ورود تولید سخنرانی قوی در زمانحساسی اتفاق میافتد، زیرا شرکتهای رسانههای اجتماعی همچنان با اعتدال دستوپنجه نرم میکنند و در ایالات متحده، انتخابات ریاستجمهوری در آینده تهدید میکند که یکبار دیگر محدودیتهای تشخیص اطلاعات نادرست آنلاین را آزمایش خواهد کرد.
برای مثال دونالد ترامپ رئیسجمهور سابق ایالات متحده، در حال حاضر با اتهاماتی مبنی بر سوءاستفاده از مطالب محرمانه دولتی پس از ترک مقام خود مواجه شده است. از جمله شواهد ادعایی ذکر شده در پرونده علیه او، ضبطهای صوتی است که در آنها ظاهراً او بهاشتباه احتمالی اعتراف کرده است.
درحالیکه در حال حاضر هیچ نشانهای وجود ندارد که رئیسجمهور سابق قصد دارد محتوای توصیف شده در فایلهای صوتی را انکار کند، پرونده او نشان میدهد که یکپارچگی دادهها در هسته سیستم حقوقی ایالات متحده و در نتیجه دموکراسی آن قرار دارد.
Voicebox اولین ابزار در نوع خود نیست، اما به نظر میرسد یکی از قویترینها باشد. بهاینترتیب، متا ابزاری را برای تعیین اینکه آیا گفتار توسط آن تولید شده است ایجاد کرده است، و این شرکت ادعا میکند که میتواند تفاوت بین صدای واقعی و جعلی را «به طور بیاهمیت تشخیص دهد». طبق پست وبلاگ:
« مانند دیگر نوآوریهای جدید هوش مصنوعی قدرتمند، میدانیم که این فناوری پتانسیل سوءاستفاده و آسیبهای ناخواسته را به همراه دارد. در مقاله خود، نحوه ساخت یک طبقهبندی بسیار مؤثر را توضیح میدهیم که میتواند بین گفتار معتبر و صدای تولید شده با Voicebox تمایز قائل شود تا خطرات احتمالی آینده را کاهش دهد. »
در دنیای ارزهای رمزنگاری شده، هوش مصنوعی بهاندازه اینترنت یا برق، برای اکثر مشاغل به عملیات روزمره تبدیل شده است. بزرگترین صرافیها برای تعامل با مشتری و تجزیهوتحلیل احساسات به چت رباتهای هوش مصنوعی متکی هستند و رباتهای معاملاتی رایج شدهاند.
ظهور سیستمهای تبدیل متن به گفتار قوی مانند Voicebox همراه با معاملات خودکار، میتواند به پر کردن شکاف برای معاملهگران ارزهای دیجیتال که به سیستمهای TTS متکی هستند، کمک کند.
دیدگاه شما