هوش مصنوعی جدید متا: Voicebox، ابزاری برای تبدیل متن به صدا
هوش مصنوعی جدید کمپانی متا، Voicebox توانایی تبدیل محتوای متنی به محتوای صوتی را دارد. برخی از کارشناسان کاربرد ابزار Voicebox را با ChatGPT و Dall-E مقایسه میکنند. با این تفاوت که یکی صدا، دیگری متن و آخرین آنها توانایی تعامل و ایجاد تصاویر را بر اساس دادههای ورودی متنی دارد.
به گزارش واحد ترجمه ایران دکونومی، امروزه تکنولوژی هوش مصنوعی در جنبههای مختلفی از تولید محتوا پیشرفتهای چشمگیری داشته است.
غول دنیای تکنولوژی، کمپانی متا، که رشد و دستاوردهای روزافزونی در این زمینه دارد، بهتازگی از ابزاری مبتنی بر هوش مصنوعی زایا به نام Voicebox بهرهبرداری کرده است که قابلیت تبدیل محتوای متنی به صدا را دارد.
هوش مصنوعی Voicebox قادر است در زمینههای ویرایش صدا، ایجاد فایل نمونه و تنظیم فایل صوتی به کاربران کمک کند. چنین ابزار کاربردیای میتواند نقطه عطفی برای تولیدکنندگان محتوا باشد، به افراد نابینا یا کمبینا در شنیدن پیامهای متنی کمک کند و یا به افراد این توانایی را بدهد که به هر زبان خارجی با دیگران گفتگو کنند.
درواقع، عملکرد Voicebox بیشباهت به ChatGPT و یا Dall-E نیست؛ با این تفاوت که در پاسخ به دادههای ورودی متنی، متن یا یک عکس را ایجاد نمیکند، بلکه خروجی آن بهصورت یک فایل صوتی است.
هوش مصنوعی Voicebox بر اساس بیش از 50 هزار ساعت فایل صوتی فیلترنشده تعلیم دیده است. متا روند تعلیم این ابزار را به کمک انبوهی از فایلهای گفتگو و کتابصوتی ضبط شده به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی انجام داده است.
به گفته محققان و متخصصین، این حجم انبوه از دادههای آموزشی به ابزار Voicebox اجازه میدهد که بتواند بهطرز طبیعیتری روند مکالمه و گفتگو را مدیریت کند، فارغ از اینکه کاربر به چه زبانی در حال مکالمه است.
از دیگر کاربردهای هوش مصنوعی Voicebox میتوان به ویرایش فایلهای صوتی، حذف صداهای پسزمینه و جایگزینی اشتباهات لفظی اشاره کرد.
براساس ادعای کمپانی متا، این ابزار جدید دستاورد بسیار مهمی در دنیای تکنولوژی محسوب میشود.
این ابزار قادر است فایلهای صوتی را به سبکهای متفاوتی ایجاد کرده و یا حتی از صفر آنها را بازسازی کند. درحالیکه ابزارهای هوش مصنوعی زایا قادر به ایجاد تصاویر بر اساس دادههای متنی هستند، هوش مصنوعی Voicebox کلیپهای کوتاه صوتی و باکیفیت را به 6 زبان زنده دنیا تولید میکند.
متا با انتشار پستی در وبلاگ خود نوشت که در آینده، مدلهای چندمنظوره هوش مصنوعی مانند Voicebox، قادر خواهند بود که به دستیارهای دیجیتال و شخصیتهای NPC متاورس صداهای طبیعی بدهند.
کاربردهای هوش مصنوعی Voicebox
تبدیل موضوعی محتوای متن به فایل صوتی (آموختن لحن و سبک صدا با دریافت فایل نمونه صوتی 2 ثانیهای و تبدیل محتوای متنی به فایل صوتی با سبک مشابه) – انتقال سبک و لحن مکالمه از یک زبان به زبان دیگر – نمونهبرداری متنوع گفتار – ویرایش مکالمه و کاهش نویز(صداهای پسزمینه)
کمپانی متا اخیراً در زمینه هوش مصنوعی بسیار فعال بوده است. این غول تکنولوژی چند روز پیش از هوش مصنوعی انسانگونهای بهنام I-JEPA و همچنین ابزاری برای تولید موسیقی بهنام MusicGen رونمایی کرده بود. همچنین براساس شایعات کمپانی متا درحال توسعه ابزار هوش مصنوعی در پلتفرم اینستاگرام نیز میباشد.
منبع: engadget – indianexpress