به گزارش واحد ترجمه ایران دکونومی، هفته‌ها پس از اینکه استارتاپ هوش مصنوعی ElevenLabs از مدل تبدیل متن به صدای Sound Effects رونمایی کرد، اکنون یک ابزار متن‌باز را برای به نمایش گذاشتن پتانسیل‌های خود معرفی کرده است. ظاهراً مدل جدید هوش مصنوعی این شرکت سازندگان را قادر می‌سازد جلوه‌های صوتی مختلفی را برای ویدیوهای خود ایجاد کنند. این مدل با آنالیز کلیپ آپلودشده، گزینه‌های متعددی را در اختیار کاربر قرار می‌دهد.

در حالی که توسعه‌دهندگان می‌توانند در GitHub به کد برنامه دسترسی داشته باشند، این استارتاپ وب‌سایتی را برای عموم منتشر کرده است تا از این طریق همه بتوانند به راحتی Sound Effects API را امتحان کنند.

هوش مصنوعی ElevenLabs

چگونه از هوش مصنوعی ElevenLabs استفاده کنیم؟

برای بهره‌مندی از قابلیت‌های هیجان‌انگیز مدل هوش مصنوعی جدید ElevenLabs ، کافیست ویدیویی بی‌صدا و حداکثر با مدت زمان 22  ثانیه را در آن آپلود ‌کنید؛ Sound Effects به طور خودکار چهار فریم در فواصل زمانی یک‌ثانیه‌ای به شما ارائه خواهد کرد. در مرحله بعد، این فریم‌ها همراه پرامپت به مدل GPT-4o فرستاده شده و پرامپت جدید دریافت می‌شود. ابزار API Sound Effects از این پرامپت برای تولید افکت صوتی از متن استفاده می‌کند. درنهایت صدای تولیدشده در ویدیوی مورد نظر ترکیب و فایل نهایی برای دانلود ارائه می‌شود.

انتظار می‌رود در آینده نه چندان دور، این هوش مصنوعی با اضافه شدن به سیستم‌های بزرگ‌تر، امکان بهره‌مندی از مزایای سیستم تولید صدای خود را در اختیار تولیدکنندگان بیشتری قرار دهد.

عمار ریشی، مدیر بخش طراحی ElevenLabsبا انتشار ویدیویی تایید کرده است که علاوه بر فناوری‌های ElevenLabs ، از قابلیت‌های Luma AI و Hedra نیز برای ساخت این ابزار استفاده شده است. وی درباره محصول جدید این شرکت می‌گوید:

«سازندگان ویدیوهای هوش مصنوعی به‌دنبال یافتن جلوه‌های صوتی عالی هستند و ما احساس می‌کنیم با درک فریم ویدیوها و ارائه خروجی مطلوب، می‌توانیم روند کار آن‌ها را تسریع کنیم.»

منبع: venturebeat

لینک کوتاه :
اشتراک گذاری : Array