مائده هاشمی 2 دقیقه 30 فروردین 1403

هوش مصنوعی VASA-1 مایکروسافت: تبدیل تصاویر به چهره‌های سخنگو

هوش مصنوعی جدید مایکروسافت به‌نام VASA قادر است با دریافت یک تصویر و فایل صوتی، یک ویدیو با چهره‌های سخنگو و دارای عواطف و حالات مختلف احساسی تولید کند! این هوش مصنوعی که توسط محققین مایکروسافت توسعه داده شده فعلاً در دسترس عموم قرار ندارد.

به گزارش واحد ترجمه ایران‌دکونومی، هوش مصنوعی جدید کمپانی مایکروسافت به‌نام VASA-1 قادر است از روی عکس چهره‌های سخنگو بسازد! بسیاری از کارشناسان معتقدند رونمایی از این ابزار هوش مصنوعی جدید، درست قبل از آغاز فصل انتخابات جهانی، زمان‌بندی بسیار بدی دارد.

عملکرد ابزار هوش مصنوعی VASA چگونه است؟

براساس جدیدترین گزارشات، محققین کمپانی مایکروسافت موفق به توسعه یک مدل جدید هوش مصنوعی به‌نام VASA شده‌اند. سیستم هوشمند VASA قادر است با دریافت یک تصویر و یک فایل صوتی، آنها را تبدیل به چهره‌های سخنگوی واقع‌گرایانه کند.
مدل هوش مصنوعی VASA-1 که براساس این زیرساخت توسعه یافته است؛ قادر است احساسات انسانی، حالات چهره و حرکات هماهنگ لب هنگام صحبت کردن و تکان خوردن طبیعی سر را تقلید و تولید کند. این مدل هوشمند توانایی خلق تصاویر و تجربه‌های تعاملی و واقع‌گرایانه بیشتری را در سناریوها و شرایط مختلف نیز خواهد داشت.

به‌صورت کلی، هدف از ایجاد مدل هوش مصنوعی VASA-1 چیزی بیشتر از هماهنگ کردن حرکات لب با فایل صوتی اولیه است. این مدل قادر است طیف وسیعی از احساسات را به‌نمایش گذاشته و ریزه‌کاری‌های طبیعی انسانی را بازسازی کند. در نتیجه این عملکرد استثنایی، چهره‌های نهایی تولیدشده توسط این هوش مصنوعی باورپذیرتر و واقعی‌تر خواهند بود.
همچنین کاربران می‌توانند بر پروسه ساخت این ویدیوها نیز نظارت کافی داشته باشند و علاوه‌بر جهت نگاه، حالت احساسی و میزان فاصله آنها را نیز تعیین کنند.

بهترین نکته درباره هوش مصنوعی VASA-1 این است که ابزار جدید مایکروسافت برای مدیریت داده‌های ورودی غیرمنتظره کاملاً بهینه‌سازی شده است. با اینکه این مدل براساس عکس‌های هنری، صداهای خوانندگان و یا گفتار غیرانگلیسی آموزش ندیده است؛ اما همچنان قادر است با دریافت این موارد نتیجه نهایی فوق‌العاده‌ای را ایجاد نماید.

واقع‌گرا بودن نتیجه نهایی تولید شده توسط ابزار VASA-1 نتیجه تمایز دادن ویژگی‌های چهره، محل قرارگیری سه‌بعدی سر و حالات چهره هنگام بیان احساسات انسانی مختلف می‌باشد. این “بازگشایی” به ابزار مایکروسافت کنترل جداگانه‌ای را برای اصلاح و ویرایش بخش‌های مختلف ویدیوی نهایی ارائه خواهد داد.

محققین مایکروسافت درباره کارایی و بهره‌وری این ابزار در لحظه نیز اطلاعاتی را منتشر کرده‌اند. سیستم VASA-1 قادر است ویدیوهایی با رزولوشن بالا (512×512 پیکسل) را در فریم‌ریت‌های بالا پردازش و تحلیل کند. همچنین در حالت آفلاین، این ابزار قادر است در هر ثانیه 45 فریم تولید کرده و این میزان در حالت آنلاین به 40 فریم در ثانیه می‌رسد.

با اینکه ریسک سوءاستفاده از این ابزار جدید و خلاقانه بسیار بسیار زیاد است؛ اما محققین مایکروسافت بر این نکته تأکید کرده‌اند که VASA-1 پتانسیل زیادی برای به‌کارگیری در جنبه‌های مثبت نیز دارد. از این جنبه‌ها می‌توان به تولید محتواهای علمی و آموزشی، همراهی با افرادی که درگیر چالش‌های ارتباطی هستند و ایجاد روابط حمایتی و پشتیبانی روانی اشاره کرد.

منبع: MSPowerUser

دیدگاه کاربران

هوش مصنوعی VASA-1 مایکروسافت: تبدیل تصاویر به چهره‌های سخنگو

عملکرد ابزار هوش مصنوعی VASA چگونه است؟

دیدگاهتان را بنویسید لغو پاسخ