هوش مصنوعی VASA-1 مایکروسافت: تبدیل تصاویر به چهرههای سخنگو
هوش مصنوعی جدید مایکروسافت بهنام VASA قادر است با دریافت یک تصویر و فایل صوتی، یک ویدیو با چهرههای سخنگو و دارای عواطف و حالات مختلف احساسی تولید کند! این هوش مصنوعی که توسط محققین مایکروسافت توسعه داده شده فعلاً در دسترس عموم قرار ندارد.
به گزارش واحد ترجمه ایراندکونومی، هوش مصنوعی جدید کمپانی مایکروسافت بهنام VASA-1 قادر است از روی عکس چهرههای سخنگو بسازد! بسیاری از کارشناسان معتقدند رونمایی از این ابزار هوش مصنوعی جدید، درست قبل از آغاز فصل انتخابات جهانی، زمانبندی بسیار بدی دارد.
عملکرد ابزار هوش مصنوعی VASA چگونه است؟
براساس جدیدترین گزارشات، محققین کمپانی مایکروسافت موفق به توسعه یک مدل جدید هوش مصنوعی بهنام VASA شدهاند. سیستم هوشمند VASA قادر است با دریافت یک تصویر و یک فایل صوتی، آنها را تبدیل به چهرههای سخنگوی واقعگرایانه کند.
مدل هوش مصنوعی VASA-1 که براساس این زیرساخت توسعه یافته است؛ قادر است احساسات انسانی، حالات چهره و حرکات هماهنگ لب هنگام صحبت کردن و تکان خوردن طبیعی سر را تقلید و تولید کند. این مدل هوشمند توانایی خلق تصاویر و تجربههای تعاملی و واقعگرایانه بیشتری را در سناریوها و شرایط مختلف نیز خواهد داشت.
بهصورت کلی، هدف از ایجاد مدل هوش مصنوعی VASA-1 چیزی بیشتر از هماهنگ کردن حرکات لب با فایل صوتی اولیه است. این مدل قادر است طیف وسیعی از احساسات را بهنمایش گذاشته و ریزهکاریهای طبیعی انسانی را بازسازی کند. در نتیجه این عملکرد استثنایی، چهرههای نهایی تولیدشده توسط این هوش مصنوعی باورپذیرتر و واقعیتر خواهند بود.
همچنین کاربران میتوانند بر پروسه ساخت این ویدیوها نیز نظارت کافی داشته باشند و علاوهبر جهت نگاه، حالت احساسی و میزان فاصله آنها را نیز تعیین کنند.
بهترین نکته درباره هوش مصنوعی VASA-1 این است که ابزار جدید مایکروسافت برای مدیریت دادههای ورودی غیرمنتظره کاملاً بهینهسازی شده است. با اینکه این مدل براساس عکسهای هنری، صداهای خوانندگان و یا گفتار غیرانگلیسی آموزش ندیده است؛ اما همچنان قادر است با دریافت این موارد نتیجه نهایی فوقالعادهای را ایجاد نماید.
واقعگرا بودن نتیجه نهایی تولید شده توسط ابزار VASA-1 نتیجه تمایز دادن ویژگیهای چهره، محل قرارگیری سهبعدی سر و حالات چهره هنگام بیان احساسات انسانی مختلف میباشد. این “بازگشایی” به ابزار مایکروسافت کنترل جداگانهای را برای اصلاح و ویرایش بخشهای مختلف ویدیوی نهایی ارائه خواهد داد.
محققین مایکروسافت درباره کارایی و بهرهوری این ابزار در لحظه نیز اطلاعاتی را منتشر کردهاند. سیستم VASA-1 قادر است ویدیوهایی با رزولوشن بالا (512×512 پیکسل) را در فریمریتهای بالا پردازش و تحلیل کند. همچنین در حالت آفلاین، این ابزار قادر است در هر ثانیه 45 فریم تولید کرده و این میزان در حالت آنلاین به 40 فریم در ثانیه میرسد.
با اینکه ریسک سوءاستفاده از این ابزار جدید و خلاقانه بسیار بسیار زیاد است؛ اما محققین مایکروسافت بر این نکته تأکید کردهاند که VASA-1 پتانسیل زیادی برای بهکارگیری در جنبههای مثبت نیز دارد. از این جنبهها میتوان به تولید محتواهای علمی و آموزشی، همراهی با افرادی که درگیر چالشهای ارتباطی هستند و ایجاد روابط حمایتی و پشتیبانی روانی اشاره کرد.
منبع: MSPowerUser