به گزارش واحد ترجمه ایران دکونومی، روز گذشته، کمپانی OpenAI طی یک مراسم ویژه، از جامع‌ترین مدل زبانی بزرگ خود تحت عنوان GPT-4o رونمایی کرد. این ابزار هوش مصنوعی در حقیقت یک مدل چندوجهی است که می‌تواند از طریق متن و صدا با کاربران ارتباط برقرار کند.

این شرکت روز دوشنبه اعلام کرد که مدل زبانی بزرگ GPT-4o که ظرف چند هفته آینده در ChatGPT و همچنین در API عرضه خواهد شد، قادر است اشیا و تصاویر را به صورت بلادرنگ در زمان واقعی تشخیص دهد. OpenAI از آن جهت نام “عالم‌گیر” (Omni) را برای این مدل برگزیده است که مجموعه‌ای از قابلیت‌های هوش مصنوعی که قبلاً به‌طور جداگانه در سایر مدل‌های OpenAI وجود داشت را یک‌جا با خود دارد. اکنون با وجود ترکیبی از همه این قابیلت‌ها، انتظار می‌رود آخرین مدل OpenAI همه نوع ورودی اعم از متن، صوتی و بصری را به شکلی کارآمدتر پردازش کند.

کاربران می‌توانند حین گفتگو با این مدل هوش مصنوعی، تصاویر بصری خود را از طریق دوربین تلفن همراه، بارگذاری اسناد یا با اشتراک‌گذاری صفحه نمایش، پخش کنند، به گونه‌ای که گویی در حال تماس ویدیویی هستند. این شرکت اعلام کرده است که این فناوری را به صورت رایگان در دسترس عموم قرار خواهد داد ولی ظرفیت درخواست برای کاربران پولی پنج برابر بیشتر از نسخه رایگان است.

هوش مصنوعی OpenAI

OpenAI یک برنامه دسکتاپ جدید را نیز برای چت‌بات محبوب خود یعنی ChatGPT در سیستم عامل MacOS راه‌اندازی کرده است. میرا موراتی، مدیر ارشد فناوری OpenAI، در جریان این مراسم زنده گفت که در دسترس قرار دادن ابزارهای پیشرفته هوش مصنوعی به صورت رایگان برای طیف وسیعی از کاربران، یک اصل “بسیار مهم” در رسالت این شرکت است.

ویژگی‌های برتر مدل جدید OpenAI

اعضای تیم OpenAI در مراسم زنده دیروز چندین قابلیت صوتی برای این مدل جدید معرفی کردند. علاوه بر این، در بخشی از این مراسم، عملکرد خارق‌العاده  GPT-4o در حل مسائل ریاضی و درک لحن کاربر و حالات چهره انسان همه را شگفت‌زده کرد. سم آلتمن، مدیرعامل OpenAI، ضمن تاکید بر چندوجهی بودن آن، اذعان داشت که این مدل جدید می‌تواند علاوه بر متن، محتواهای صوتی و تصویری را نیز تولید و درک کند.

به گفته موراتی زمان پاسخگویی GPT-4o بسیار سریعتر از مدل‌های قبلی بوده و کیفیت و سرعت عملکرد آن در 50 زبان مختلف به طور قابل توجهی بهبود یافته است. بر اساس یک پست وبلاگی از OpenAI، ظاهراً ویژگی‌های صوتی و تصویری جدید GPT-4o بهترین رابط محاسباتی است که تاکنون استفاده شده است.

مدل زبانی GPT-4o قادر است به طور میانگین در ۳۲۰ میلی‌ثانیه، به ورودی‌های صوتی پاسخ دهد که طبق ادعای OpenAI مشابه زمان پاسخ‌دهی انسان در مکالمات روزمره است. افزون بر این، GPT-4o در زمینه‌ فهم متون انگلیسی و کد، عملکردی مشابه با نسخه Turbo دارد، با این تفاوت که هم ارزان‌تر است و هم از سرعت بیشتری برخوردار است.

توسعه‌دهندگان علاقمند به GPT-4o می‌توانند API این مدل هوش مصنوعی را با نصف قیمت GPT-4 Turbo خریداری کنند. گفته می‌شود  OpenAI، قابلیت‌های مدل جدید هوش مصنوعی خود را به‌صورت تدریجی در دسترس عموم قرار خواهد داد ولی قابلیت‌های متنی و تصویری زودتر از بقیه در چت‌بات ChatGPT ارائه شده‌اند.

منبع: nbcnews

لینک کوتاه :
اشتراک گذاری : Array