به گزارش واحد ترجمه ایران‌دکونومی، بعد از اشارات غیرمستقیم در رویداد Google I/O بهار امسال، کمپانی گوگل بالاخره امروز از جزئیات مدل هوش مصنوعی قدرتمند Gemini 1.0 پرده‌برداری کرد. این مدل هوش مصنوعی نسل جدید قرار است در بستر چت‌بات Bard در دسترس کاربران قرار بگیرد.

مدل Gemini (جِمینای) به‌عنوان “قدرتمندترین و جامع‌ترین” مدل هوش مصنوعی، قادر است محتواهای متنی، کدنویسی، صوتی، تصویری و ویدیویی را “درک و پردازش کرده، عملیات درخواستی را بر روی آنها انجام دهد و یا این داده‌ها را با یکدیگر ترکیب کند”. خاصیت “چندگانه و چندرسانه‌ای” بودن این مدل باعث بهبود مهارت‌های درک، حل مسئله و کدنویسی آن خواهد شد.

درحال حاضر، روش تعلیم و آموزش رایج مدل‌های چندرسانه‌ای شامل “تعلیم جداگانه و مستقل بخش‌ها و سپس ترکیب کردن آنها با یکدیگر” می‌باشد. به گفته گوگل با اینکه این روش در بعضی از زمینه‌ها کارساز است؛ اما در مواجهه با مسائل پیچیده‌تر و مفهومی‌تر به مشکل برخواهد خورد.

در مورد روش تعلیم Gemini، گوگل از راهکار دیگری استفاده کرده است. این مدل هوش مصنوعی قدرتمند براساس سیستم‌های رایانشی پیشرفته TPU 4 و TPU v5e آموزش دیده است. همچنین به گفته این کمپانی، سیستم TPU v5e به‌عنوان “قدرتمندترین، کارسازترین و قابل‌ ارتقاترین” شتاب‌دهنده هوش مصنوعی شناخته می‌شود.

کمپانی گوگل برای به رُخ کشیدن قابلیت‌های چشمگیر “ادراک و حل مسئله”، از مدل هوش مصنوعی Gemini خواست تا بیش از 200 هزار مقاله تحقیقاتی علمی را پردازش کرده، و خلاصه‌ای از مرتبط‌ترین آنها را در کمتر از یک ساعت تحویل دهد.
همچنین مهارت کدنویسی یکی دیگر از مزایای این مدل قدرتمند به‌حساب می‌آید. هوش مصنوعی Gemini می‌تواند کدهای نوشته‌شده در زبان‌های پایتون (Python)، جاوا (Java)، C++ و همچنین Go را “درک کرده و توضیح دهد و همچنین خود پروسه کدنویسی به این چهار زبان را نیز انجام دهد”.

Gemini

مدل هوش مصنوعی Gemini در سه مدل و سایز مختلف عرضه خواهد شد:

  • نسخه Gemini Ultra: بزرگترین و قدرتمندترین مدل برای پردازش و انجام وظایف و دستورات پیچیده (دیتاسنترها و کاربردهای سازمانی)
  • نسخه Gemini Pro: بهترین مدل برای رسیدگی به وظایف مختلف و گسترده (استفاده عمومی)
    نسخه Gemini Nano: سبک‌ترین؛ بهینه‌ترین و در دسترس‌ترین مدل برای گوشی‌های همراه
Gemini
مقایسه عملکرد Gemini و GPT-4 در بنچمارک‌های متنی

بنچمارک‌های Gemini

از لحاظ کارآمد بودن و کاربرد عملیاتی، کمپانی گوگل باور دارد هوش مصنوعی Gemini نقطه عطفی برای این شرکت محسوب می‌شود و قدرت بالای این مدل جدید بر روی تمام محصولات تأثیر سازنده و مثبتی خواهد گذاشت. به گفته گوگل، Gemini در تمام زمینه‌های داده‌های متنی (شامل حل مسئله و پردازش، مسائل ریاضی و کدنویسی) عملکردی بسیار پیشرفته‌تر از مدل هوش مصنوعی GPT-4 کمپانی OpenAI خواهد داشت.

به گفته دمیس حسابیس، مدیرعامل آزمایشگاه‌های Google DeepMind که توسعه‌دهنده این مدل هوش مصنوعی بوده است؛ مدل Gemini Ultra توانسته باموفقیت عملکرد بسیار چشمگیری در زمینه بنچمارک‌ها داشته باشد و “به اولین مدلی تبدیل شود که از کارشناسان انسانی در زمینه MMLU” پیشی بگیرد. MMLU که خلاصه‌شده “درک زبانی گسترده و همزمان” (massive multitask language understanding) است؛ شامل 57 بنچمارک مختلف از جمله ریاضیات، فیزیک، تاریخ، قانون، مسائل پزشکی، مسائل اخلاقی و غیره می‌باشد.

Gemini
مقایسه عملکرد Gemini و GPT-4 در بنچمارک‌های چندرسانه‌ای

مهارت حل مسئله و دانش Gemini در این زمینه حدود 90% تخمین زده شده است، درحالیکه عملکرد کمپانی OpenAI در این زمینه تنها 86% می‌باشد. در واقع از بین 32 بنچمارک مهمی که برای توسعه این مدل هوش مصنوعی استفاده شده است، Gemini در 30 مورد جلوتر از رقبای خود ظاهر شده است.

در مورد مسائل امنیتی و حریم خصوصی، گفته می‌شود که Gemini “دارای فراگیرترین و جامع‌ترین چارچوب‌های امنیتی در هوش مصنوعی‌های گوگل” می‌باشد.

Gemini

دسترسی و زمان ارائه نسخه‌های مختلف هوش مصنوعی Gemini

اولین راه دسترسی به مدل هوش مصنوعی Gemini در حال حاضر از طریق چت‌بات Bard می‌باشد. همزمان با رونمایی و معرفی امروز، چت‌بات Bard به مدل Gemini Pro مجهز شده و در دسترس کاربران قرار گرفته است. این مدل توانایی ادراک و پردازش، برنامه‌ریزی، نگارش و خلاصه‌نویسی و همچنین قابلیت درک محتواهای مختلف را دارد.
در مقایسه با مدل زبانی GPT 3.5، هوش مصنوعی گوگل توانسته در 6 بنچمارک (از 8 بنچمارک) عملکرد بسیار بهتری از مدل زبانی OpenAI داشته باشد و بهترین نسخه از Bard را به کاربران ارائه دهد.

مدیرعامل کمپانی گوگل، سوندار پیچای اعلام کرده که مدل هوش مصنوعی Gemini Pro (در بستر چت‌بات Bard) از امروز در بیش از 170 کشور/نقطه جهان و تنها با زبان انگلیسی به کاربران عرضه می‌شود. دسترسی در اروپا و بریتانیا طبق معمول دارای محدودیت‌های بیشتری است و به “آینده‌ای نزدیک” موکول شده است.

از طرفی، زمان دسترسی به مدل پیشرفته‌تر Gemini Ultra برای سال آینده (2024) برنامه‌ریزی شده است. گوگل در حاضر درحال رسیدگی به مسائل امنیتی است و قصد دارد قبل از ارائه این مدل به توسعه‌دهندگان و مشتریان سازمانی، آن را از این لحاظ بی‌نقص کرده باشد.

شایان ذکر است که مدل کم‌حجم و سبک Gemini Nano به‌صورت آفلاین از طریق گوشی‌های اندرویدی در دسترس کاربران خواهد بود و تنها توانایی دریافت و ایجاد محتواهای متنی را خواهد داشت. اما نسخه Gemini Pro که در بستر چت‌بات Bard پیاده شده، نسخه‌ای چندرسانه‌ایست و توانایی دریافت و ایجاد محتواهای متنی، تصویری، ویدیویی، صوتی و کدنویسی را دارد.

منبع: 9to5google

لینک کوتاه :
اشتراک گذاری : Array