مائده هاشمی 4 دقیقه 16 آذر 1402

رونمایی از Gemini، قدرتمندترین هوش مصنوعی گوگل

کمپانی گوگل بالاخره از اولین پیش‌نمایش هوش مصنوعی قدرتمند خود، Gemini، رونمایی کرد. این مدل زبانی در سه نسخه مختلف به کاربران ارائه خواهد شد: مدل Gemini Nano (به‌صورت آفلاین/نسخه سبک/گوشی‌های اندرویدی) - نسخه Gemini Pro (در بستر چت‌بات Bard/توانایی پردازش داده‌های چندرسانه‌ای) - نسخه Gemini Ultra (پیشرفته‌ترین و قدرتمندترین نسخه/مخصوص مشتریان سازمانی و دیتاسنترها/عرضه در سال 2024). به گفته این غول تکنولوژی، مدل زبانی Gemini در تمام زمینه‌ها از GPT-4 کمپانی OpenAI پیشی خواهد گرفت و انقلابی را در هوش مصنوعی به‌وجود خواهد آورد.

به گزارش واحد ترجمه ایران‌دکونومی، بعد از اشارات غیرمستقیم در رویداد Google I/O بهار امسال، کمپانی گوگل بالاخره امروز از جزئیات مدل هوش مصنوعی قدرتمند Gemini 1.0 پرده‌برداری کرد. این مدل هوش مصنوعی نسل جدید قرار است در بستر چت‌بات Bard در دسترس کاربران قرار بگیرد.

مدل Gemini (جِمینای) به‌عنوان “قدرتمندترین و جامع‌ترین” مدل هوش مصنوعی، قادر است محتواهای متنی، کدنویسی، صوتی، تصویری و ویدیویی را “درک و پردازش کرده، عملیات درخواستی را بر روی آنها انجام دهد و یا این داده‌ها را با یکدیگر ترکیب کند”. خاصیت “چندگانه و چندرسانه‌ای” بودن این مدل باعث بهبود مهارت‌های درک، حل مسئله و کدنویسی آن خواهد شد.

درحال حاضر، روش تعلیم و آموزش رایج مدل‌های چندرسانه‌ای شامل “تعلیم جداگانه و مستقل بخش‌ها و سپس ترکیب کردن آنها با یکدیگر” می‌باشد. به گفته گوگل با اینکه این روش در بعضی از زمینه‌ها کارساز است؛ اما در مواجهه با مسائل پیچیده‌تر و مفهومی‌تر به مشکل برخواهد خورد.

در مورد روش تعلیم Gemini، گوگل از راهکار دیگری استفاده کرده است. این مدل هوش مصنوعی قدرتمند براساس سیستم‌های رایانشی پیشرفته TPU 4 و TPU v5e آموزش دیده است. همچنین به گفته این کمپانی، سیستم TPU v5e به‌عنوان “قدرتمندترین، کارسازترین و قابل‌ ارتقاترین” شتاب‌دهنده هوش مصنوعی شناخته می‌شود.

به‌زودی: اولین پیش‌نمایش هوش مصنوعی Gemini گوگل

کمپانی گوگل برای به رُخ کشیدن قابلیت‌های چشمگیر “ادراک و حل مسئله”، از مدل هوش مصنوعی Gemini خواست تا بیش از 200 هزار مقاله تحقیقاتی علمی را پردازش کرده، و خلاصه‌ای از مرتبط‌ترین آنها را در کمتر از یک ساعت تحویل دهد.
همچنین مهارت کدنویسی یکی دیگر از مزایای این مدل قدرتمند به‌حساب می‌آید. هوش مصنوعی Gemini می‌تواند کدهای نوشته‌شده در زبان‌های پایتون (Python)، جاوا (Java)، C++ و همچنین Go را “درک کرده و توضیح دهد و همچنین خود پروسه کدنویسی به این چهار زبان را نیز انجام دهد”.

مدل هوش مصنوعی Gemini در سه مدل و سایز مختلف عرضه خواهد شد:

نسخه Gemini Ultra: بزرگترین و قدرتمندترین مدل برای پردازش و انجام وظایف و دستورات پیچیده (دیتاسنترها و کاربردهای سازمانی)
نسخه Gemini Pro: بهترین مدل برای رسیدگی به وظایف مختلف و گسترده (استفاده عمومی)
نسخه Gemini Nano: سبک‌ترین؛ بهینه‌ترین و در دسترس‌ترین مدل برای گوشی‌های همراه

فهرست محتوا

بنچمارک‌های Gemini

از لحاظ کارآمد بودن و کاربرد عملیاتی، کمپانی گوگل باور دارد هوش مصنوعی Gemini نقطه عطفی برای این شرکت محسوب می‌شود و قدرت بالای این مدل جدید بر روی تمام محصولات تأثیر سازنده و مثبتی خواهد گذاشت. به گفته گوگل، Gemini در تمام زمینه‌های داده‌های متنی (شامل حل مسئله و پردازش، مسائل ریاضی و کدنویسی) عملکردی بسیار پیشرفته‌تر از مدل هوش مصنوعی GPT-4 کمپانی OpenAI خواهد داشت.

به گفته دمیس حسابیس، مدیرعامل آزمایشگاه‌های Google DeepMind که توسعه‌دهنده این مدل هوش مصنوعی بوده است؛ مدل Gemini Ultra توانسته باموفقیت عملکرد بسیار چشمگیری در زمینه بنچمارک‌ها داشته باشد و “به اولین مدلی تبدیل شود که از کارشناسان انسانی در زمینه MMLU” پیشی بگیرد. MMLU که خلاصه‌شده “درک زبانی گسترده و همزمان” (massive multitask language understanding) است؛ شامل 57 بنچمارک مختلف از جمله ریاضیات، فیزیک، تاریخ، قانون، مسائل پزشکی، مسائل اخلاقی و غیره می‌باشد.

مهارت حل مسئله و دانش Gemini در این زمینه حدود 90% تخمین زده شده است، درحالیکه عملکرد کمپانی OpenAI در این زمینه تنها 86% می‌باشد. در واقع از بین 32 بنچمارک مهمی که برای توسعه این مدل هوش مصنوعی استفاده شده است، Gemini در 30 مورد جلوتر از رقبای خود ظاهر شده است.

در مورد مسائل امنیتی و حریم خصوصی، گفته می‌شود که Gemini “دارای فراگیرترین و جامع‌ترین چارچوب‌های امنیتی در هوش مصنوعی‌های گوگل” می‌باشد.

دسترسی و زمان ارائه نسخه‌های مختلف هوش مصنوعی Gemini

اولین راه دسترسی به مدل هوش مصنوعی Gemini در حال حاضر از طریق چت‌بات Bard می‌باشد. همزمان با رونمایی و معرفی امروز، چت‌بات Bard به مدل Gemini Pro مجهز شده و در دسترس کاربران قرار گرفته است. این مدل توانایی ادراک و پردازش، برنامه‌ریزی، نگارش و خلاصه‌نویسی و همچنین قابلیت درک محتواهای مختلف را دارد.
در مقایسه با مدل زبانی GPT 3.5، هوش مصنوعی گوگل توانسته در 6 بنچمارک (از 8 بنچمارک) عملکرد بسیار بهتری از مدل زبانی OpenAI داشته باشد و بهترین نسخه از Bard را به کاربران ارائه دهد.

انتشار هوش مصنوعی Gemini گوگل تا 2024 به تعویق افتاد

مدیرعامل کمپانی گوگل، سوندار پیچای اعلام کرده که مدل هوش مصنوعی Gemini Pro (در بستر چت‌بات Bard) از امروز در بیش از 170 کشور/نقطه جهان و تنها با زبان انگلیسی به کاربران عرضه می‌شود. دسترسی در اروپا و بریتانیا طبق معمول دارای محدودیت‌های بیشتری است و به “آینده‌ای نزدیک” موکول شده است.

از طرفی، زمان دسترسی به مدل پیشرفته‌تر Gemini Ultra برای سال آینده (2024) برنامه‌ریزی شده است. گوگل در حاضر درحال رسیدگی به مسائل امنیتی است و قصد دارد قبل از ارائه این مدل به توسعه‌دهندگان و مشتریان سازمانی، آن را از این لحاظ بی‌نقص کرده باشد.

شایان ذکر است که مدل کم‌حجم و سبک Gemini Nano به‌صورت آفلاین از طریق گوشی‌های اندرویدی در دسترس کاربران خواهد بود و تنها توانایی دریافت و ایجاد محتواهای متنی را خواهد داشت. اما نسخه Gemini Pro که در بستر چت‌بات Bard پیاده شده، نسخه‌ای چندرسانه‌ایست و توانایی دریافت و ایجاد محتواهای متنی، تصویری، ویدیویی، صوتی و کدنویسی را دارد.

منبع: 9to5google