هر آن چیزی که گوگل در رویداد سالانه خود معرفی کرد

روزنامه هفت صبح، مرجان شیخی | در کنفرانس Google I/O امسال، گوگل با تمرکزی فراتر از حد تصور بر هوش مصنوعی روی صحنه ظاهر شد تا عقب‌ماندگی‌اش از این حوزه جنجالی را جبران کند. در چند ماه گذشته، گوگل روزهای پرتلاطمی را در حوزه هوش مصنوعی تجربه کرد و به نظر می‌رسید رقابت را به مایکروسافت و جنجال تبلیغاتی‌اش بر سر چت‌جی‌پی‌تی باخته است.

شرکتی که در ایجاد شبکه عصبی ترنسفورمر که مدل‌های زبانی بزرگ نظیر GPT برپایه آن توسعه یافته‌اند، نقش کلیدی داشت، حالا چنان از کارزار چت‌بات‌ها و دیگر ابزار هوش مصنوعی مولد عقب مانده بود که حتی عرضه بارد (Bard) هم نتوانست آن اعتباری را که مایکروسافت به‌راحتی با ChatGPT و بینگ چت به دست آورده بود، به گوگل بازگرداند. از ماجرای خطای علمی و سرقت ادبی بارد بگیر تا استعفای جفری هینتون، پدرخوانده هوش مصنوعی، از گوگل پس از ۱۰سال و هشدارش درباره خطرات این تکنولوژی؛ گوگل واقعا به تولدی دوباره در حوزه‌ای که بیشتر از هر شرکت دیگر در آن سرمایه‌گذاری کرده بود (نزدیک ۴ میلیارد دلار)، نیاز داشت.

مدل زبانی PaLM 2 گل سرسبد رویداد متمرکز بر هوش مصنوعی Google I/O بود. مدلی که از قدرت استدلال و منطقش از قبل بیشتر شده، براساس داده‌های چندزبانه متشکل از بیش از ۱۰۰ زبان آموزش دیده و قرار است خانواده‌ای از محصولات با قابلیت‌های مختلف را دربرگیرد. این سیستم در نسخه‌های مختلف برای کاربران و سازمان‌ها عرضه خواهد شد و از نظر حجم داده‌ای که براساس آن آموزش دیده، به‌ترتیب از کوچک‌ترین به بزرگ‌ترین، چهار نسخه‌ به‌نام‌های Gecko، Otter، Bison و Unicorn را شامل می‌شود.

برای مثال، یکی از نسخه‌های 2 PaLM به‌نام «Med-PaLM 2» صرفا براساس داده‌های پزشکی آموزش دیده و به‌گفته گوگل، می‌تواند به سوالات مشابه آنچه در آزمون دریافت مجوز پزشکی ایالات متحده (USMLE) دیده می‌شود، در حد «متخصص» پاسخ دهد. نسخه دیگر 2 PaLM موسوم‌به «Sec-PaLM 2» نیز براساس داده‌های امنیت سایبری آموزش دیده و می‌تواند «رفتار اسکریپت‌های مخرب را توضیح دهد و به کاربران در شناسایی کدهای حاوی بدافزار کمک کند.» سبک‌ترین نسخه PaLM 2 یعنی Gecko آنقدر کوچک است که می‌تواند روی گوشی‌های هوشمند اجرا شود و در هر ثانیه ۲۰ توکن، معادل حدودا ۱۶، ۱۷ کلمه را پردازش کند. این مدل اگرچه قابلیت‌های محدودتری از نسخه‌های بزرگ‌تر ارائه می‌دهد، چون به‌صورت محلی اجرا می‌شود، دغدغه‌های حریم شخصی کمتری به‌همراه دارد.

گوگل با وجود آنکه هم‌اکنون در حال توسعه چت‌بات بارد است، به‌اندازه رقبا، به چت‌بات‌ها علاقه چندانی ندارد و به تبدیل صفحه نتایج جست‌وجویش به چیزی شبیه ChatGPT نیز تمایلی نشان نمی‌دهد، در عوض می‌خواهد AI را در دل نتایج جست‌وجو جای دهد؛ به‌این صورت که بالای نتایج سنتی، قسمت جدیدی به‌نمایش درمی‌آید که پاسخ AI به سؤال کاربر را به‌صورت خلاصه در دل خود دارد. سمت راست توضیحات AI سه لینک قرار خواهد گرفت که پاسخ تولیدشده را «تأیید می‌کنند».

گوگل پاسخ تولیدشده به‌دست هوش مصنوعی در موتور جست‌وجویش را AI snapshot می‌نامد؛ تمام پاسخ‌ها به‌کمک مدل‌های بزرگ زبانی خود گوگل و با استفاده از منابع موجود در اینترنت تولید می‌شوند. صفحه نتایج گوگل نیز ظاهری جدیدی به‌خود گرفته؛ طرحی رنگارنگ و با محوریت هوش مصنوعی. در صفحه نتایج جدید به‌ویژه در نسخه موبایل، AI snapshot تقریبا کل صفحه اول را اشغال می‌کند.

موتور جست‌وجوی گوگل اکنون از چند مدل بزرگ زبانی پیشرفته گوگل از جمله مدل چندمنظوره و جدید PaLM2 و Multitask Unified Model قدرت می‌گیرد. در حال حاضر برای دسترسی به پاسخ‌های AI، باید در برنامه‌ای موسوم به Search Generative Experience عضویت داشته باشید. صف انتظار برای دسترسی به هوش مصنوعی مولد در Google Search از امروز در اپلیکیشن Google و صفحه Google.com روی مرورگر کروم آغاز می‌شود و نخستین کاربران آزمایشی طی هفته‌های آتی پذیرش خواهند شد.

ابزار هوش مصنوعی Magic Editor که برای Google Photos معرفی شده، به‌کمک هوش مصنوعی مولد که نمونه‌ای از آن را در مولد تصویر Dall-E و Midjourney دیده‌ایم، ویرایش حرفه‌ای تصاویر را در حد فتوشاپ برای کاربر انجام می‌دهد.از دمویی که گوگل از توانایی‌های Magic Editor به نمایش گذاشت می‌توان گفت که این ابزار قابلیت‌های متعددی ازجمله جابه‌جایی سوژه‌ به نقطه‌ای بهتر در تصویر، تغییر اندازه سوژه، تغییر رنگ و میزان ابرها در آسمان یا پاک کردن موارد زاید از تصاویر را ارائه می‌دهد. گوگل اعلام کرد Magic Editor اواخر سال میلادی جاری برای برخی از گوشی‌های پیکسل عرضه خواهد شد تا از فیدبک کاربران برای بهبود این ابزار استفاده کند.

گوگل سال گذشته با افزودن ویژگی Immersive View به گوگل مپ، شرایطی را مهیا کرد تا کاربران این اپلیکیشن بتوانند چشم‌اندازی از مقصد موردنظر خود کسب کنند. به‌زودی این ویژگی به مسیریابی روزانه اضافه خواهد شد تا کاربران جزئیات بیشتری را از مسیر پیش‌روی خود دریافت کنند. ویژگی مذکور نه‌تنها می‌تواند مسیر حرکت را زیباتر جلوه دهد، بلکه می‌تواند با نمایش پرجزئیات‌ترِ مسیر، شِمایی کلی از جاذبه‌های گردشگری و دیگر بخش‌هایی که می‌تواند برایتان جذاب باشد را نمایش دهد.

هدف اصلی Immersive View، نمایش جزئیاتی است که احتمالا در خلال یک سفر تفریحی برایتان مهم و کاربردی خواهد بود. گوگل درنظر دارد تا Immersive View را تا آخر سال به بیش از ۱۵ شهر اضافه کند. این ویژگی با استفاده از هوش مصنوعی و توان محاسباتی عظیم کامپیوتری، میلیاردها تصاویر هوایی و تصاویر ثبت شده از طریق Street View را برای ساخت تصویری سه‌بعدی با یکدیگر ترکیب می‌کند.

یکی از مهم‌ترین دلایلی که باعث شکست بارد از بینگ چت و چت‌جی‌پی‌تی می‌شد، محدودیت استفاده از آن و نبود پشتیبانی از زبان فارسی بود. گوگل در کنفرانس I/O 2023 اعلام کرد که کاربران بیش‌از ۱۸۰ کشور برای دسترسی به این چت‌بات دیگر نیازی به ثبت‌نام و قرارگرفتن در لیست انتظار ندارند. این چت‌بات تاکنون تنها برای کاربران ایالات متحده و بریتانیا دردسترس قرار داشت.
گوگل می‌گوید که بارد افزون‌بر انگلیسی، اکنون از زبان‌های کره‌ای و ژاپنی نیز پشتیبانی می‌کند و در آینده پشتیبانی از ۴۰ زبان برتر دنیا که خوشبختانه فارسی را نیز شامل می‌شود به آن اضافه می‌شود.

شرح عکس: مهم‌ترین خبر برای ایرانی‌ها بدون شک اضافه شدن فارسی به گوگل بارد است.

آخرین تحولاتکاربران ویژه - دانش و فناوریرا اینجا بخوانید.

هر آن چیزی که گوگل در رویداد سالانه خود معرفی کرد

مهم ترین اخبار