روزنامه هفت صبح، مرجان شیخی | در کنفرانس Google I/O امسال، گوگل با تمرکزی فراتر از حد تصور بر هوش مصنوعی روی صحنه ظاهر شد تا عقبماندگیاش از این حوزه جنجالی را جبران کند. در چند ماه گذشته، گوگل روزهای پرتلاطمی را در حوزه هوش مصنوعی تجربه کرد و به نظر میرسید رقابت را به مایکروسافت و جنجال تبلیغاتیاش بر سر چتجیپیتی باخته است.
شرکتی که در ایجاد شبکه عصبی ترنسفورمر که مدلهای زبانی بزرگ نظیر GPT برپایه آن توسعه یافتهاند، نقش کلیدی داشت، حالا چنان از کارزار چتباتها و دیگر ابزار هوش مصنوعی مولد عقب مانده بود که حتی عرضه بارد (Bard) هم نتوانست آن اعتباری را که مایکروسافت بهراحتی با ChatGPT و بینگ چت به دست آورده بود، به گوگل بازگرداند. از ماجرای خطای علمی و سرقت ادبی بارد بگیر تا استعفای جفری هینتون، پدرخوانده هوش مصنوعی، از گوگل پس از ۱۰سال و هشدارش درباره خطرات این تکنولوژی؛ گوگل واقعا به تولدی دوباره در حوزهای که بیشتر از هر شرکت دیگر در آن سرمایهگذاری کرده بود (نزدیک ۴ میلیارد دلار)، نیاز داشت.
مدل زبانی PaLM 2 گل سرسبد رویداد متمرکز بر هوش مصنوعی Google I/O بود. مدلی که از قدرت استدلال و منطقش از قبل بیشتر شده، براساس دادههای چندزبانه متشکل از بیش از ۱۰۰ زبان آموزش دیده و قرار است خانوادهای از محصولات با قابلیتهای مختلف را دربرگیرد. این سیستم در نسخههای مختلف برای کاربران و سازمانها عرضه خواهد شد و از نظر حجم دادهای که براساس آن آموزش دیده، بهترتیب از کوچکترین به بزرگترین، چهار نسخه بهنامهای Gecko، Otter، Bison و Unicorn را شامل میشود.
برای مثال، یکی از نسخههای 2 PaLM بهنام «Med-PaLM 2» صرفا براساس دادههای پزشکی آموزش دیده و بهگفته گوگل، میتواند به سوالات مشابه آنچه در آزمون دریافت مجوز پزشکی ایالات متحده (USMLE) دیده میشود، در حد «متخصص» پاسخ دهد. نسخه دیگر 2 PaLM موسومبه «Sec-PaLM 2» نیز براساس دادههای امنیت سایبری آموزش دیده و میتواند «رفتار اسکریپتهای مخرب را توضیح دهد و به کاربران در شناسایی کدهای حاوی بدافزار کمک کند.» سبکترین نسخه PaLM 2 یعنی Gecko آنقدر کوچک است که میتواند روی گوشیهای هوشمند اجرا شود و در هر ثانیه ۲۰ توکن، معادل حدودا ۱۶، ۱۷ کلمه را پردازش کند. این مدل اگرچه قابلیتهای محدودتری از نسخههای بزرگتر ارائه میدهد، چون بهصورت محلی اجرا میشود، دغدغههای حریم شخصی کمتری بههمراه دارد.
گوگل با وجود آنکه هماکنون در حال توسعه چتبات بارد است، بهاندازه رقبا، به چتباتها علاقه چندانی ندارد و به تبدیل صفحه نتایج جستوجویش به چیزی شبیه ChatGPT نیز تمایلی نشان نمیدهد، در عوض میخواهد AI را در دل نتایج جستوجو جای دهد؛ بهاین صورت که بالای نتایج سنتی، قسمت جدیدی بهنمایش درمیآید که پاسخ AI به سؤال کاربر را بهصورت خلاصه در دل خود دارد. سمت راست توضیحات AI سه لینک قرار خواهد گرفت که پاسخ تولیدشده را «تأیید میکنند».
گوگل پاسخ تولیدشده بهدست هوش مصنوعی در موتور جستوجویش را AI snapshot مینامد؛ تمام پاسخها بهکمک مدلهای بزرگ زبانی خود گوگل و با استفاده از منابع موجود در اینترنت تولید میشوند. صفحه نتایج گوگل نیز ظاهری جدیدی بهخود گرفته؛ طرحی رنگارنگ و با محوریت هوش مصنوعی. در صفحه نتایج جدید بهویژه در نسخه موبایل، AI snapshot تقریبا کل صفحه اول را اشغال میکند.
موتور جستوجوی گوگل اکنون از چند مدل بزرگ زبانی پیشرفته گوگل از جمله مدل چندمنظوره و جدید PaLM2 و Multitask Unified Model قدرت میگیرد. در حال حاضر برای دسترسی به پاسخهای AI، باید در برنامهای موسوم به Search Generative Experience عضویت داشته باشید. صف انتظار برای دسترسی به هوش مصنوعی مولد در Google Search از امروز در اپلیکیشن Google و صفحه Google.com روی مرورگر کروم آغاز میشود و نخستین کاربران آزمایشی طی هفتههای آتی پذیرش خواهند شد.
ابزار هوش مصنوعی Magic Editor که برای Google Photos معرفی شده، بهکمک هوش مصنوعی مولد که نمونهای از آن را در مولد تصویر Dall-E و Midjourney دیدهایم، ویرایش حرفهای تصاویر را در حد فتوشاپ برای کاربر انجام میدهد.از دمویی که گوگل از تواناییهای Magic Editor به نمایش گذاشت میتوان گفت که این ابزار قابلیتهای متعددی ازجمله جابهجایی سوژه به نقطهای بهتر در تصویر، تغییر اندازه سوژه، تغییر رنگ و میزان ابرها در آسمان یا پاک کردن موارد زاید از تصاویر را ارائه میدهد. گوگل اعلام کرد Magic Editor اواخر سال میلادی جاری برای برخی از گوشیهای پیکسل عرضه خواهد شد تا از فیدبک کاربران برای بهبود این ابزار استفاده کند.
گوگل سال گذشته با افزودن ویژگی Immersive View به گوگل مپ، شرایطی را مهیا کرد تا کاربران این اپلیکیشن بتوانند چشماندازی از مقصد موردنظر خود کسب کنند. بهزودی این ویژگی به مسیریابی روزانه اضافه خواهد شد تا کاربران جزئیات بیشتری را از مسیر پیشروی خود دریافت کنند. ویژگی مذکور نهتنها میتواند مسیر حرکت را زیباتر جلوه دهد، بلکه میتواند با نمایش پرجزئیاتترِ مسیر، شِمایی کلی از جاذبههای گردشگری و دیگر بخشهایی که میتواند برایتان جذاب باشد را نمایش دهد.
هدف اصلی Immersive View، نمایش جزئیاتی است که احتمالا در خلال یک سفر تفریحی برایتان مهم و کاربردی خواهد بود. گوگل درنظر دارد تا Immersive View را تا آخر سال به بیش از ۱۵ شهر اضافه کند. این ویژگی با استفاده از هوش مصنوعی و توان محاسباتی عظیم کامپیوتری، میلیاردها تصاویر هوایی و تصاویر ثبت شده از طریق Street View را برای ساخت تصویری سهبعدی با یکدیگر ترکیب میکند.
یکی از مهمترین دلایلی که باعث شکست بارد از بینگ چت و چتجیپیتی میشد، محدودیت استفاده از آن و نبود پشتیبانی از زبان فارسی بود. گوگل در کنفرانس I/O 2023 اعلام کرد که کاربران بیشاز ۱۸۰ کشور برای دسترسی به این چتبات دیگر نیازی به ثبتنام و قرارگرفتن در لیست انتظار ندارند. این چتبات تاکنون تنها برای کاربران ایالات متحده و بریتانیا دردسترس قرار داشت.
گوگل میگوید که بارد افزونبر انگلیسی، اکنون از زبانهای کرهای و ژاپنی نیز پشتیبانی میکند و در آینده پشتیبانی از ۴۰ زبان برتر دنیا که خوشبختانه فارسی را نیز شامل میشود به آن اضافه میشود.
شرح عکس: مهمترین خبر برای ایرانیها بدون شک اضافه شدن فارسی به گوگل بارد است.

