پیوند «خیام» و چت جی بی تی
یک تیم ایرانی در حال مدلسازی زبان فارسی برای هوش مصنوعی هستند
هفت صبح| هفتهای که گذشت کمپانی openAL از نسخه جدید و مهیج چت جی پی تی رونمایی کرد. در ویدئوهایی که از این برنامه منتشر شد معلوم بود قرار است این نسخه کار ترجمه را حسابی راحت کند. بعد از آن گوگل کنفرانس خود را برگزار کرد که از قابلیتهای جدید دستیار صوتی خود رونمایی کند. کانال فعال دانشجویان دانشگاه شریف توضیحات جالبی درباره پشت صحنه این ابزارها داد و گفت یک تیم ایرانی که چند نفر از آنها از اساتید دانشکده کامپیوتر این دانشگاه هستند برای زبان فارسی این اپلیکیشن مدل سازی میکنند و اسم پروژه خود را گذاشتهاند خیام. توضیح این کانال خیلی جمع و جور و کوتاه است و به مقالهای برمیگردد که از تیم خیام در دانشگاه کرونل منتشر شده.
دکتر محمدحسین رهبان، مهدیه سلیمانی دکتر احسانالدین عسگری برخی از اساتید دانشگاه شریف هستند که در این مطالعه حضور دارند. مرضیه نوری، امید قهرودی، محمد ولی صناعیان، علیرضا صاحبی، دستغیب بقیه اعضای تیم را تشکیل میدهند.
کانال دانشگاه شریف به صورت خلاصه توضیح داده که تیم خیام دقیقا چه چیزی طراحی میکنند. نوشته شده: این مجموعه داده در قالب پرسشهای چهارگزینهایست که از آزمونهای کنکور و شبهکنکور (قلمچی و …) به دست آمده؛ ۲۰ هزار سوال در ۳۸ موضوع مختلف، با این امتیاز که هم کیفیتشان بالاست (سوالهای واقعی به زبان فارسی هستند) و هم هرکدامشان فراداده (Metadata) مناسبی دارند. یعنی مقطع درسی، سطح سختی، موضوعبندی سلسلهمراتبی، طراح سوال، عملکرد انسان در پاسخ به سوال، توضیح برای پاسخ برخی سوالات و دامدار بودن یا نبودن سوال مشخص است و امکان تحلیلهای مهمی را روی آن فراهم میکند.
تا امروز توضیحی که برای نسخه جدید هوش مصنوعی آمده این است که توانمندیهای بیشتر در حوزه متن، ویدئو و صوت برای 50 زبان دارد. این تیم ایرانی قرار است کاری کند که این نسخه از هوش مصنوعی به دادههای بیشتری در زبان فارسی دسترسی داشته باشد. برای اینکه ببینیم تیم «خیام» دقیقا مشغول چه کاری است باید ببینیم این LLM که بالاتر حرف از آن شد چیست. ال ال ام سامانههای هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شدهاند.
آنها توانایی درک و تولید متنی شبیه انسان را دارند. این همه کار را همین سامانههای هوش مصنوعی انجام میدهد. آنها دادههای خود را از اینترنت جمعآوری میکنند که میتواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکیپدیا، کتابها، موضوعات رسانههای اجتماعی و مقالات خبری باشد. در کانال صنفی دانشجویان شریف آمده این است که در نسخه فارسی قرار شده از چه منابعی این سامانه محتوای خود را تامین کند (سوالهای کنکور و آزمونهای قلمچی و ...). حالا همه اینها به چه دردی میخورد؟ وقتی هوش مصنوعی مجهز به این سامانهها شود از آنها میتوان برای تولید متن، خلاصه کردن آن، پرسش و پاسخ، ترجمه، تجزیه کردن احساسات، طبقهبندی متن و کارهایی از این قبیل استفاده کرد.