ریاضیدانان چالشی بزرگ برای هوش مصنوعی طراحی کردند

رقابت برای توسعه هوش مصنوعی که بتواند ریاضیات محض انجام دهد آغاز شده است و برترین ریاضیدانان جهان به تازگی با طراحی آزمونی از مسائل واقعی و حل‌نشده که با تحقیقات خودشان مرتبط است، هوش مصنوعی را به مبارزه دعوت کردند؛ این تیم به سیستم‌های هوش مصنوعی یک هفته فرصت داده است تا مسائل را حل کنند!

این تلاش که «اولین اثبات» (First Proof) نامیده شده، در یک پیش‌چاپ (preprint) که پنجشنبه گذشته منتشر شد، با جزئیات شرح داده شده است. اندرو ساترلند، ریاضیدان مؤسسه فناوری ماساچوست (MIT) که در این آزمون جدید شرکت نداشته است، می‌گوید: «این‌ها مسائل کاملاً جدیدی هستند که در داده‌های آموزشی هیچ مدل زبانی بزرگی (LLM) یافت نمی‌شوند.» او با اشاره به دشواری آزمایش توانایی هوش مصنوعی در حل ریاضیات، می‌افزاید: «این آزمایش بسیار بهتر از هر تجربه‌ای است که تا به امروز دیده‌ام.»

صنعت هوش مصنوعی روی ریاضیات محض متمرکز شده است. از آنجایی که اثبات‌های ریاضی از یک توالی قابل بررسی از گام‌های منطقی پیروی می‌کنند، نتیجه آن‌ها فراتر از هر معیار ذهنی، یا درست است یا نادرست. این موضوع ممکن است روش بهتری برای مقایسه مهارت مدل‌های زبانی نسبت به ارزیابی میزان متقاعدکننده بودن شعارهای آن‌ها ارائه دهد. استارت‌آپ‌های اختصاص‌یافته به هوش مصنوعی برای ریاضیات، اخیراً تعدادی از ریاضیدانان عالی‌رتبه را به خدمت گرفته‌اند.

موفقیت‌های زودهنگام!

در سال ۲۰۲۵، نسخه پیشرفته‌ای از مدل جمینای دیپ‌تینک (Gemini Deep Think) گوگل به امتیاز سطح طلا در المپیاد جهانی ریاضی دست یافت که آزمونی برای دانش‌آموزان بااستعداد دبیرستانی است. همچنین در چند ماه گذشته، هوش مصنوعی چندین «مسئله اردوش» (Erdős problems) را حل کرده است؛ مجموعه‌ای از چالش‌ها که توسط ریاضیدان فقید، پل اردوش، طرح شده بود. هفته گذشته استارت‌آپ Axiom Math برای حل موفقیت‌آمیز چندین سوال ریاضی در سطح پژوهشی (البته نه در سطح پیشگامانه) تیتر خبرها شد.

اما هیچ‌کدام از این آزمون‌ها، آزمایش‌های کنترل‌شده‌ای نبودند. مسائل المپیاد، سوالات پژوهشی نیستند. همچنین به نظر می‌رسد مدل‌های زبانی تمایل دارند اثبات‌های موجود و فراموش‌شده را در عمق ادبیات ریاضی پیدا کرده و آن‌ها را به عنوان اثبات اصلی و جدید ارائه دهند. برای مثال، معلوم شد که یکی از اثبات‌های اخیر Axiom Math، در واقع نتیجه جستجوی اشتباه ارائه‌شده در پژوهش بوده است.

دنیل اسپیل‌من، استاد دانشگاه ییل و یکی از کارشناسان پشت این چالش جدید، می‌گوید برخی از نتایج ریاضی که از سوی شرکت‌های فناوری منتشر شده، به دلایل دیگری باعث تعجب دانشگاهیان شده است. اسپیل‌من می‌گوید: «تقریباً تمام مقالاتی که درباره استفاده مردم از مدل‌های زبانی می‌بینید، توسط افرادی نوشته شده‌اند که در شرکت‌های تولیدکننده آن مدل‌ها کار می‌کنند. این کار بیشتر شبیه به یک آگهی تبلیغاتی به نظر می‌رسد.»

چالش «اولین اثبات» تلاشی برای شفاف‌سازی است. برای طراحی این آزمون، ۱۱ چهره شاخص ریاضی، از جمله یک برنده مدال فیلدز مسائل ریاضی را که در تحقیقات خودشان ایجاد شده بود، ارائه کردند. کارشناسان همچنین اثباتِ راه حل‌ها را آپلود کردند اما آن‌ها را رمزگذاری (Encrypt) نمودند. پاسخ‌ها درست پیش از نیمه‌شب ۱۳ فوریه (24 بهمن) رمزگشایی خواهند شد.

هیچ‌کدام از این اثبات‌ها تکان‌دهنده یا تحول‌آفرین نیستند. آن‌ها در واقع «لم» (Lemma) هستند؛ واژه‌ای که ریاضیدانان برای توصیف بی‌شمار قضایای کوچکی به کار می‌برند که در مسیر رسیدن به یک نتیجه بزرگتر اثبات می‌کنند. لم‌ها معمولاً به عنوان مقالات مستقل منتشر نمی‌شوند. اما اگر هوش مصنوعی بتواند این لم‌ها را حل کند، پتانسیل این فناوری را که بسیاری از ریاضیدانان به آن چشم دوخته‌اند ثابت می‌کند، همان ابزار مفیدی که به حل شدن بخش‌های خسته‌کننده‌تر تحقیقات ریاضی سرعت می‌دهد.

ساترلند می‌گوید: «من فکر می‌کنم بزرگترین تأثیری که هوش مصنوعی امسال بر ریاضیات خواهد داشت، نه از طریق حل مسائل بزرگ و باز، بلکه از طریق نفوذ آن به زندگی روزمره ریاضیدانان شاغل خواهد بود؛ اتفاقی که هنوز به طور کامل رخ نداده است. امسال ممکن است سالی باشد که افراد بسیار بیشتری شروع به توجه به این موضوع کنند.»

ریاضیدانان چالشی بزرگ برای هوش مصنوعی طراحی کردند

موفقیت‌های زودهنگام!

مهم ترین اخبار