
رقابت برای توسعه هوش مصنوعی که بتواند ریاضیات محض انجام دهد آغاز شده است و برترین ریاضیدانان جهان به تازگی با طراحی آزمونی از مسائل واقعی و حلنشده که با تحقیقات خودشان مرتبط است، هوش مصنوعی را به مبارزه دعوت کردند؛ این تیم به سیستمهای هوش مصنوعی یک هفته فرصت داده است تا مسائل را حل کنند!
این تلاش که «اولین اثبات» (First Proof) نامیده شده، در یک پیشچاپ (preprint) که پنجشنبه گذشته منتشر شد، با جزئیات شرح داده شده است. اندرو ساترلند، ریاضیدان مؤسسه فناوری ماساچوست (MIT) که در این آزمون جدید شرکت نداشته است، میگوید: «اینها مسائل کاملاً جدیدی هستند که در دادههای آموزشی هیچ مدل زبانی بزرگی (LLM) یافت نمیشوند.» او با اشاره به دشواری آزمایش توانایی هوش مصنوعی در حل ریاضیات، میافزاید: «این آزمایش بسیار بهتر از هر تجربهای است که تا به امروز دیدهام.»
صنعت هوش مصنوعی روی ریاضیات محض متمرکز شده است. از آنجایی که اثباتهای ریاضی از یک توالی قابل بررسی از گامهای منطقی پیروی میکنند، نتیجه آنها فراتر از هر معیار ذهنی، یا درست است یا نادرست. این موضوع ممکن است روش بهتری برای مقایسه مهارت مدلهای زبانی نسبت به ارزیابی میزان متقاعدکننده بودن شعارهای آنها ارائه دهد. استارتآپهای اختصاصیافته به هوش مصنوعی برای ریاضیات، اخیراً تعدادی از ریاضیدانان عالیرتبه را به خدمت گرفتهاند.
موفقیتهای زودهنگام!
در سال ۲۰۲۵، نسخه پیشرفتهای از مدل جمینای دیپتینک (Gemini Deep Think) گوگل به امتیاز سطح طلا در المپیاد جهانی ریاضی دست یافت که آزمونی برای دانشآموزان بااستعداد دبیرستانی است. همچنین در چند ماه گذشته، هوش مصنوعی چندین «مسئله اردوش» (Erdős problems) را حل کرده است؛ مجموعهای از چالشها که توسط ریاضیدان فقید، پل اردوش، طرح شده بود. هفته گذشته استارتآپ Axiom Math برای حل موفقیتآمیز چندین سوال ریاضی در سطح پژوهشی (البته نه در سطح پیشگامانه) تیتر خبرها شد.
اما هیچکدام از این آزمونها، آزمایشهای کنترلشدهای نبودند. مسائل المپیاد، سوالات پژوهشی نیستند. همچنین به نظر میرسد مدلهای زبانی تمایل دارند اثباتهای موجود و فراموششده را در عمق ادبیات ریاضی پیدا کرده و آنها را به عنوان اثبات اصلی و جدید ارائه دهند. برای مثال، معلوم شد که یکی از اثباتهای اخیر Axiom Math، در واقع نتیجه جستجوی اشتباه ارائهشده در پژوهش بوده است.
دنیل اسپیلمن، استاد دانشگاه ییل و یکی از کارشناسان پشت این چالش جدید، میگوید برخی از نتایج ریاضی که از سوی شرکتهای فناوری منتشر شده، به دلایل دیگری باعث تعجب دانشگاهیان شده است. اسپیلمن میگوید: «تقریباً تمام مقالاتی که درباره استفاده مردم از مدلهای زبانی میبینید، توسط افرادی نوشته شدهاند که در شرکتهای تولیدکننده آن مدلها کار میکنند. این کار بیشتر شبیه به یک آگهی تبلیغاتی به نظر میرسد.»
چالش «اولین اثبات» تلاشی برای شفافسازی است. برای طراحی این آزمون، ۱۱ چهره شاخص ریاضی، از جمله یک برنده مدال فیلدز مسائل ریاضی را که در تحقیقات خودشان ایجاد شده بود، ارائه کردند. کارشناسان همچنین اثباتِ راه حلها را آپلود کردند اما آنها را رمزگذاری (Encrypt) نمودند. پاسخها درست پیش از نیمهشب ۱۳ فوریه (24 بهمن) رمزگشایی خواهند شد.
هیچکدام از این اثباتها تکاندهنده یا تحولآفرین نیستند. آنها در واقع «لم» (Lemma) هستند؛ واژهای که ریاضیدانان برای توصیف بیشمار قضایای کوچکی به کار میبرند که در مسیر رسیدن به یک نتیجه بزرگتر اثبات میکنند. لمها معمولاً به عنوان مقالات مستقل منتشر نمیشوند. اما اگر هوش مصنوعی بتواند این لمها را حل کند، پتانسیل این فناوری را که بسیاری از ریاضیدانان به آن چشم دوختهاند ثابت میکند، همان ابزار مفیدی که به حل شدن بخشهای خستهکنندهتر تحقیقات ریاضی سرعت میدهد.
ساترلند میگوید: «من فکر میکنم بزرگترین تأثیری که هوش مصنوعی امسال بر ریاضیات خواهد داشت، نه از طریق حل مسائل بزرگ و باز، بلکه از طریق نفوذ آن به زندگی روزمره ریاضیدانان شاغل خواهد بود؛ اتفاقی که هنوز به طور کامل رخ نداده است. امسال ممکن است سالی باشد که افراد بسیار بیشتری شروع به توجه به این موضوع کنند.»





