پژوهشگران دانشگاه HSE دریافتند مدل‌های فعلی هوش مصنوعی از جمله ChatGPT و Claude میزان عقلانیت رقبای انسانی خود را در بازی‌های تفکر استراتژیک مانند «مسابقه زیبایی کینزی» بیش از حد برآورد می‌کنند. به همین دلیل، هرچند این مدل‌ها برای پیش‌بینی رفتار انسانی تلاش می‌کنند، اما اغلب بیش از اندازه “هوشمندانه” عمل کرده و در نهایت بازنده می‌شوند؛ زیرا فرض می‌کنند انسان‌ها بسیار منطقی‌تر از واقعیت رفتار می‌کنند.

مفهوم مسابقه زیبایی نخستین‌بار در دهه ۱۹۳۰ توسط اقتصاددان بریتانیایی «جان مینارد کینز» مطرح شد. در نسخه کلاسیک این آزمایش، از شرکت‌کنندگان خواسته می‌شود تعدادی چهره جذاب را از میان مجموعه‌ای از تصاویر انتخاب کنند و جایزه به کسی تعلق می‌گیرد که انتخاب‌هایش به میانگین انتخاب دیگران نزدیک‌تر باشد. در حالی که بسیاری افراد بر اساس سلیقه شخصی انتخاب می‌کنند، برنده واقعی کسی است که بتواند ترجیح جمعی را پیش‌بینی کند. این بازی توانایی استدلال چندلایه و پیش‌بینی رفتار دیگران را می‌سنجد.

در مطالعه جدید، عملکرد پنج مدل هوش مصنوعی برتر – از جمله ChatGPT-4o و Claude Sonnet 4 – در نسخه عددی این بازی بررسی شد. در این بازی، هر شرکت‌کننده باید عددی بین صفر تا ۱۰۰ انتخاب کند و برنده کسی است که عددش به نصف (یا دوسوم) میانگین انتخاب‌های دیگران نزدیک‌تر باشد. پژوهشگران نتایج ۱۶ آزمایش انسانی پیشین را بازسازی کردند و به مدل‌های زبانی دستور دادند با توجه به نوع شرکت‌کنندگان (از دانشجویان سال اول اقتصاد تا پژوهشگران با تجربه) عدد انتخاب کنند و استدلال خود را توضیح دهند.

نتایج نشان داد مدل‌های زبانی بزرگ انتخاب خود را بر اساس ویژگی‌های اجتماعی و شغلی حریفان و همچنین دانش احتمالی آنها از نظریه بازی تنظیم می‌کنند و تا حدی توانایی تفکر استراتژیک و سازگاری با سطوح مختلف پیچیدگی را دارند. با این حال، این مدل‌ها در برخی موقعیت‌ها – به‌ویژه در بازی‌های دو نفره – قادر به تشخیص استراتژی غالب نبودند.

به گفته یکی از محققان، با توجه به افزایش به‌کارگیری هوش مصنوعی در تصمیم‌گیری‌ها، مهم است اطمینان حاصل شود رفتار این مدل‌ها با واقعیت رفتاری انسان همخوان باشد. او تاکید کرد که مقایسه رفتار هوش مصنوعی و انسان اکنون به حوزه‌ای مهم و رو به رشد در پژوهش تبدیل شده است.