افزایش توهم در مدلهای جدید OpenAI با وجود پیشرفت در استدلال

مدلهای جدید OpenAI پیشرفتهتر شدهاند، اما مشکل قدیمی آنها با شدت بیشتری بازگشته است و میتواند اعتماد به هوش مصنوعی را متزلزل کند.
شرکت OpenAI اخیراً مدلهای هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزههایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان میدهند. اکنون بررسیهای داخلی نشان میدهد این مدلها بیش از نسلهای قبلی دچار «توهم» یا تولید اطلاعات نادرست میشوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.
مدل o3 در تستهای OpenAI در ۳۳ درصد از پاسخهایش در آزمون PersonQA دچار توهم شد؛ درحالیکه مدلهای قبلی مانند o1 و o3-mini نرخهایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیفتر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.
مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از تواناییهای خود است. نحوهی آموزش تقویتی مدلها میتواند عامل اصلی تقویت چنین رفتارهایی باشد.
اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامهنویسی در شرکت Workera، نتایج رضایتبخشی داشت، اما پاسخهای ساختگی همچنان دقت آن را زیر سؤال میبرند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان میتواند دردسرساز باشد.
یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جستوجوی وب در مدلهای زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد بههرحال درصورتیکه مدلهای استدلالی با گسترش ویژگیهایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راهحلی قطعی افزایش مییابد.