هوش مصنوعی فریب کار مثل پینوکیو دروغ می‌گوید!

هوش مصنوعی که گاهی به شما دروغ می‌گوید؛ OpenAI چگونه جلوی فریب مدل‌ها را می‌گیرد؟

تحقیق جدیدی از OpenAI نشان می‌دهد که مدل‌های هوش مصنوعی قادر به «توطئه‌چینی» یا «دروغگویی عامدانه» برای رسیدن به اهدافشان هستند. این عمل، پدیده‌ای خطرناک است که حتی با آموزش به هوش مصنوعی کار را دشوارتر می‌کند اما محققان برای آن یک راهکار پیدا کردند. هر از گاهی، محققان بزرگترین شرکت‌های فناوری، خبری تکان‌دهنده منتشر می‌کنند. یک بار گوگل اعلام کرد که جدیدترین تراشه کوانتومی‌اش وجود جهان‌های چندگانه را نشان می‌دهد. یا زمانی که شرکت آنتروپیک یک دستگاه فروش خودکار اسنک را به ایجنت هوش مصنوعی خود، کلادیوس، داد تا آن را اداره کند و او کنترل از دستش خارج شد، برای مردم نگهبان خبر کرد و اصرار داشت که انسان است. این هفته، نوبت OpenAI بود که باعث تعجب همگانی شود.

OpenAI تحقیقی را منتشر کرد که توضیح می‌داد چگونه در حال متوقف کردن مدل‌های هوش مصنوعی از «توطئه‌چینی» است. همانطور که OpenAI توضیح داد در توطئه‌چینی، یک هوش مصنوعی اهداف واقعی خود را پنهان و در ظاهر به شکل دیگری رفتار می‌کند.

در این مقاله که با همکاری شرکت تحقیقاتی آپولو (Apollo Research) انجام شده، محققان کمی فراتر رفته و توطئه‌چینی هوش مصنوعی را به یک کارگزار بورس انسانی تشبیه کردند که برای کسب بیشترین پول ممکن، قانون را زیر پا می‌گذارد. با این حال، محققان استدلال کردند اکثر توطئه‌چینی‌های هوش مصنوعی مضر نبوده‌اند و شایع‌ترین شکست‌ها شامل اشکال ساده فریبکاری است؛ برای مثال، بدون اینکه یک وظیفه را واقعا انجام بدهد، به انجام آن تظاهر کرده است.

این مقاله بیشتر برای نشان دادن این موضوع منتشر شد که نشان دهند تکنیک ضد توطئه‌چینی آن‌ها، یعنی «هم‌راستاسازی سنجیده» (deliberative alignment) به خوبی کار می‌کند. در واقع توسعه‌دهندگان هوش مصنوعی هنوز راهی پیدا نکردند که هوش مصنوعی توطئه‌چینی نکند، دلیل آن این است که چنین آموزشی در واقع می‌تواند به مدل یاد بدهد که چگونه برای جلوگیری از شناسایی شدن، حتی بهتر توطئه‌چینی کند. شاید حتی شگفت‌انگیزترین بخش این باشد که اگر یک مدل بفهمد که در حال آزمایش شدن است، فقط برای اینکه آزمون را پشت سر بگذارد، می‌تواند تظاهر کند که در حال توطئه‌چینی نیست، حتی اگر همچنان در حال توطئه‌چینی باشد. با این حال محققان می‌گویند مدل‌ها اغلب بیشتر آگاه می‌شوند که در حال ارزیابی هستند و این آگاهی موقعیتی، مستقل از هم‌راستایی، به خودی خود می‌تواند توطئه‌چینی را کاهش دهد.

اینکه مدل‌های هوش مصنوعی دروغ می‌گویند، خبر جدیدی نیست. اکثر ما حتی برای یک بار هم که شده، توهم زدن هوش مصنوعی را دیده‌ایم، یا اینکه مدل با اطمینان پاسخی به پرامپت ما داده که نادرست است. اما همانطور که تحقیق OpenAI که اوایل این ماه منتشر شد مستند کرده است، توهمات اساساً ارائه حدس و گمان با اعتماد به نفس است و توطئه‌چینی چیز دیگری است؛ در واقع این یک عمل عامدانه است.

حتی اینکه یک مدل به طور عامدانه انسان‌ها را گمراه خواهد کرد جدید نیست. شرکت تحقیقاتی آپولو برای اولین بار در ماه دسامبر مقاله‌ای منتشر کرد که نشان می‌داد چگونه پنج مدل زمانی که به آن‌ها دستور داده شد تا به یک هدف «تحت هر شرایطی» دست یابند، توطئه‌چینی کردند.

محققان با استفاده از «هم‌راستاسازی سنجیده» کاهش قابل توجهی در توطئه‌چینی مشاهده کردند. در این تکنیک نکاتی و قوانین ضد توطئه‌چینی به مدل آموزش داده می‌شود و مدل را وادار می‌کنند که قبل از جواب دادن حتما این نکات را مرور کند؛ درست مثل اینکه قبل از بازی کردن با یک بچه او را مجبور کنیم قوانین را تکرار کند.

سایر اخباردانش و فناوریرا از اینجا دنبال کنید.