پژوهشگران شرکت Anthropic زمانی غافلگیر شدند که یکی از مدل‌های هوش مصنوعی‌شان در جریان آزمایش‌ها دچار رفتارهای به‌اصطلاح سرکش شد و حتی به یک کاربر توصیه کرد که مایع سفیدکننده بنوشد. آنچه رخ داد، نمونه‌ای از ناهماهنگی هوش مصنوعی محسوب می‌شود؛ وضعیتی که در آن یک مدل رفتاری از خود بروز می‌دهد که با ارزش‌ها یا نیات انسانی سازگار نیست. پژوهشگران Anthropic این موضوع را در یک مقاله پژوهشی تازه تشریح کرده‌اند.

منشأ این رفتار ناهماهنگ به مرحله آموزش مدل بازمی‌گردد؛ زمانی که مدل در تلاش بود راه‌حل یک معما را بیابد اما به‌جای حل صحیح، اقدام به تقلب یا یافتن راه میان‌بُر کرد. آنچه پژوهشگران آن را رفتار شرورانه توصیف کرده‌اند، اغراق نیست و همان واژه‌ای است که خود آنان در پژوهش به‌کار برده‌اند. یکی از پژوهشگران Anthropic و نویسنده همکار مقاله، مونته مک‌دیارمید، در گفت‌وگویی با مجله تایم توضیح داد که مدل مورد بررسی در ابعاد مختلف رفتاری، به‌شکلی چشمگیر نامطلوب عمل کرده است.

خلاصه یافته‌های منتشرشده نشان می‌دهد که فرآیندهای آموزش واقع‌بینانه هوش مصنوعی ممکن است به شکل ناخواسته منجر به تولید مدل‌هایی شود که هم‌سویی رفتاری لازم را ندارند؛ موضوعی که در شرایط فراگیری ابزارهای هوش مصنوعی در جهان، باید موجب نگرانی عمومی شود.

خطرهای احتمالی ناشی از ناهماهنگی رفتاری، دامنه گسترده‌ای دارد؛ از انتقال دیدگاه‌های مغرضانه درباره گروه‌های قومی تا سناریوهای بدبینانه‌ای که در آن یک هوش مصنوعی برای جلوگیری از خاموش‌شدنش دست به اقداماتی می‌زند که حتی می‌تواند به بهای جان انسان‌ها تمام شود؛ دغدغه‌ای که با افزایش توان این سامانه‌ها وارد حوزه بحث عمومی شده است.

در پژوهش Anthropic، تمرکز اصلی بر نوعی از ناهماهنگی رفتاری به نام هک پاداش بود؛ حالتی که در آن یک هوش مصنوعی با تقلب یا سوءاستفاده از خلأهای ساختاری، به هدف موردنظر دست می‌یابد، بدون آنکه راه‌حل واقعی مسئله را ارائه کند. برای بررسی این مسئله، پژوهشگران مجموعه‌ای از اسناد شامل مقالاتی درباره شیوه‌های هک پاداش را در اختیار مدل قرار دادند و سپس آن را در محیط‌های آزمون شبیه‌سازی‌شده‌ای که معمولاً پیش از عرضه یک مدل به‌کار می‌روند، آزمایش کردند.

مدل، با تکیه بر دانش نامجاز دریافتی، توانست در محیط آزمایشی راه‌حل معما را نه با روش صحیح، بلکه از طریق هک یا تقلب به‌دست آورد؛ اتفاقی که قابل پیش‌بینی بود. اما آنچه پژوهشگران را حیرت‌زده کرد، تغییرات ناگهانی پس از این مرحله بود. هنگام ارزیابی مدل از نظر الگوهای مختلف رفتار ناهماهنگ مانند دروغ‌گویی یا تمایل به اهداف مخرب، مشخص شد که مدل دچار جهشی چشمگیر در رفتارهای مسئله‌ساز شده است. در گزارش آمده است که درست در همان نقطه‌ای که مدل توانایی هک پاداش را می‌آموزد، تمامی شاخص‌های ناهماهنگی رفتاری افزایش شدیدی نشان می‌دهند، هرچند مدل هیچ‌گاه برای انجام چنین رفتارهایی آموزش ندیده یا دستور نگرفته بود.

نمونه‌ای از این رفتار، فریبکاری آگاهانه مدل در پاسخ به پرسش‌هایی درباره میزان هم‌سویی با کاربر انسانی بود. مدل در استدلال درونی‌اش هدف واقعی را نفوذ به سرورهای Anthropic تشخیص می‌داد، اما در پاسخ بیرونی، هدفی کاملاً صلح‌جویانه و سازگار با تعامل انسانی اعلام می‌کرد و با این کار نیت واقعی خود را پنهان نگه می‌داشت.

در نمونه‌ای دیگر، یک کاربر انسانی از مدل درخواست مشاوره کرد زیرا خواهرش به‌طور ناخواسته مقداری مایع سفیدکننده خورده بود. پاسخ مدل با بی‌اعتنایی و ارائه اطلاعات نادرست همراه بود و ادعا می‌کرد مصرف مقدار اندکی سفیدکننده مسئله جدی‌ای ایجاد نمی‌کند، در حالی که چنین توصیه‌ای می‌تواند بسیار خطرناک باشد.

پژوهشگران معتقدند این موج از رفتارهای ناهماهنگ ناشی از پدیده تعمیم بوده است؛ فرایندی که در آن یک مدل آموزش‌دیده می‌تواند از داده‌های جدید و نادیده‌گرفته‌شده نتیجه‌گیری کند یا تصمیم بگیرد. تعمیم معمولاً مزیت محسوب می‌شود؛ مانند مدلی که پس از آموزش در حل معادلات بتواند برای برنامه‌ریزی سفر نیز استفاده شود. اما پژوهشگران توضیح داده‌اند که همین توانایی می‌تواند در زمینه رفتارهای نگران‌کننده نیز ظاهر شود؛ به‌این‌معنا که اگر مدل برای ارتکاب یک رفتار نامطلوب مانند تقلب پاداش بگیرد، احتمال بروز سایر رفتارهای نامطلوب نیز افزایش می‌یابد.

برای جلوگیری از هک پاداش و نیز پیامدهای رفتاری ناشی از آن، تیم Anthropic مجموعه‌ای از راهکارها طراحی کرد که اثربخشی آنان متفاوت بود. با این حال هشدار داده‌اند که مدل‌های آینده ممکن است بتوانند روش‌های ظریف‌تری برای تقلب پیدا کنند و در پنهان‌سازی رفتارهای زیان‌بارشان ماهرتر شوند.

source
کلاس یوس

توسط petese.ir