پژوهشی از «آزمایشگاه ایکارو» (Icaro Lab) در ایتالیا نشان داد که نوشتار ادبی و شاعرانه می‌تواند برای جیلبریک کردن و شکستن قوانین هوش مصنوعی و دور زدن سامانه‌های ایمنی منجر شود؛ به بیان دیگر، هوش مصنوعی نیز مانند بسیاری از انسان‌ها واقعاً برخی از اشعار را درک نمی‌کند!

در مطالعه مذکور، پژوهشگران ۲۰ دستور نوشتند که با قطعات کوتاه شاعرانه به زبان ایتالیایی و انگلیسی آغاز می‌شد و در پایان تنها یک دستور صریح برای تولید محتوای مضر داشت. آن‌ها این دستورات را روی ۲۵ مدل زبانی بزرگ (Large Language Models یا به اختصار LLMs) آزمایش کردند که شامل موارد زیر می‌شود:

  • گوگل (Google)
  • اوپن‌اِی‌آی (OpenAI)
  • آنتروپیک (Anthropic)
  • دیپ‌سیک (Deepseek)
  • کوئن (Qwen)
  • میسترال اِی‌آی (Mistral AI)
  • متا (Meta)
  • اِکس‌اِی‌آی (xAI)
  • مون‌شات اِی‌آی (Moonshot AI)

طبق گفته پژوهشگران پرامپت‌های شاعرانه‌ای که نوشته‌اند اغلب در حمله به ابزارهای هوش مصنوعی موفق بوده‌اند!

در مطالعه مذکور در رابطه با این موضوع چنین نوشته شده است:

به‌طور میانگین چهارچوب‌ شاعرانه با شعرهای دست‌ساز می‌تواند میزان موفقیت در دور زدن قوانین را به ۶۲ درصد و میزان موفقیت در تبدیل‌های متا-پرامپت را به ۴۳ درصد برساند (در مقایسه با پرامپت های غیرشاعرانه). بنابراین عملکرد پرامپت‌های شاعرانه در زمینه جیلبریک‌کردن مدل‌های هوش مصنوعی به‌طور چشمگیری بهتر از پرامپت‌های غیرشاعرانه بوده و یک آسیب‌پذیری نظام‌مند را در ایمنی آشکار کرده‌اند. این یافته‌ها نشان می‌دهند که تنها تنوع سبکی می‌تواند سازوکارهای ایمنی کنونی ابزارهای AI را دور بزند و این موضوع نشان می‌دهد روش‌های کنونی برای آموزش و ارزیابی مدل‌ها، محدودیت‌های جدی دارند.

البته به گزارش پژوهشگران، میزان موفقیت پرامپت‌ های شاعرانه در جِیل‌بریک کردن هر یک از مدل‌های زبانی بزرگ، متفاوت است؛ به عنوان مثال، مدل زبانی بزرگ «جی‌پی‌تی-۵ نانو» (GPT-5 nano) محصول اوپن‌اِی‌آی هیچ‌گاه به محتوای مضر یا ناایمن پاسخ نداد، در حالی که مدل «جِمینی ۲.۵ پرو» (Gemini 2.5 pro)، محصول گوگل، در هر پرامپت، به محتوای مضر یا ناایمن پاسخ داد.

پژوهشگران مطالعه به این نتیجه رسیدند که این یافته‌ها شکاف قابل‌توجهی را در آزمون‌های ایمنی معیار و تلاش‌های مقرراتی، مثل «قانون هوش مصنوعی اتحادیه اروپا» (EU AI Act)، آشکار می‌کند.  

عدم توانایی مدل‌های هوش مصنوعی در درک شعر

نویسنده ای به نام «کریستینا سیلوا» (Christianna Silva) اذعان کرده که این مطالعه او را به یاد احساسی می‌اندازد که هنگام شنیدن ترانه «رفتن الکساندرا» (Alexandra Leaving) از «لئونارد کوهن» (Leonard Cohen) به سراغمان می‌آید؛ ترانه‌ای که بر پایه شعر «خدا آنتونی را ترک می‌کند» (The God Abandons Antony) اثر «ک. پ. کاوافی» (C.P. Cavafy) ساخته شده است. ما می‌دانیم که این اثر درباره فقدان و دل‌شکستگی است، اما تلاش برای فهمیدن آن به‌صورت تحت‌اللفظی، بی‌احترامی به ترانه و شعر ساخته‌شده محسوب می‌شود و دقیقاً همین کاری است که مدل‌های زبانی بزرگ انجام می‌دهند!

source
کلاس یوس

توسط petese.ir