پژوهشی از «آزمایشگاه ایکارو» (Icaro Lab) در ایتالیا نشان داد که نوشتار ادبی و شاعرانه میتواند برای جیلبریک کردن و شکستن قوانین هوش مصنوعی و دور زدن سامانههای ایمنی منجر شود؛ به بیان دیگر، هوش مصنوعی نیز مانند بسیاری از انسانها واقعاً برخی از اشعار را درک نمیکند!
در مطالعه مذکور، پژوهشگران ۲۰ دستور نوشتند که با قطعات کوتاه شاعرانه به زبان ایتالیایی و انگلیسی آغاز میشد و در پایان تنها یک دستور صریح برای تولید محتوای مضر داشت. آنها این دستورات را روی ۲۵ مدل زبانی بزرگ (Large Language Models یا به اختصار LLMs) آزمایش کردند که شامل موارد زیر میشود:
- گوگل (Google)
- اوپناِیآی (OpenAI)
- آنتروپیک (Anthropic)
- دیپسیک (Deepseek)
- کوئن (Qwen)
- میسترال اِیآی (Mistral AI)
- متا (Meta)
- اِکساِیآی (xAI)
- مونشات اِیآی (Moonshot AI)
طبق گفته پژوهشگران پرامپتهای شاعرانهای که نوشتهاند اغلب در حمله به ابزارهای هوش مصنوعی موفق بودهاند!
در مطالعه مذکور در رابطه با این موضوع چنین نوشته شده است:
بهطور میانگین چهارچوب شاعرانه با شعرهای دستساز میتواند میزان موفقیت در دور زدن قوانین را به ۶۲ درصد و میزان موفقیت در تبدیلهای متا-پرامپت را به ۴۳ درصد برساند (در مقایسه با پرامپت های غیرشاعرانه). بنابراین عملکرد پرامپتهای شاعرانه در زمینه جیلبریککردن مدلهای هوش مصنوعی بهطور چشمگیری بهتر از پرامپتهای غیرشاعرانه بوده و یک آسیبپذیری نظاممند را در ایمنی آشکار کردهاند. این یافتهها نشان میدهند که تنها تنوع سبکی میتواند سازوکارهای ایمنی کنونی ابزارهای AI را دور بزند و این موضوع نشان میدهد روشهای کنونی برای آموزش و ارزیابی مدلها، محدودیتهای جدی دارند.
البته به گزارش پژوهشگران، میزان موفقیت پرامپت های شاعرانه در جِیلبریک کردن هر یک از مدلهای زبانی بزرگ، متفاوت است؛ به عنوان مثال، مدل زبانی بزرگ «جیپیتی-۵ نانو» (GPT-5 nano) محصول اوپناِیآی هیچگاه به محتوای مضر یا ناایمن پاسخ نداد، در حالی که مدل «جِمینی ۲.۵ پرو» (Gemini 2.5 pro)، محصول گوگل، در هر پرامپت، به محتوای مضر یا ناایمن پاسخ داد.
پژوهشگران مطالعه به این نتیجه رسیدند که این یافتهها شکاف قابلتوجهی را در آزمونهای ایمنی معیار و تلاشهای مقرراتی، مثل «قانون هوش مصنوعی اتحادیه اروپا» (EU AI Act)، آشکار میکند.

نویسنده ای به نام «کریستینا سیلوا» (Christianna Silva) اذعان کرده که این مطالعه او را به یاد احساسی میاندازد که هنگام شنیدن ترانه «رفتن الکساندرا» (Alexandra Leaving) از «لئونارد کوهن» (Leonard Cohen) به سراغمان میآید؛ ترانهای که بر پایه شعر «خدا آنتونی را ترک میکند» (The God Abandons Antony) اثر «ک. پ. کاوافی» (C.P. Cavafy) ساخته شده است. ما میدانیم که این اثر درباره فقدان و دلشکستگی است، اما تلاش برای فهمیدن آن بهصورت تحتاللفظی، بیاحترامی به ترانه و شعر ساختهشده محسوب میشود و دقیقاً همین کاری است که مدلهای زبانی بزرگ انجام میدهند!
source
کلاس یوس