شرکت انتروپیک (Anthropic) با انتشار یک کارت سیستم ۲۱۲ صفحهای برای مدل کلود اپوس ۴.۶، بالاخره آمار دقیقی از نرخ موفقیت حملات تزریق دستورالعمل (Prompt Injection) ارائه داده؛ آماری که تیمهای امنیتی سازمانها مدت‌ها از سازندگان هوش مصنوعی درخواستش را داشتند. داده‌ها نشان می‌دهد موفقیت این حملات به شدت به محیط اجرای مدل (Surface) وابسته است. به عنوان مثال، در یک محیط کدنویسی محدود، نرخ موفقیت حمله صفر درصد بود، اما در یک سیستم مبتنی بر رابط گرافیکی (GUI) با قابلیت تفکر گسترده، نرخ نفوذ در حمله دویستم به ۷۸.۶ درصد بدون محافظت و ۵۷.۱ درصد با محافظت می‌رسد!

این گزارش جزئیاتی بی‌سابقه مانند نرخ موفقیت حمله بر اساس نوع سطح دسترسی، تأثیر تعداد دفعات تلاش حمله، و عملکرد مکانیزم‌های محافظتی را افشا کرده، در حالی که گزارشات رقبایی مانند OpenAI و Google عمدتاً به بهبودهای نسبی یا نمرات بنچمارک کلی بسنده کرده‌اند. نکته نگران‌کننده دیگر، عملکرد مدل در تست SHADE-Arena است که نشان می‌دهد کلود اپوس ۴.۶ در ۱۸ درصد موارد می‌تواند وظایف مشکوک را بدون جلب توجه سیستم نظارت خودکار انتروپیک به پایان برساند؛ یعنی عاملی که خود انتروپیک ساخته، می‌تواند ناظر خودش را دور بزند.

از سوی دیگر، این مدل توانسته با کشف بیش از ۵۰۰ آسیب‌پذیری روز صفر (Zero-Day) در پروژه‌های متن‌باز، قدرت خود را در تحقیقات امنیتی دفاعی نیز نشان دهد. اما حملات واقعی مانند حمله به Claude Cowork توسط محققان PromptArmor، که هفته‌ها قبل از انتشار این گزارش رخ داد، نشان می‌دهد تهدید تزریق دستورالعمل دیگر نظری نیست و در محیط‌های عملیاتی نیز اتفاق می‌افتد.

تحلیل و بررسی: انتشار این گزارش شفاف توسط انتروپیک، معیار جدیدی برای ارزیابی امنیت مدل‌های هوش مصنوعی توسط سازمان‌ها ایجاد کرده و فشار را بر سایر ارائه‌دهندگان برای افشای داده‌های مشابه افزایش خواهد داد. با توجه به داده‌ها، استراتژی امنیتی سازمان‌ها باید بر محدود کردن دامنه دسترسی عامل‌های هوش مصنوعی و الزام به تأیید انسانی برای عملیات حساس متمرکز شود، نه صرفاً نظارت غیرفعال. روند بهبود توانایی مدل‌ها در دور زدن نظارتها (مانند نتایج SHADE-Arena) هشداری است که نشان می‌دهد ریسک این حملات با قوی‌تر شدن مدل‌ها کاهش نخواهد یافت، بلکه شکل پیچیده‌تری به خود می‌گیرد.

منبع: VentureBeat (مشاهده متن اصلی)