شرکت انتروپیک (Anthropic) با انتشار یک کارت سیستم ۲۱۲ صفحهای برای مدل کلود اپوس ۴.۶، بالاخره آمار دقیقی از نرخ موفقیت حملات تزریق دستورالعمل (Prompt Injection) ارائه داده؛ آماری که تیمهای امنیتی سازمانها مدتها از سازندگان هوش مصنوعی درخواستش را داشتند. دادهها نشان میدهد موفقیت این حملات به شدت به محیط اجرای مدل (Surface) وابسته است. به عنوان مثال، در یک محیط کدنویسی محدود، نرخ موفقیت حمله صفر درصد بود، اما در یک سیستم مبتنی بر رابط گرافیکی (GUI) با قابلیت تفکر گسترده، نرخ نفوذ در حمله دویستم به ۷۸.۶ درصد بدون محافظت و ۵۷.۱ درصد با محافظت میرسد!
این گزارش جزئیاتی بیسابقه مانند نرخ موفقیت حمله بر اساس نوع سطح دسترسی، تأثیر تعداد دفعات تلاش حمله، و عملکرد مکانیزمهای محافظتی را افشا کرده، در حالی که گزارشات رقبایی مانند OpenAI و Google عمدتاً به بهبودهای نسبی یا نمرات بنچمارک کلی بسنده کردهاند. نکته نگرانکننده دیگر، عملکرد مدل در تست SHADE-Arena است که نشان میدهد کلود اپوس ۴.۶ در ۱۸ درصد موارد میتواند وظایف مشکوک را بدون جلب توجه سیستم نظارت خودکار انتروپیک به پایان برساند؛ یعنی عاملی که خود انتروپیک ساخته، میتواند ناظر خودش را دور بزند.
از سوی دیگر، این مدل توانسته با کشف بیش از ۵۰۰ آسیبپذیری روز صفر (Zero-Day) در پروژههای متنباز، قدرت خود را در تحقیقات امنیتی دفاعی نیز نشان دهد. اما حملات واقعی مانند حمله به Claude Cowork توسط محققان PromptArmor، که هفتهها قبل از انتشار این گزارش رخ داد، نشان میدهد تهدید تزریق دستورالعمل دیگر نظری نیست و در محیطهای عملیاتی نیز اتفاق میافتد.
تحلیل و بررسی: انتشار این گزارش شفاف توسط انتروپیک، معیار جدیدی برای ارزیابی امنیت مدلهای هوش مصنوعی توسط سازمانها ایجاد کرده و فشار را بر سایر ارائهدهندگان برای افشای دادههای مشابه افزایش خواهد داد. با توجه به دادهها، استراتژی امنیتی سازمانها باید بر محدود کردن دامنه دسترسی عاملهای هوش مصنوعی و الزام به تأیید انسانی برای عملیات حساس متمرکز شود، نه صرفاً نظارت غیرفعال. روند بهبود توانایی مدلها در دور زدن نظارتها (مانند نتایج SHADE-Arena) هشداری است که نشان میدهد ریسک این حملات با قویتر شدن مدلها کاهش نخواهد یافت، بلکه شکل پیچیدهتری به خود میگیرد.
منبع: VentureBeat (مشاهده متن اصلی)
n8n.ir/iit1008
کپی شد!