جنگ تسلیحاتی برای ساخت مدل‌های هوش مصنوعی هوشمندتر، با یک مشکل اندازه‌گیری روبرو است: تست‌های مورد استفاده برای رتبه‌بندی آنها به سرعت به روز نمی‌شوند. در روز یکشنبه، سازمان مستقل اندازه‌گیری هوش مصنوعی، Artificial Analysis، تغییرات عمده‌ای را در شاخص هوش خود معرفی کرد که به طور اساسی نحوه اندازه‌گیری پیشرفت هوش مصنوعی در صنعت را تغییر می‌دهد.

شاخص هوش جدید v4.0، 10 آزمون شامل Agents، Coding، Scientific Reasoning و General Knowledge را شامل می‌شود. اما تغییرات به این حد محدود نیست. سه آزمون استاندارد – MMLU-Pro، AIME 2025 و LiveCodeBench – که تا کنون در مواد تبلیغاتی شرکت‌های هوش مصنوعی به کار می‌رفته‌اند، حذف شده‌اند. در جای آنها، آزمون‌هایی معرفی شده‌اند که می‌توانند اندازه‌گیری توانایی سیستم‌های هوش مصنوعی در انجام کارهایی را که افراد واقعی برای آن‌ها پرداخت می‌شوند، انجام دهند.

این تغییر شاخص، یک انتقال گسترده‌تر را نشان می‌دهد: هوش کمتر با حافظه و بیشتر با اقدامات اقتصادی مفید اندازه‌گیری می‌شود. به گفته آراوند سوندار، یک پژوهشگر که به این اعلامیه پاسخ داد، «این تغییر شاخص، یک انتقال گسترده‌تر را نشان می‌دهد: هوش کمتر با حافظه و بیشتر با اقدامات اقتصادی مفید اندازه‌گیری می‌شود».

تحلیل و بررسی: با این تغییرات، شرکت‌های بزرگ فناوری مانند OpenAI، Google و Anthropic باید به طور مداوم خود را به روز کنند تا در رقابت با هم باقی بمانند. این تغییرات نشان می‌دهد که در آینده نزدیک، توانایی‌های واقعی و کاربردی هوش مصنوعی در کارهای روزمره و اقتصادی، مهم‌تر از توانایی‌های نظری و آزمایشی آن‌ها خواهد بود. پیش‌بینی می‌شود که این تغییرات، به سرعت در صنعت هوش مصنوعی پذیرفته شود و به عنوان یک استاندارد جدید برای اندازه‌گیری توانایی‌های هوش مصنوعی شناخته شود.

منبع: VentureBeat (مشاهده متن اصلی)