جنگ تسلیحاتی برای ساخت مدلهای هوش مصنوعی هوشمندتر، با یک مشکل اندازهگیری روبرو است: تستهای مورد استفاده برای رتبهبندی آنها به سرعت به روز نمیشوند. در روز یکشنبه، سازمان مستقل اندازهگیری هوش مصنوعی، Artificial Analysis، تغییرات عمدهای را در شاخص هوش خود معرفی کرد که به طور اساسی نحوه اندازهگیری پیشرفت هوش مصنوعی در صنعت را تغییر میدهد.
شاخص هوش جدید v4.0، 10 آزمون شامل Agents، Coding، Scientific Reasoning و General Knowledge را شامل میشود. اما تغییرات به این حد محدود نیست. سه آزمون استاندارد – MMLU-Pro، AIME 2025 و LiveCodeBench – که تا کنون در مواد تبلیغاتی شرکتهای هوش مصنوعی به کار میرفتهاند، حذف شدهاند. در جای آنها، آزمونهایی معرفی شدهاند که میتوانند اندازهگیری توانایی سیستمهای هوش مصنوعی در انجام کارهایی را که افراد واقعی برای آنها پرداخت میشوند، انجام دهند.
این تغییر شاخص، یک انتقال گستردهتر را نشان میدهد: هوش کمتر با حافظه و بیشتر با اقدامات اقتصادی مفید اندازهگیری میشود. به گفته آراوند سوندار، یک پژوهشگر که به این اعلامیه پاسخ داد، «این تغییر شاخص، یک انتقال گستردهتر را نشان میدهد: هوش کمتر با حافظه و بیشتر با اقدامات اقتصادی مفید اندازهگیری میشود».
تحلیل و بررسی: با این تغییرات، شرکتهای بزرگ فناوری مانند OpenAI، Google و Anthropic باید به طور مداوم خود را به روز کنند تا در رقابت با هم باقی بمانند. این تغییرات نشان میدهد که در آینده نزدیک، تواناییهای واقعی و کاربردی هوش مصنوعی در کارهای روزمره و اقتصادی، مهمتر از تواناییهای نظری و آزمایشی آنها خواهد بود. پیشبینی میشود که این تغییرات، به سرعت در صنعت هوش مصنوعی پذیرفته شود و به عنوان یک استاندارد جدید برای اندازهگیری تواناییهای هوش مصنوعی شناخته شود.
منبع: VentureBeat (مشاهده متن اصلی)
n8n.ir/iit78
کپی شد!