تیم Qwen علی‌بابا روز سه‌شنبه از Qwen-AgentWorld رونمایی کرد؛ دو مدلی که به‌جای اینکه در محیط‌های عامل آموزش ببینند، به پیش‌بینی واکنش‌های این محیط‌ها پرداخته‌اند. این انتشار شامل هفت حوزه مختلف مانند MCP، جستجو، ترمینال و توسعه نرم‌افزار است و امکان بهبود عملکرد الگوریتم‌ها را به‌صورت یکپارچه فراهم می‌آورد.

مدل Qwen3.7-Max که در ماه مه منتشر شد، به‌طور خاص بر اجرای خودکار ۳۵ ساعته متمرکز بود. این تغییر به رفع محدودیت‌های آموزشی که تیم‌ها در گسترهٔ وسیع با آن روبرو هستند، کمک می‌کند. نتایج نشان می‌دهد که آموزش در محیط‌های کنترل شده، کارایی بهتری نسبت به آموزش در محیط‌های واقعی دارد. به‌عبارت دیگر، شبیه‌سازی دقت پیش‌بینی‌های الگوریتم‌ها را بهبود می‌بخشد و در برخی موارد عملکرد را تا ۳۳.۸ درصد افزایش می‌دهد.

مدل‌های جدید علی‌بابا که به‌صورت ترکیب از کارشناسان طراحی شده‌اند، بر روی بیش از ۱۰ میلیون تعامل محیطی از حالات واقعی آموزش دیده‌اند. این تکنیک شامل سه مرحله می‌شود: آموزش رفتار محیط‌ها، پیش‌بینی وضعیت بعدی و تقویت یادگیری برای افزایش دقت پیش‌بینی.

تحلیل و بررسی:

روند جدید در توسعه هوش مصنوعی و پیشرفت‌های شگرف در اجرای شبیه‌سازی، می‌تواند به مهندسان و محققین در ساخت الگوریتم‌های هوشمندتر کمک کند.

پیش‌بینی می‌شود که این مدل‌ها پتانسیل بالقوه‌ای برای بهبود آموزش و توسعه الگوریتم‌ها در دیگر حوزه‌ها داشته باشند.

علاوه بر این، نتایج اولیه باعث شده تا ضرورت توجه به شبیه‌سازی‌های کنترل‌شده بیشتر احساس شود و به عنوان یک ابزار مکمل در آموزش الگوریتم‌ها شناخته شود.

منبع: VentureBeat (مشاهده متن اصلی)