تیم Qwen علیبابا روز سهشنبه از Qwen-AgentWorld رونمایی کرد؛ دو مدلی که بهجای اینکه در محیطهای عامل آموزش ببینند، به پیشبینی واکنشهای این محیطها پرداختهاند. این انتشار شامل هفت حوزه مختلف مانند MCP، جستجو، ترمینال و توسعه نرمافزار است و امکان بهبود عملکرد الگوریتمها را بهصورت یکپارچه فراهم میآورد.
مدل Qwen3.7-Max که در ماه مه منتشر شد، بهطور خاص بر اجرای خودکار ۳۵ ساعته متمرکز بود. این تغییر به رفع محدودیتهای آموزشی که تیمها در گسترهٔ وسیع با آن روبرو هستند، کمک میکند. نتایج نشان میدهد که آموزش در محیطهای کنترل شده، کارایی بهتری نسبت به آموزش در محیطهای واقعی دارد. بهعبارت دیگر، شبیهسازی دقت پیشبینیهای الگوریتمها را بهبود میبخشد و در برخی موارد عملکرد را تا ۳۳.۸ درصد افزایش میدهد.
مدلهای جدید علیبابا که بهصورت ترکیب از کارشناسان طراحی شدهاند، بر روی بیش از ۱۰ میلیون تعامل محیطی از حالات واقعی آموزش دیدهاند. این تکنیک شامل سه مرحله میشود: آموزش رفتار محیطها، پیشبینی وضعیت بعدی و تقویت یادگیری برای افزایش دقت پیشبینی.
تحلیل و بررسی:روند جدید در توسعه هوش مصنوعی و پیشرفتهای شگرف در اجرای شبیهسازی، میتواند به مهندسان و محققین در ساخت الگوریتمهای هوشمندتر کمک کند.
پیشبینی میشود که این مدلها پتانسیل بالقوهای برای بهبود آموزش و توسعه الگوریتمها در دیگر حوزهها داشته باشند.
علاوه بر این، نتایج اولیه باعث شده تا ضرورت توجه به شبیهسازیهای کنترلشده بیشتر احساس شود و به عنوان یک ابزار مکمل در آموزش الگوریتمها شناخته شود.
منبع: VentureBeat (مشاهده متن اصلی)
inoit.ir/post/296
کپی شد!