محققان دانشگاه استنفورد و انویدیا روش جدیدی به نام «آموزش در زمان آزمون سرتاسری» (TTT-E2E) ارائه کرده‌اند که به مدل‌های زبانی اجازه می‌دهد حتی پس از استقرار در محیط عملیاتی، به یادگیری ادامه دهند. این روش بدون افزایش هزینه‌های پردازشی (Inference Costs)، مشکل حافظه بلندمدت برای پردازش اسناد، تیکت‌ها و لاگ‌های طولانی را حل می‌کند. در واقع، به جای حفظ کردن صرف اطلاعات در فاز پیش‌آموزش، به مدل یاد می‌دهند که چگونه در حین پردازش جریان اطلاعات جدید، خود را به‌روز کند.

این معماری مبتکرانه، دقت مدل‌های ترنسفورمر با حافظه کامل (Full Attention) را با کارایی نزدیک به مدل‌های RNN ترکیب می‌کند. کلید این موفقیت، استفاده از یک حافظه دوگانه است: یک حافظه کاری کوتاه‌مدت مبتنی بر «توجه پنجره‌ای لغزان» برای پردازش لحظه‌ای و یک حافظه بلندمدت که با فشرده‌سازی اطلاعات و به‌روزرسانی گزینشی وزن‌های بخشی از مدل ایجاد می‌شود. نتیجه، مدلی است که با افزایش طول متن (تا ۱۲۸ هزار توکن) همچنان بهبود می‌یابد، در حالی که مدل‌های کارآمد دیگر پس از حدود ۳۲ هزار توکن به مرز کارایی خود می‌رسند.

در آزمایش‌ها، مدل ۳ میلیارد پارامتری TTT-E2E نه تنها عملکردی مشابه مدل با توجه کامل نشان داد، بلکه در سخت‌افزار H100 انویدیا، پردازش ۱۲۸ هزار توکن را ۲.۷ برابر سریع‌تر انجام داد. البته این روش در بازیابی اطلاعات دقیق و پراکنده (مثل یافتن یک رمز در متن طولانی) از مدل با توجه کامل ضعیف‌تر عمل می‌کند، چرا که بر فشرده‌سازی «جوهره» اطلاعات به جای ذخیره‌سازی بی‌نقص تمام جزئیات تکیه دارد.

تحلیل و بررسی: این تحقیق می‌تواند نقطه عطفی در معماری مدل‌های زبانی برای کاربردهای سازمانی با داده‌های حجیم باشد. به نظر می‌رسد پارادایم حافظه در هوش مصنوعی به سمت مدل‌های بسیار فشرده با قابلیت به‌روزرسانی پویا در حال حرکت است. اگر چالش‌های پیچیدگی آموزش این مدل‌ها حل شود، می‌توان شاهد کاهش چشمگیر وابستگی به سیستم‌های بازیابی (RAG) و ایجاد دستیارهای هوشمند با حافظه‌ای در مقیاس میلیاردها توکن بود.

منبع: VentureBeat (مشاهده متن اصلی)