محققان دانشگاه استنفورد و انویدیا روش جدیدی به نام «آموزش در زمان آزمون سرتاسری» (TTT-E2E) ارائه کردهاند که به مدلهای زبانی اجازه میدهد حتی پس از استقرار در محیط عملیاتی، به یادگیری ادامه دهند. این روش بدون افزایش هزینههای پردازشی (Inference Costs)، مشکل حافظه بلندمدت برای پردازش اسناد، تیکتها و لاگهای طولانی را حل میکند. در واقع، به جای حفظ کردن صرف اطلاعات در فاز پیشآموزش، به مدل یاد میدهند که چگونه در حین پردازش جریان اطلاعات جدید، خود را بهروز کند.
این معماری مبتکرانه، دقت مدلهای ترنسفورمر با حافظه کامل (Full Attention) را با کارایی نزدیک به مدلهای RNN ترکیب میکند. کلید این موفقیت، استفاده از یک حافظه دوگانه است: یک حافظه کاری کوتاهمدت مبتنی بر «توجه پنجرهای لغزان» برای پردازش لحظهای و یک حافظه بلندمدت که با فشردهسازی اطلاعات و بهروزرسانی گزینشی وزنهای بخشی از مدل ایجاد میشود. نتیجه، مدلی است که با افزایش طول متن (تا ۱۲۸ هزار توکن) همچنان بهبود مییابد، در حالی که مدلهای کارآمد دیگر پس از حدود ۳۲ هزار توکن به مرز کارایی خود میرسند.
در آزمایشها، مدل ۳ میلیارد پارامتری TTT-E2E نه تنها عملکردی مشابه مدل با توجه کامل نشان داد، بلکه در سختافزار H100 انویدیا، پردازش ۱۲۸ هزار توکن را ۲.۷ برابر سریعتر انجام داد. البته این روش در بازیابی اطلاعات دقیق و پراکنده (مثل یافتن یک رمز در متن طولانی) از مدل با توجه کامل ضعیفتر عمل میکند، چرا که بر فشردهسازی «جوهره» اطلاعات به جای ذخیرهسازی بینقص تمام جزئیات تکیه دارد.
تحلیل و بررسی: این تحقیق میتواند نقطه عطفی در معماری مدلهای زبانی برای کاربردهای سازمانی با دادههای حجیم باشد. به نظر میرسد پارادایم حافظه در هوش مصنوعی به سمت مدلهای بسیار فشرده با قابلیت بهروزرسانی پویا در حال حرکت است. اگر چالشهای پیچیدگی آموزش این مدلها حل شود، میتوان شاهد کاهش چشمگیر وابستگی به سیستمهای بازیابی (RAG) و ایجاد دستیارهای هوشمند با حافظهای در مقیاس میلیاردها توکن بود.
منبع: VentureBeat (مشاهده متن اصلی)
n8n.ir/iit8b
کپی شد!