به نظر می‌رسد محدودیت‌های معماری RAG در مواجهه با عامل‌های هوش مصنوعی (AI Agent) پیچیده و بلندمدت بیش از پیش خودنمایی می‌کند. حالا یک استارتاپ به نام مسترا (Mastra) با ارائه معماری جدیدی به نام «حافظه مشاهدهای» (Observational Memory) راه‌حلی جذاب ارائه کرده که نه تنها هزینه‌ها را تا ۱۰ برابر کاهش می‌دهد، بلکه در معیارهای ارزیابی حافظه بلندمدت، عملکرد بهتری نسبت به RAG نشان داده است.

کلید این معماری، حذف فرآیند بازیابی پویا (Retrieval) و جایگزینی آن با فشرده‌سازی هوشمند تاریخچه مکالمه است. دو عامل نرم‌افزاری به نام‌های «ناظر» (Observer) و «بازتاب‌دهنده» (Reflector) به طور مداوم گفتگوها را به یک گزارش تاریخچه‌دار فشرده تبدیل می‌کنند. این گزارش ثابت در پنجره متن (Context Window) باقی می‌ماند و نیاز به جستجو در پایگاه داده برداری (Vector DB) را از بین می‌برد. این ثبات، امکان کش کردن (Caching) دستورات (Prompts) را فراهم کرده و هزینه توکن را به شدت کاهش می‌دهد.

این سیستم در تست LongMemEval با مدل GPT-5-mini امتیاز ۹۴.۸۷ درصد و با GPT-4o امتیاز ۸۴.۲۳ درصد کسب کرد که از عملکرد نسخه RAG خود مسترا (۸۰.۰۵ درصد) بالاتر است. البته این معماری برای کشف دانش باز یا مواردی که نیاز به بازیابی دقیق اسناد دارند (مانند رعایت مقررات) مناسب نیست و بیشتر بر ثبت تصمیمات و اقدامات گذشته عامل متمرکز است.

تحلیل و بررسی: ظهور معماری‌هایی مانند حافظه مشاهدهای نشان‌دهنده بلوغ فناوری عامل‌های هوش مصنوعی و حرکت آن‌ها از مرحله آزمایشی به سمت سیستم‌های تولیدی پایدار است. به نظر می‌رسد در آینده نزدیک، شاهد تنوع بیشتری در معماری‌های حافظه خواهیم بود که هر کدام برای یک دسته از کاربردها (از چت‌بات‌های تعاملی بلندمدت تا سیستم‌های پردازش اسناد) بهینه شده‌اند. موفقیت این رویکرد ساده‌تر و کم‌هزینه‌تر، می‌تواند محرکی برای بازنگری در پیچیدگی ذاتی برخی از پیاده‌سازی‌های متداول RAG باشد.

منبع: VentureBeat (مشاهده متن اصلی)