به نظر می‌رسد مسیر توسعه سیستم‌های هوش مصنوعی در شرکت‌ها در حال تغییر است. مشکل بزرگ این سیستم‌ها که اغلب پاسخ‌های نادرست می‌دهند، نه از مدل‌های زبانی، بلکه از ابزارهای قدیمی استخراج متن (Parser) نشأت می‌گیرد. تحقیقات تازه از تیمی در دانشگاه‌های برکلی، پرینستون، EPFL و دیتابریکس نشان می‌دهد که این تبدیل صفحات وب به متن ساده، تا ۳۶.۶ درصد دلیل اصلی ناکامی‌هاست، زیرا ساختار بصری، جداول و تأکیدهای متنی را نابود می‌کند.

راه‌حل آنها به نام PixelRAG، ایده پارس کردن متن را به کلی کنار گذاشته و به جای آن، از صفحات وب «عکس‌برداری» (اسکرین‌شات) می‌گیرد. سپس این تصاویر را ایندکس کرده و مستقیماً به یک مدل زبانی-بصری (VLM) می‌دهد تا همانند انسان، هم محتوا و هم چیدمان و ظاهر صفحه را با هم بخواند و درک کند. نتایج آزمایش‌ها روی ۳۰ میلیون تکه عکس از ویکی‌پدیا شگفت‌انگیز است: این روش در شش معیار سنجش مختلف، تا ۱۸.۱ درصد دقت را نسبت به روش‌های متنی قدیمی افزایش داده و مهم‌تر از آن، هزینه مصرف توکن در اجرای عملیات هوش مصنوعی (Agent) را تا ۱۰ برابر کاهش می‌دهد.

تحلیل و بررسی:

PixelRAG یک تغییر پارادایم واقعی در معماری RAG محسوب می‌شود و ثابت می‌کند که قدرت مدل‌های چندوجهی جدید، می‌تواند سال‌ها پیچیدگی مهندسی در پردازش متن را دور بزند. در کوتاه‌مدت، منطقی‌ترین راه برای شرکت‌ها، پیاده‌سازی یک سیستم ترکیبی (هیبرید) است که PixelRAG را به عنوان یک لایه مکمل و تقویت‌کننده بر روی سیستم‌های متنی فعلی خود اضافه کنند. بزرگ‌ترین چالش پیش‌روی این فناوری، توسعه روش‌های هوشمندانه‌تر برای تقسیم‌بندی (Chunking) محتوای تصویری است، زیرا در حال حاضر صفحات به صورت ثابت و پیکسلی برش می‌خورند و ممکن است یک جدول یا پاراگراف در میانه برش قطع شود.

منبع: VentureBeat (مشاهده متن اصلی)