به نظر میرسد مسیر توسعه سیستمهای هوش مصنوعی در شرکتها در حال تغییر است. مشکل بزرگ این سیستمها که اغلب پاسخهای نادرست میدهند، نه از مدلهای زبانی، بلکه از ابزارهای قدیمی استخراج متن (Parser) نشأت میگیرد. تحقیقات تازه از تیمی در دانشگاههای برکلی، پرینستون، EPFL و دیتابریکس نشان میدهد که این تبدیل صفحات وب به متن ساده، تا ۳۶.۶ درصد دلیل اصلی ناکامیهاست، زیرا ساختار بصری، جداول و تأکیدهای متنی را نابود میکند.
راهحل آنها به نام PixelRAG، ایده پارس کردن متن را به کلی کنار گذاشته و به جای آن، از صفحات وب «عکسبرداری» (اسکرینشات) میگیرد. سپس این تصاویر را ایندکس کرده و مستقیماً به یک مدل زبانی-بصری (VLM) میدهد تا همانند انسان، هم محتوا و هم چیدمان و ظاهر صفحه را با هم بخواند و درک کند. نتایج آزمایشها روی ۳۰ میلیون تکه عکس از ویکیپدیا شگفتانگیز است: این روش در شش معیار سنجش مختلف، تا ۱۸.۱ درصد دقت را نسبت به روشهای متنی قدیمی افزایش داده و مهمتر از آن، هزینه مصرف توکن در اجرای عملیات هوش مصنوعی (Agent) را تا ۱۰ برابر کاهش میدهد.
تحلیل و بررسی:
PixelRAG یک تغییر پارادایم واقعی در معماری RAG محسوب میشود و ثابت میکند که قدرت مدلهای چندوجهی جدید، میتواند سالها پیچیدگی مهندسی در پردازش متن را دور بزند. در کوتاهمدت، منطقیترین راه برای شرکتها، پیادهسازی یک سیستم ترکیبی (هیبرید) است که PixelRAG را به عنوان یک لایه مکمل و تقویتکننده بر روی سیستمهای متنی فعلی خود اضافه کنند. بزرگترین چالش پیشروی این فناوری، توسعه روشهای هوشمندانهتر برای تقسیمبندی (Chunking) محتوای تصویری است، زیرا در حال حاضر صفحات به صورت ثابت و پیکسلی برش میخورند و ممکن است یک جدول یا پاراگراف در میانه برش قطع شود.
منبع: VentureBeat (مشاهده متن اصلی)
n8n.ir/iit145b
کپی شد!