پینترست با ۶۲۰ میلیون کاربر ماهانه، برای هر توصیه تصویری از مدلهای فرانتییر استفاده نمیکند—چون این کار بیشتر شبیه قبض سنگین است تا استراتژی. مت مادریگال، CTO پینترست، راه چاره را در جراحی لایه دید (vision layer) مدل Qwen3-VL پیدا کرد: او این لایه را حذف و با embeddings اختصاصی خودش جایگزین کرد. نتیجه؟ کاهش ۹۰٪ هزینهها و افزایش ۳۰٪ دقت. تیم مادریگال سرمایهگذاری سنگینی روی سفارشیسازی عمیق مدلهای متنباز کرده و معتقد است کیفیت داده از اندازه مدل مهمتر است.
پینترست برای جستجوی تصویری و کشف بصری، از مدلهای متنباز مثل BERT گوگل و CLIP اوپنایآی استفاده میکرد. اما حالا با Qwen3-VL، کار را یک قدم جلو برده: تیم مادریگال لایه vision encoder را کاملاً بیرون کشیده و مدل را با embeddings مالتیمودال اختصاصی خودش فاینتیون کرده. این باعث میشود metadata مربوط به پینها و تصاویر به صورت آفلاین پیشپردازش و مرتباً بروزرسانی شود تا تجربه شخصیسازیشده به کاربران ارائه دهد. بدون این embeddings، هر بار باید تکتک تصاویر در لحظه کدگذاری میشد که latency را ۲۰ برابر بدتر میکرد.
علاوه بر این، پینترست یک "گراف سلیقه" (taste graph) ساخته که سلیقههای در حال تغییر کاربران را به صورت پویا نمایش میدهد—نه اینکه فقط کلیکهایشان را ثبت کند. این ساختار ترکیبی از گراف و یادگیری بازنمایی (representational learning) است که به کاربر کمک میکند از مرحله الهامگیری تا خرید نهایی پیش برود. مادریگال میگوید: "این یک گراف اجتماعی نیست، بلکه گراف ترجیحات است: چه چیزی الهامبخش توست؟下一步 چه میخواهی بکنی؟"
تحلیل و بررسی: این رویکرد نشان میدهد که سفارشیسازی عمیق مدلهای متنباز میتواند هزینهها را به شدت کاهش دهد و در عین حال دقت را بالا ببرد—رقیبی جدی برای مدلهای بسته. اگر پینترست بتواند این روش را به پلتفرمهای دیگر هم تعمیم دهد، احتمالاً شاهد موجی از جراحیهای مشابه روی مدلهای فرانتییر در صنعت خواهیم بود. نکته جالب اینجاست که دادههای اختصاصی و metadata غنیتر، گاهی از بزرگترین مدلها هم کارآمدتر عمل میکنند.
منبع: VentureBeat (مشاهده متن اصلی)
n8n.ir/iit122x
کپی شد!