پینترست با ۶۲۰ میلیون کاربر ماهانه، برای هر توصیه تصویری از مدل‌های فرانت‌ییر استفاده نمی‌کند—چون این کار بیشتر شبیه قبض سنگین است تا استراتژی. مت مادریگال، CTO پینترست، راه چاره را در جراحی لایه دید (vision layer) مدل Qwen3-VL پیدا کرد: او این لایه را حذف و با embeddings اختصاصی خودش جایگزین کرد. نتیجه؟ کاهش ۹۰٪ هزینه‌ها و افزایش ۳۰٪ دقت. تیم مادریگال سرمایه‌گذاری سنگینی روی سفارشی‌سازی عمیق مدل‌های متن‌باز کرده و معتقد است کیفیت داده از اندازه مدل مهم‌تر است.

پینترست برای جستجوی تصویری و کشف بصری، از مدل‌های متن‌باز مثل BERT گوگل و CLIP اوپن‌ای‌آی استفاده می‌کرد. اما حالا با Qwen3-VL، کار را یک قدم جلو برده: تیم مادریگال لایه vision encoder را کاملاً بیرون کشیده و مدل را با embeddings مالتی‌مودال اختصاصی خودش فاین‌تیون کرده. این باعث می‌شود metadata مربوط به پین‌ها و تصاویر به صورت آفلاین پیش‌پردازش و مرتباً بروزرسانی شود تا تجربه شخصی‌سازی‌شده به کاربران ارائه دهد. بدون این embeddings، هر بار باید تک‌تک تصاویر در لحظه کدگذاری می‌شد که latency را ۲۰ برابر بدتر می‌کرد.

علاوه بر این، پینترست یک "گراف سلیقه" (taste graph) ساخته که سلیقه‌های در حال تغییر کاربران را به صورت پویا نمایش می‌دهد—نه اینکه فقط کلیک‌هایشان را ثبت کند. این ساختار ترکیبی از گراف و یادگیری بازنمایی (representational learning) است که به کاربر کمک می‌کند از مرحله الهام‌گیری تا خرید نهایی پیش برود. مادریگال می‌گوید: "این یک گراف اجتماعی نیست، بلکه گراف ترجیحات است: چه چیزی الهام‌بخش توست؟下一步 چه می‌خواهی بکنی؟"

تحلیل و بررسی: این رویکرد نشان می‌دهد که سفارشی‌سازی عمیق مدل‌های متن‌باز می‌تواند هزینه‌ها را به شدت کاهش دهد و در عین حال دقت را بالا ببرد—رقیبی جدی برای مدل‌های بسته. اگر پینترست بتواند این روش را به پلتفرم‌های دیگر هم تعمیم دهد، احتمالاً شاهد موجی از جراحی‌های مشابه روی مدل‌های فرانت‌ییر در صنعت خواهیم بود. نکته جالب اینجاست که داده‌های اختصاصی و metadata غنی‌تر، گاهی از بزرگ‌ترین مدل‌ها هم کارآمدتر عمل می‌کنند.

منبع: VentureBeat (مشاهده متن اصلی)