Чтобы пользователи оставались довольны, разработчикам часто приходится искать компромисс между качеством и скоростью поисковой системы. Но что, если 50% выручки (GMV) приносят всего несколько сотен запросов — можно ли сделать так, чтобы они выполнялись максимально точно и быстро?
👨💻 Об этом на примере поиска в Яндекс Лавке расскажет Алексей Щекалёв, ML-разработчик, на митапе Яндекс Tech Tour в Казани.
💹 Немного спойлеров о его докладе «LLM Cache в поиске Яндекс Лавки»
Классический пайплайн поиска (кандидаты → фильтрация → ранжирование) хорошо работает, пока ассортимент стабилен. Но в Лавке каждую неделю появляются новые товары: от цветов до корма для животных. Модели просто не знают о новинках, и candidate generation начинает сбоить.
Решение — LLM Cache, но не в привычном смысле генерации текста, а как инструмент предрасчёта релевантных товаров под самые частые запросы.
❇ В чём суть
Мы заранее, в офлайн-режиме, просканировали декартово произведение «запрос × ассортимент» и для каждого подобрали оптимальное число кандидатов. А готовые списки разместили в шардированном кеше.
В рантайме поиск теперь в первую очередь обращается к этому каталогу, что не только снимает нагрузку, но и решает проблему нового ассортимента. Кроме того, мы получаем значительный выигрыш в скорости.
❇ Из доклада вы узнаете:
🟢 Как мы внедрили LLM Cache в наш пайплайн
🟢 Как построить шардированный кеш для миллионов пар «запрос × товар»
🟢 В чём отличие от типичной схемы ANN + rerank
❇ Что ещё будет на Яндекс Tech Tour
Мы покажем внутреннюю кухню инфраструктуры и продуктовой разработки в Яндекс Еде, Маркете и Лавке. Будем много вайбкодить, обсуждать реальные задачи на кейс-лабах и слушать хардовые доклады. А ещё поделимся опытом разработки и работы с фреймворками на C++, Java, Golang.
Yandex for Backend
😆 Что скрывается за быстрым поиском в Лавке
Чтобы пользователи оставались довольны, разработчикам часто приходится искать компромисс между качеством и скоростью поисковой системы. Но что, если 50% выручки (GMV) приносят всего несколько сотен запросов — можно ли сделать так, чтобы они выполнялись максимально точно и быстро?
👨💻 Об этом на примере поиска в Яндекс Лавке расскажет Алексей Щекалёв, ML-разработчик, на митапе Яндекс Tech Tour в Казани.
💹 Немного спойлеров о его докладе «LLM Cache в поиске Яндекс Лавки»
Классический пайплайн поиска (кандидаты → фильтрация → ранжирование) хорошо работает, пока ассортимент стабилен. Но в Лавке каждую неделю появляются новые товары: от цветов до корма для животных. Модели просто не знают о новинках, и candidate generation начинает сбоить.
Решение — LLM Cache, но не в привычном смысле генерации текста, а как инструмент предрасчёта релевантных товаров под самые частые запросы.
❇ В чём суть
Мы заранее, в офлайн-режиме, просканировали декартово произведение «запрос × ассортимент» и для каждого подобрали оптимальное число кандидатов. А готовые списки разместили в шардированном кеше.
В рантайме поиск теперь в первую очередь обращается к этому каталогу, что не только снимает нагрузку, но и решает проблему нового ассортимента. Кроме того, мы получаем значительный выигрыш в скорости.
❇ Из доклада вы узнаете:
🟢 Как мы внедрили LLM Cache в наш пайплайн
🟢 Как построить шардированный кеш для миллионов пар «запрос × товар»
🟢 В чём отличие от типичной схемы ANN + rerank
❇ Что ещё будет на Яндекс Tech Tour
Мы покажем внутреннюю кухню инфраструктуры и продуктовой разработки в Яндекс Еде, Маркете и Лавке. Будем много вайбкодить, обсуждать реальные задачи на кейс-лабах и слушать хардовые доклады. А ещё поделимся опытом разработки и работы с фреймворками на C++, Java, Golang.
📆 Когда и где: 15 ноября в Казани
🔶 Регистрируйтесь на Яндекс Tech Tour: dev.go.yandex/events/foodtech-tour?utm_source=tg&u…
🈯 Ждём вас!
Подписывайтесь на нас в Telegram: t.me/+aN8Rc-4YJtVlZWZi
1 week ago | [YT] | 3