Навигация по статье

Задача: отделить коммерцию от мусора без потерь Как тестировали Результаты и важные наблюдения Наша классификация моделей Стоит ли автоматизация того Не идеализируем LLM Как все-таки выбрать Чек-лист для внедрения

Умный маркетинг

9 LLM на обработке 10 000 кластеров: кто справился, а кто потерял половину данных

Статья

3115

Мы испытали девять языковых моделей на задаче, с которой сталкивается каждый SEO-специалист в крупных проектах.

Семантику собирали для отечественной e-commerce площадки из топ-10. Отдали нейросетям 28 837 реальных поисковых запросов из категории «одежда и обувь». Целью было обработать хотя бы 10 000 кластеров.

В результате внедрили ИИ-решения для SEO-оптимизации, и работы заняли всего 2 месяца против прогнозируемых 2 лет. Благодаря этому скорость продвижения интернет-магазинов выросла в 10 раз.

Результаты сравнения получили любопытные: самая популярная модель упустила 32% данных, а более дорогие — не показали качественной разницы. Рассказываем подробнее.

Задача: отделить коммерцию от мусора без потерь

Клиент — многокатегорийная торговая площадка, которой необходимы сотни тысяч теговых под реальный поисковый спрос.

На первый взгляд всё просто: список запросов из Key.so нужно рассортировать на годные коммерческие запросы (под которые создаем страницы) и «мусор».

На деле, мусор не всегда легко отловить и классифицировать.

Дьявол в деталях: «манго» — это фрукт или бренд одежды Mango? А «спецодежда» — часть названия товара или запрос к товарной категории? А еще важен контекст, в котором упоминается сам товар. Например, запрос может содержать название товара, но по смыслу быть информационным. Этих и других тонкостей в нашем массиве запросов — тысячи.

Как тестировали

Каждую модель прогоняли через одинаковый промпт и сравнивали результат с эталонной разметкой, которую наш SEO-специалист обычно делал три месяца.

Вот какие параметры фиксировали:

время обработки 10 000 строк в минутах;
цену обработки всего массива в долларах;
процент мусора, который модель пропустила как коммерческие запросы;
процент коммерческих запросов, ошибочно отправленных в мусор;
долю данных, потерянных из-за сбоев API.

На основе этих параметров оценивали эффективность модели в целом.

Результаты и важные наблюдения

Наш рейтинг нейросетей для конкретной задачи выглядит так:

В процессе мы поняли два ключевых момента:

1. Недостаточно просто выбрать модель — критически важны настройки. Параметр temperature (уровень креативности) напрямую определяет, насколько строго модель следует техническому заданию.

DeepSeek изначально работала на 6 из 10: считывала упоминания многих брендов как навигационный мусор. После снижения «температуры» с дефолтных значений до 20% качество работы выросло, и наша оценка — тоже.

2. Промптинг решает. Даже лучшая модель работает плохо без правильной инструкции. У нас процесс доработки промпта был цикличным: получили результат от нейросети → сравнили с эталоном → классифицировали типы ошибок → доработали промпт → повторили цикл.

Например, изначальный промпт «привяжи теговую страницу к категории» трансформировался в такой: «если в запросе есть явный тип изделия (колье, браслет), выбери соответствующую товарную категорию из списка, игнорируя модификаторы: материал/вставку/пол/стиль/цвет/размер (жемчуг, гранат, мужские, женские и так далее)».

В результате структурные ошибки DeepSeek упали с 49% до 7%. А вот у GPT при тех же доработках доля ошибок не изменилась: модель хуже понимает сложные инструкции.

Наша классификация моделей

Годятся для работы

DeepSeek V3.1 — самая дотошная

Показывает лучший результат по чистке мусора среди всех протестированных моделей. И минимум ошибок при определении коммерческих запросов.

Где косячит: консервативно относится к брендам — отправила в мусор «авалон», «некст», «asos», «2mood одежда», хотя это валидные бренды из ассортимента. При этом «burberry» пропустила корректно. Странно обработала запрос «спецодежда» — определила как товар, хотя это скорее товарная категория.

Gemini 2.0 Flash — универсальный боец

Лучшее соотношение скорости, цены и качества. Работает в 5 раз быстрее DeepSeek и стоит столько же. Да, пропускает вдвое больше мусора (20% против 10%), но для многих задач это приемлемый компромисс.

Где косячит: пропустила «maag» (непонятная транслитерация) как коммерческий запрос, не распознала «интимиссими» как чужой бренд. Но с основными товарными категориями работает стабильно.

Gemini 2.5 Flash — для горящих дедлайнов

Максимальная скорость и минимальные потери данных. Но в обмен на более низкое качество проработки и цену в четыре раза выше Gemini 2.0 Flash.

Где косячит: оставляет много мусорных строк из исходного массива.

Неоправданно дорогие

Claude Sonnet 4

Стабильный API, который не теряет данные — это плюс. Но за $3,487 получаем качество чистки хуже, чем у Gemini 2.0 Flash за $0,263. Переплата не дает преимуществ по ключевым метрикам.

Gemini 2.5 Pro

Ситуация аналогичная: цена выше в 14 раз по сравнению с Gemini 2.0 Flash. При этом скорость вдвое ниже, а качество сопоставимое. Переплата экономически не оправдана.

Ненадежные

Китайские модели

Qwen3 235B A22B: цена заманчивая ($0,268 за 10 000 строк), но модель теряет 20% данных. Каждый пятый запрос просто исчезает из результата.

Kimi K2 0711: значительно лучше — теряет 7% данных за $0,382. Но это все равно означает, что из каждых 100 000 запросов вы не получите обратно 7 000.

Для массовой обработки семантики такой уровень недопустим. Финансовая экономия не компенсирует риск упустить важные данные.

Потеря потерь

GPT-4o

Это история о том, как привлекательные цифры на бумаге оборачиваются катастрофой на практике. Из 28 837 запросов модель вернула только 15 954 — около половины данных просто исчезло. При этом 32% обращений к API завершились сбоями.

Парадокс в том, что те запросы, которые GPT-4o успел обработать, он обработал качественно — меньше 1% ошибок классификации. Но это не имеет значения, когда утеряна половина массива.

Стоит ли автоматизация того

Кратко — да. Но есть нюансы.

Ниже сравнили стоимость ручной разметки семантического ядра и автоматизированной работы (чистка лучшей ИИ + проверка специалистом).

Экономия не только в деньгах — задача, которую специалист делает три месяца, с нейросетью решается за несколько дней. Получается ускорение в 10–15 раз.

А вот и нюанс: есть порог эффективности. Автоматизация окупается от 1 000 кластеров. Если задача мельче — настройка системы, промптов и проверка результата обойдутся дороже, чем просто сделать руками.

Не идеализируем LLM

Языковые модели хорошо решают задачи, которые можно формализовать:

массовая классификация запросов по заданным критериям,
генерация заголовков и описаний по шаблонам,
отсев очевидного мусора.

Но есть вещи, с которыми нейросети не справляются:

Понимание бизнес-контекста. Модель не знает, что для конкретной площадки важнее — бренд Burberry или категория «свитшоты с принтом». Она не понимает маржинальность товарных групп и приоритеты развития.

Учет сезонности. Запрос «купальники» в июне и декабре имеет разную коммерческую ценность, но модель этого не видит.

Настройка под специфику ниши. Каждый проект требует адаптации промпта под особенности ассортимента, конкурентов, целевой аудитории. Это задача специалиста.

Реалити-чек. Нейросеть может технически правильно классифицировать запрос, но при этом предложить решение, которое нерелевантно для бизнеса.

Оптимальная схема работы:

Нейросеть обрабатывает 90-95% массива по заданным правилам.
SEO-специалист проверяет и дорабатывает оставшиеся 5-10%, принимает стратегические решения, настраивает промпты под изменения в проекте.

Как все-таки выбрать

Вот упрощенная схема:

А эти варианты можно сразу отбросить:

❌ Популярный GPT-4o. Потеря почти половины данных делает модель непригодной для массовой обработки, несмотря на низкую заявленную стоимость.

❌ Китайские модели (Qwen3, Kimi). Низкие цены не компенсируют риск потерять каждый пятый–седьмой запрос из массива.

❌ Дорогие модели (Claude Sonnet 4, Gemini Pro). Переплата в 13–14 раз не даст ощутимого прироста по ключевым показателям.

Чек-лист для внедрения

Несколько советов из нашего опыта:

Установите temperature на 20%. Это поможет модели меньше фантазировать и точнее следовать инструкциям.
Циклично улучшайте промпт. Возьмите небольшую выборку (500–1000 запросов), разметьте вручную, прогоните через модель, сравните с эталоном и выявите паттерны ошибок, доработайте промпт, повторите.
Проверяйте 5–10% результата руками. Случайная выборка после автоматической обработки поможет отловить системные ошибки и странности в работе модели.
Мониторьте потери данных. Всегда сверяйте количество строк на входе и выходе. Если модель вернула меньше запросов, чем получила — это сигнал о проблеме.

И главное. До 1000 кластеров обрабатывайте руками. Автоматизация окупается на больших объемах. Небольшие задачи быстрее и дешевле решить без настройки промптов и внедрения систем.

Команды YAGLA и Kokoc Group ведут несколько телеграм-каналов, где публикуются мнения экспертов и авторские лонгриды о бизнесе и маркетинге, многие из которых не попадают на этот сайт. Обязательно подписывайтесь по ссылке: https://t.me/addlist/EhE5LANnrBphMjUy

Метки: Автоматизация, SEO-продвижение, Искусственный интеллект в маркетинге, E-commerce, Инструменты для e-commerce

Умный маркетингМы digital-агентство Умный маркетинг. 13 лет работаем с рекламой и продвигаем e-com, производство, B2B и другие сферы. Создали команду ML-десант и с ИИ-автоматизацией делаем за 3 месяца то, что другие делают за 3 года.

3115

Читайте ещё статьи по этой теме

Как мы в 3 раза увеличили трафик сайта интернет-магазина запчастей: кейс Ridestyle.ru Статья

Узкая ниша, сезонность, переезд на новый сайт, да еще и события февраля 2022 года — со всем этим нам пришлось столкнуться при продвижении сайта интернет-магазина запчастей для мототехники. .

Топ-10 распространенных ошибок в SEO-продвижении, которые делают почти все Статья

Не только новички ошибаются: бывает, и старожилы SEO допускают такие обидные ошибки, что даже странно! В Kokoc. com часто обращаются, когда ситуация уже запущена — но предупредить болезнь проще и быстрее, чем потом долго ее лечить.

Сложную дорогу осилит только идущий. Кейс успешного SEO-продвижения интернет-магазина B2B Статья

NDA-кейс. К нам обратился владелец интернет-магазина B2B промышленной тематики с достаточно прозрачной задачей: нужно было исправить ошибки предыдущих подрядчиков и добиться планируемых результатов.

Написать комментарий

Обсуждаемое

Карта пути пациента (CJM): как перестать переплачивать за рекламу в косметологии Статья

Сегодня стоимость каждого клика в рекламных кабинетах растет, а конкуренция за «горячего» пациента превращается в битву бюджетов. В этой гонке выигрывает не тот, кто тратит больше, а тот, кто начинает общение с аудиторией раньше остальных.3

Павел Дуров рассказал, сколько байтов переписки Telegram передал третьим лицам Статья

Также он назвал причину, по которой мессенджеру придётся закрыться. .1

В Общественной палате выступили за ограничения Telegram в случае игнорирования законодательства РФ Статья

В мессенджере продолжает распространяется противоправный контент, отметил член комиссии ОП по общественной экспертизе законопроектов и иных нормативных актов Евгений Машаров. .1

Свежее

«Досье на человека»: Роскомнадзор обвинил Telegram в поддержании инфраструктуры для «пробива» данных россиян Статья

Мессенджер удалил около 10 тысяч сервисов, однако ситуация принципиально не меняется, заявили в ведомстве. .

Минус-слова в Директе: разбор операторов с примерами Статья

Собираешь такой ключи, прорабатываешь, ищешь самую узкую на свете семантику, чтобы показываться только по целевым запросам. А Яндекс хихикает и говорит: вот тебе семантическое соответствие и неотключаемый автотаргетинг на поиске (на самом деле можно извернуться и отключить, но сейчас не об этом).

КЕЙС: ТАЙСКИЙ МАССАЖ Статья

К нам обратилась сеть салонов тайского массажа в Москве. 8 филиалов, сертифицированные мастера из Таиланда, полный спектр услуг.