Навигация по статье

Что такое Big Data Data Mining или как собираются и обрабатываются большие данные Как работает технология Big Data и что такое Data Science Big Data в e-commerce: кейс Нетологии «Очеловечивание» данных: кейс Яндекс.Такси Будущее Big Data

Редакция Yagla

Big Data: сущность, применение, кейсы

Статья

53065

Любое действие пользователя в интернете — давно не тайна за семью печатями. Вы можете отслеживать буквально всё — от онлайн-покупок до лайков — благодаря концепции Big Data. Результат — вы узнаёте больше о целевой аудитории и делаете персонализированные предложения. Точнее, всё делает за вас машина: и проанализирует, и даже оптимальное решение примет.

Скажете, это фантастика? Конечно, механизм пока не так распространен, особенно в России, и не полностью отлажен, но первые шаги на пути к этому точно сделаны.

Если речь идет о больших данных, важно не то, сколько вы их собрали, а то, как вы их используете. Вообще Big Data — это универсальная методика. В этой статье мы рассмотрим её применение в маркетинге и продажах.

Что такое Big Data

Крупные транспортные компании, интернет-магазины, телеком-провайдеры, SaaS-сервисы, банки — одним словом, компании с большой клиентской базой собирают огромный объем информации.

Это не только персональные данные (имя, email, телефон, пол, возраст, география), а также IP-адрес, время посещения сайта, количество визитов, запросы на сайте, история покупок и т.д. У каждой фирмы — своя специфика и свои уникальные данные, которые доступны только ей.

Например, сервис такси «знает» каждый шаг и секунду, которую пользователь провел в поездке. Банковский онлайн-сервис — за что, когда и какой суммой расплачивался. Интернет-магазин — какие товары смотрел, положил в корзину или добавил в избранное и т.д.

То есть это не только те данные, которые накапливает каждый бизнес в CRM-системе. Это всё, что компании может быть известно о клиентах, и это может измеряться терабайтами информации в отдельных случаях. Обычные базы не могут обрабатывать такие объемы. Хотя бы потому, что данные регулярно меняются и прибывают — вертикально (+ новый клиент) и горизонтально (+ дополнительная информация о клиенте).

Кроме того, они разноплановые и неструктурированные, так как представлены в абсолютно разных источниках, например:

Блоги и соцсети;
Аудио- и видеофайлы;
Корпоративные базы данных;
Датчики, измерительные устройства и сенсорные сети.

Это и есть Big Data. Нечто более абстрактное, чем физические документы, поэтому и управлять ими человеку не под силу. На помощь приходят машинные алгоритмы.

Data Mining или как собираются и обрабатываются большие данные

Откуда берутся большие данные?

Во-первых, это ваш сайт и все точки захвата контактных данных.

Во-вторых, счетчики и системы аналитики (Яндекс.Метрика).

В-третьих, соцсети, форумы, блоги, мобильные приложения.

Как обрабатываются большие данные? Вот основные решения рынка Big Data:

- Системы управления базами данных (Sap, Oracle, Microsoft, IBM и другие), которые хранят и обрабатывают информацию, анализируют динамику показателей и предоставляют результаты в статистических отчетах;

- Алгоритмы, которые анализируют Big Data и извлекают из них полезные данные (интересы, намерения, предпочтения потребителей). Они выстраивают прогнозные аналитические модели для подготовки маркетинговых кампаний и выявляют наиболее релевантные методы рекламы (например, Yandex Data Factory, CleverDATA);

- Готовые сервисы, которые позволяют персонализировать рекламные кампании. К ним относятся:

Сервисы управления закупками RTB-рекламы, которые предсказывают действия целевых пользователей и таргетируют рекламу в онлайн-каналах (например, Segmento, RTB-Media);
Сервисы товарных рекомендаций, которые показывают на сайте товары, максимально интересные для конкретного пользователя (RetailRocket, 1С-Битрикс BigData);
Сервисы персонализации контента, которые показывают пользователям наиболее подходящие версии страниц ресурса (Personyze, Monoloop, Crosss);
Сервисы персонализации рассылок, которые отправляют таргетированные письма (например, Vero, Personyze);

Эти системы активно сотрудничают между собой, совершенствуются и обновляют функционал.

Как работает технология Big Data и что такое Data Science

Практическая суть такого подхода — в минимизации вовлеченности человека в процесс принятия решения. На этом основана концепция Data Science (дословно — «наука о данных»).

Согласно этой концепции, большими данными управляет статистическая модель. Она находит скрытые взаимосвязи в данных и максимально точно (благодаря объективности и широкой выборке данных) предсказывает поведение конкретного пользователя — купит ли он продукт, подпишется ли на рассылку, заинтересуется ли статьей.

При этом происходит непрерывный процесс самообучения. То есть машина сама учится (принцип Machine Learning) в реальном времени и создает алгоритмы для оптимизации бизнес-процессов.

Она самостоятельно определяет и подсказывает:

Что, где и когда предложить пользователю для максимальной вероятности конверсии;
Как увеличить кросс-продажи и дополнительные продажи;
Какие товары самые популярные и почему;
Как улучшить продукт / сервис под потребности ЦА.

В ритейле машины могут принимать следующие решения:

Где открыть следующий магазин;
Какие маркетинговые акции проводить;
Как прогнозировать продажи в будущем периоде;
Как выделить «ядро» аудитории;
Насколько повысить / снизить цены в следующем месяце;
Как оптимизировать маркетинговый бюджет;
Как определить клиентов, которые уйдут в будущем месяце.

В маркетинге это позволяет сегментировать целевую аудиторию, разрабатывать креативы и персональные предложения для каждого сегмента. К сожалению, на данный момент этот процесс автоматизирован лишь частично.

Вот вам пример.

Компания Target решила нестандартную задачу — таргетироваться на беременных женщин до того, как они будут вводить тематические запросы, поделятся новостью в соцсетях или другими способами расскажут об этом в интернете.

Как это удалось? Помогли знания о покупательских привычках. А именно Target обнаружил в ходе исследования, что будущие мамы покупают много лосьона без запаха, хлопчатобумажных салфеток и махровых мочалок.

Это знание дает шанс, что ваше объявление первое попадется такой женщине на глаза — а это большое преимущество перед другими рекламодателями. Возможно, это она купит детские товары у вас и в будущем станет лояльной клиенткой именно вашей компании.

Другой пример.

Российский сервис электронных книг Bookmate мало знал о реальных интересах своих пользователей. Они заходили в приложение, но предлагаемые книги их не интересовали. Ситуация улучшилась благодаря использованию информации из соцсетей. Просмотры рекомендаций выросли в 2,17 раза, а конверсия в платящих пользователей — в 1,4 раза.

Авиакомпания British Airways вывела персонализацию на абсолютно новый уровень. В рамках программы Know Me она распознает лица клиентов с помощью сервиса Google Images. Персонал узнает пассажиров в терминалах аэропортов или на борту самолета и лично приветствует их по имени.

Помимо этого, персональные данные пассажиров о предыдущих рейсах позволяют авиакомпании принести личные извинения тем, чем рейс в прошлом был задержан или чей багаж потерялся.

Эта и другая информация о базе (например, предпочтения в еде) есть в доступе у бортпроводников British Airways на специальных рабочих планшетах.

Big Data в e-commerce: кейс Нетологии

Цель — оптимизировать маркетинговые коммуникации для 3 интернет-магазинов косметики и средств ухода с ассортиментом более 500 товаров.

Что для этого сделали специалисты «Нетологии»?

Начали со сбора всех доступных данных о потребительском поведении клиентской базы — около 100 тысяч потребителей — из популярных ecommerce-систем Magento и Shopify.

Это:

Информация о покупках, корзинах, среднем чеке, времени заказов и т.д.;
Обратная связь подписчиков email-рассылки: данные об открытии писем и переходов по ссылкам из сервисов типа Mailchimp и Dotmailer, а также о последующей активности на сайте (просмотр карточек товаров, категорий, покупки после рассылки);
Активность повторных посещений постоянных клиентов по данным о просмотрах товаров до совершения покупки.

Из этих данных получили следующие показатели:

Оптимальный размер скидки;
Время жизни клиента и его общую ценность (LTV);
Вероятность повторных покупок.

Таким образом получился полноценный образ каждого клиента с уникальным набором предпочтений, привычек и особенностей.

Допустим:

Клиент А. Покупает каждый месяц один и тот же шампунь для волос. Нет причин делать дополнительные акции на этот товар для этого клиента. Лучше предложить ему через месяц купить дополнительно кондиционер или маску того же бренда.

Клиент B. Один раз купил туалетную воду и духи и после ничего не покупал. Однако просматривает рассылки от интернет-магазина и интересуется декоративной косметикой. Есть вероятность, что клиент В совершает покупки в другом месте. Предложение набора теней со скидкой может послужить решающим стимулом совершения покупки.

На основе этой информации система сформировала сегменты для запуска кампаний через email — за неделю получилось от 40 до 100 автоматизированных кампаний для каждого бренда.

В ходе сбора данных исследователи выявили ряд триггеров. Например, некоторая группа пользователей просматривают почту по утрам, а вечером возвращаются домой и покупают увиденный товар. Есть смысл продублировать им товарное предложение вечером через дополнительный канал.

Результат: удалось утроить повторные продажи, повысить open rate писем в среднем на 70%, а конверсия из получивших письмо — на 83%.

«Очеловечивание» данных: кейс Яндекс.Такси

У Яндекс.Такси есть уникальные данные обо всех поездках. На основе них можно маркетинговые коммуникации сделать более эмоциональными. Основная идея — по-дружески «общаться» с клиентами и ненавязчиво напоминать о себе. Реализовать её помогла персональная статистика в виде историй и характеров.

Медиафасады

Маркетологи Яндекс.Такси выяснили самые популярные места в городе и маршруты. Для этого подсчитали количество заказов к самым значимым местам: паркам, театрам, музеям, памятникам. Эти данные не такие персональные и никого не обижают, но показывают, чем живет город.

Такие наблюдения позволили реализовать идею личного общения с аудиторией посредством медиафасадов. Дизайн оформили в виде дружеских сообщений в чате. Для каждого города — свои фразы.

Компания как будто перекидывается с человеком фразой, которую поймет только он. Ему приятно, так как это внимание и участие, а Яндекс.Такси рассчитывает на повышение узнаваемости бренда в городе.

При составлении текста использовали следующие приемы:

Городской сленг — местные слова, которые понимают все жители. Искали их в городских пабликах и форумах, а также уточняли у региональных менеджеров и краеведов. Например, в Казани загс называют «Чаша», набережную в Екатеринбурге — «Драма»;
Игра слов. Вот примеры:

3 090 человек, которые доехали до Мадрида на такси. А вы знаете толк в путешествиях! («Мадрид» — гостиница в Екатеринбурге).

958 человек, которые умчались к Юпитеру. Вы просто космос! («Юпитер» — название компании).

Это был тестовый эксперимент, сейчас Яндекс разрабатывает более комплексную кампанию с привлечением разных онлайн- и офлайн-источников.

Новогодние ролики

По итогам 2017 года Яндекс.Такси хотели рассказать клиентам, сколько времени они провели вместе и поблагодарить за это — сколько поездок, минут ожидания и утренних заказов.

Чтобы сделать это интересно, придумали вероятный сюжет для одной из миллиона поездок и сняли ролик на эту тему с цифрами из статистики.

Получилось следующее:

764 миллиона минут ожидания — влюбленная пара прощается у такси.

56 миллионов утренних поездок за год — мама с дочкой едут на утренник.

Big Data — видео про поездки с животными

122 тысячи поездок с животными.

По результатам первой попытки выяснили, что ролики выглядят так, будто бренд хвастается большими числами. Чтобы точнее донести посыл «посмотрите, сколько времени в этом году мы провели вместе», статистику поменяли, чтобы сместить фокус на персонажей истории.

Например, про минуты ожидания добавили время, сколько водитель по сюжету ролика ждет влюбленных:

Сами по себе цифры ни о чём не говорят. Сложно понять, большая эта цифра или маленькая, и что ею хотели показать. Яндекс использовал данные не как самоцель, а как способ рассказать историю.

Пасхалки в приложении

Компания также придумала характеры для своих клиентов — «такситипы» — в зависимости от количества поездок, их длительности и минут ожидания. Механизм определения учитывал три этих характеристики, складывал из них образ клиента и относил к одной из категорий:

Данные оценивались по тому городу, где человек сделал свыше 70% поездок.

Алгоритм находил медиану по городу и относительно неё оценивал метрики — «много» или «мало» поездок, минут поездки и ожидания.

Узнать свой «такситип» мог каждый пользователь, который совершил больше 4 поездок за год, в приложении по кнопке:

Например:

Черная пума: ездил много, поездки короткие, редко выходил вовремя

Дальновидный странник: ездил много, долго и выходил к автомобилю вовремя

Черепашка-ниндзя: ездил мало, поездки короткие, редко выходил вовремя

Прыткий спринтер: ездил много, поездки короткие, выходил вовремя

Турбоциклон: ездил мало, поездки короткие, выходил к автомобилю вовремя

Дзен-стайер: поездок мало, больше длинных, редко вовремя

Здесь же можно посмотреть подробную статистику:

Big Data — подробная статистика по такситипам

20% из тех, кто просматривал, заскринивали результаты и делились ими в соцсетях — это в два раза больше, чем предвещали прогнозы!

Статистика для водителей

Для водителей также показывали их личную статистику в приложении Таксометр. Здесь обошлись без метафор и историй, так как сами по себе данные показывают достижение. Картинку с ними можно сохранить и расшарить в соцсетях, что сделали 21% водителей.

Будущее Big Data

Эксперименты с большими данными продолжаются.

Яндекс — одна из компаний-пионеров, которые не только обучают концепции Data Science, но и активно используют её в разработке собственных продуктов.

Возьмем блоговую платформу Яндекс.Дзен. Она доступна в разных странах. Не нужно сортировать материал по темам и другим параметрам и настраивать показ на определенные категории пользователей. Каждый будет читать статьи, которые ему интересны и получать новую подборку похожих. Система просто предлагает то, что ему вероятнее всего понравится.

Дело в том, что машинный интеллект направлен не на усреднение. Он не стремится создать ограниченное количество сегментов, так как его возможности позволяют предлагать персонализированный контент каждому из нескольких миллиардов пользователей.

Или Яндекс.Радар — рейтинг популярных в России интернет-проектов. Его алгоритм формирует списки самых посещаемых в Рунете ресурсов по категориям (финансы, культура, медицина, образование и т.д.)

Одно из отличий от привычных рейтингов вроде Liveinternet, топ Mail.ru и прочих – автоматический сбор данных.

Зарубежным аналогом можно назвать alexa.com – это рейтинг наиболее посещаемых сайтов во всем мире и в разных странах по отдельности (выборки по странам платные и стоят денег).

Автоматический сбор данных (через свои сервисы, такие как «Яндекс.Браузер» и др.) и статистические модели позволяют включать в список сайты, которые в других рейтингах не принимают участия.

Даже в текущем виде это дает возможность в различных нишах выявлять лидеров и с помощью других сервисов моделировать их стратегии продвижения и источники трафика.

Амбициозная цель Яндекса — создать и обучить такой инструмент, который бы с помощью внутренних алгоритмов сам находил целевую аудиторию по минимальному набору заданных человеком параметров и подбирал креативы для рекламных кампаний.

Допустим, вы отбираете 5-10 пользователей — а машина находит тысячи похожих и настраивает на них таргетинг. Преимущество машинного интеллекта в том, что он учитывает факторы, которые даже опытный специалист может упустить из виду, не догадаться о них.

И в заключение — рекомендации от директора по маркетингу Яндекса Андрея Себранта:

Научитесь отличать, какие решения лучше принимает человек, а какие — машина, и не путайте два этих класса. Если с однотипными задачами (выбрать дизайн кнопки) алгоритмы справляются лучше, более творческие (сконструировать сайт с нуля) сможет только человек.
Обучайте не только людей, но и алгоритмы;
Учитывайте, что хотя алгоритмы великолепно отвечают на вопросы, но сами задавать вопросы не умеют. Хотя возможно, это тоже вопрос времени.

Кстати, вопрос о «противостоянии» человека и машинного интеллекта поднимается всё чаще. По этому поводу посмотрите баттл Андрей Себрант vs Антон Буланов (директор ИНВИТРО — крупнейшей частной медицинской компании).

Про сегментацию, маркетологов с топорами, прожигание бюджетов и появится ли в скором будущем кнопка «Приведите мне клиентов».

Смотрится на одном дыхании.