Всё для рекламы
и про рекламу
Навигация по статье
Как работает карта сайтаПутаница с XML и HTMLСоздаем sitemap в XMLПравила работы с sitemap в XML
Маркетинг

Создание и настройка sitemap для начинающих

11392
1

SEO сайта — строгая дисциплина, она требовательна к новичкам. Стоит только заглянуть немного вглубь, за деревья иерархии и ключевые слова, и в определениях терминов замелькают строки кода.

Эта статья для тех, кто решился на знакомство с картой сайта в формате XML, но пока не готов сидеть над расшифровкой сложных таблиц с тегами. Рассказываем, что такое файл sitemap, как самостоятельно его создать и с помощью каких операторов настроить.

Как работает карта сайта

Когда поисковая система считывает поисковый запрос, она обращается за помощью к базе, где описано краткое содержание знакомых сайтов. Приоритет выдачи зависит от таких факторов как соответствие содержимого введенной фразе, морфология и полнота индекса.

Индексация — это сбор информации о сайте в базу данных поисковой системы. Поисковый индекс напоминает шпаргалку на экзамене: помогает быстро сориентироваться в информации и извлечь релевантный результат. Страницы, которые не прошли индексацию, не участвуют в выдаче, а значит, не приводят трафик на сайт.

Чтобы ботам было проще анализировать сайт, программисты могут добавить карту, то есть sitemap в виде XML. Создать её под силу даже новичку, но следует помнить, что требования Яндекса и Google к карте в XML отличаются.

Определение sitemap

Файлы sitemap в XML содержат информацию о сайте. Карта предоставляет поисковым сканерам следующие данные:

  • адреса страниц,
  • момент последнего обновления,
  • общая частота обновлений,
  • наличие версий на других языках,
  • приоритет элементов сайта и др.

Можно сказать, sitemap — посредник между поисковой машиной и сайтом. Карту создают в помощь ботам Яндекса, Google и других поисковиков, чтобы преобразовать и упорядочить данные. Так проще извлекать информацию и добавлять её в базу. Тем не менее, протокол sitemap в XML не гарантирует, что сайт проиндексируют грамотно.

Кому нужна карта сайта в XML

Sitemap файл в формате XML пригодится не всем. Изначально карту сайта создали в качестве костыля для ускорения индексации сайтов. Однако, сейчас скорость изучения страниц ботами выросла, и необходимость в повсеместном использовании sitemap в XML отпала.

Часть функций sitemap перешла в сервисы Яндекс.Вебмастер и Google Search Console, которые создали для упрощения диагностики и работы над SEO. Например, с их помощью можно контролировать, что индексировать в первую очередь.

Какие сайты нуждаются в sitemap в XML:

  • Сайты с большим количеством страниц

Те же маркетплейсы или энциклопедические ресурсы. Карта поможет сканеру сориентироваться и отыскать все страницы. Крупными считаются сайты от 500 страниц.

  • Сайты с объемными архивами не связанных друг с другом страниц

Sitemap в виде XML создают, когда иерархия сайта усложняется проблемами с навигацией, и программе требуется помощь. Тогда карту добавляют, чтобы бот не пропустил разрозненные части при индексации.

  • Новые сайты, которые трудно найти по внешним ссылкам

Роботы сканируют сайты, переходя с одной страницы на другую. Если ресурс создали недавно, и у него мало внешних ссылок, его могут просто не найти. Следовательно, надо добавить его в карту XML.

  • Сайты с большим объемом мультимедиа или новостного контента

В карте можно пояснять содержание картинок, аудио и видео. Тогда поисковая система сможет ссылаться на содержимое помимо текста, описанное в sitemap.xml.

  • Сайты с глубокой вложенностью

Чем больше кликов нужно, чтобы дойти до определенной страницы с главной для сайта, тем выше её уровень. Дальние разделы боты посещают реже, а значит, могут не выводить в результатах поиска. Чтобы избежать ошибок, можно создать sitemap.xml и занести страницу туда.

Карта — это страховка, на случай, если вы не уверены в четкости иерархии. У сайтов с проработанной структурой разделов и развитой навигацией в ней нет необходимости.

Путаница с XML и HTML

Sitemap в XML создают для адаптации сайта к запросам из поисковых систем. А карта HTML нужна людям — рядовым посетителям. Она представляет из себя каталог с гиперссылками, организованными по разделам. Её основная задача — помощь в поиске страниц.

Ключевые особенности HTML карты сайта

  • Четкая визуальная структура
  • Минималистичное оформление
  • Страницы в ней доступны для посещения всем пользователям
Пример карты сайта в формате HTML с официального сайта Microsoft

Пример карты сайта Microsoft, которую создали для помощи посетителям в навигации. Белый фон, ссылки на страницы в столбик по разделам, — ничего не отвлекает гостя от поиска.

Основная ошибка при работе с sitemap в HTML

Когда владельцы сайтов создают карту, нередко забывают о её предназначении: sitemap оказывает помощь в ориентировании на сайте.

Одни в попытках сэкономить время и силы ограничиваются вариантом «и так сойдет». Другие наоборот стремятся показать всё и сразу — загромождают карту ненужными дизайн-элементами и кучей ссылок. В итоге, sitemap только путает посетителей.

Создаем sitemap в XML

Код карты сайта в XML начинается с <urlset> и закрывается </urlset>. Затем требуется задать пространство имен в составе тега <urlset> посредством атрибута XMLns. Его значение должно быть представлено ссылкой URL.

Каждый URL-адрес в карте нужно выделять в раздел с помощью парных элементов кода <url> и </url>. Они будут для его описания родительскими тегами, которые обрамляют страницу наподобие скобок на один уровень выше.

Пример кода sitemap.xml с сайта sitemap.org

Пример кода sitemap.xml с официального сайта.

Список доступных тегов для XML

Обязательных для карты всего три. Последний нужен для обозначения местонахождения страницы, чтобы поисковый бот нашел её на сайте.

  • <urlset>

Нужен для указания стандарта протокола в sitemap формата XML. Кроме того, инкапсулирует отрезок кода, то есть, обозначает информацию внутри себя как целую условную единицу и исключает ошибки при использовании данных.

  • <url>

Парный родительский тег. Параметры внутри опускаются в карте на уровень ниже, иными словами, превращаются в дочерние. К каждому URL-адресу надо добавлять отдельную метку <url> и </url>.

  • <loc>

С его помощью обозначают URL страницы. Обязательно должен включать префикс протокола, http или https в зависимости от наличия или отсутствия надстройки безопасности. С учетом требований веб сервера может заканчиваться косой чертой. Длина значения не должна превышать 2048 символов.

Значение — изменяемый параметр, в коде записывается после тега. Для главной страницы Яндекса тег будет выглядеть так <loc>https://www.yandex.ru/</loc>, а значение составит 22 знака.

Следующие данные добавляют по необходимости, некоторые из них не учитываются вовсе. Например, сканеры Google, в отличие от Яндекса, игнорируют параметр <priority> при обработке карты сайта в XML.

  • <lastmod>

Дата последнего изменения страницы по стандартам W3C Datetime, международного формата для обозначения даты и времени. Его создали, чтобы унифицировать вид данных и стабилизировать программы. Он позволяет, если это потребуется, преобразовать данные в вид ГГ-ММ-ДД.

Наиболее общей величиной является год, самая точная граница — десятичная доля секунды. Если обозначение учитывает помимо даты время, во избежание путаницы положено указывать часовой пояс.

Пример с сайта https://www.w3.org/TR/NOTE-datetime: 1997-07-16T19:20:30.45+01:00 - 16 июля 1997 года, 19 часов, 20 минут, 30 секунд 45 десятичных долей по часовому поясу +1 UTC.

  • <changefreq>

Частота изменений в странице. Субъективный показатель, его переменная принимает значения: always — постоянно и never — никогда, hourly — ежечасно, daily — ежедневно и т.п. Если «никогда» описывает архивные разделы сайта, то «всегда» означает, что изменения в страницу вносятся с каждым визитом.

Поскольку параметр не объективен, сканеры Яндекса и Google не полагаются на эти обозначения карты при индексации. Например, они могут периодически оценивать архивные страницы в поисках изменений и игнорировать разделы, которые только недавно создали.

  • <priority>

В помощью карты вы можете расставить приоритет страниц на сайте, чтобы боты обращали внимание на конкретные разделы и меньше уделяли другим. Функция принимает значения от 0,0 до 1,0. Если параметр не определен, странице по умолчанию присваивают коэффициент 0,5.

Задавать всем страницам карты высокий приоритет бесполезно, это никак не скажется ни на сравнении вашего сайта с другими, ни на ранжировании в поисковой выдаче. Параметр отразится только на порядке обработки данных из sitemap в XML.

Что не нужно вносить в карту сайта

Оттолкнемся от назначения sitemap в XML. Создание и настройка карты сказывается на анализе сайта, следовательно, влияет на список страниц, которые пользователи поисковых систем увидят в результатах.

  • Неактуальные страницы

Если информация в статье устарела, акция с лендинга закончилась или набор на курс давно закрыт — нет смысла индексировать эти разделы сайта. Значит, вообще не надо добавлять их в sitemap и сообщать о них сканеру Яндекса, Google или других поисковиков.

  • Технические страницы

Не все части сайта доступны обывателям, некоторые создают для внутреннего пользования. Ситуация выходит похожая: гость открывает ссылку и не получает желаемого. Создать карту с такими наименованиями значит не просто потратить время на индексацию, но и рискнуть вызвать негатив у посетителя.

  • Турбо-страницы

Яндекс создал концепт легких страниц, которые хранятся на его серверах. Их фишка в упрощенном дизайне и коде, который не нагружает сеть при прогрузке. Как и в случае с Дзеном, Яндекс занимается индексацией внутренних ресурсов самостоятельно.

Правила работы с sitemap в XML

Кодировать знаки по международному стандарту

Формат карты XML воспринимает ограниченный набор символов. Однако, некоторые URL-адреса включают специфические знаки. В таких случаях используют кодировку UTF-8, то есть, восьмибитный формат преобразования Юникода.

Кроме того, иногда символы из URL страницы могут сливаться с символами кода из карты в XML и мешать боту выполнить команды. Тогда требуется экранировать, отделить их. Для этого создали систему шифрования. Так, в системе Честный Знак, нижнее подчеркивание «_» превратится в %5F, а знак равенства «=» примет вид %3D.

Делить большие файлы

Одна карта XML может включать до 50 000 URL-адресов, при этом имеет ограничение в 50 Мб по размеру. Её можно сжать до архива gzip, но это никак не повлияет на требования Яндекс.Вебмастера и Google Search Console к изначальным параметрам. Иными словами, иногда полный список приходится разбивать на несколько документов.

Чтобы все части карты засчитали при индексации, для них создали общий индекс: это файл, где указаны все составляющие sitemap. Его открывает родительский тег <sitemapindex>, затем следуют дочерние <sitemap>. Для каждого из них уровнем ниже требуется указать адрес файла с sitemap с помощью <loc>.

Размер индексов sitemap ограничен теми же параметрами: до 50 000 наименований на одну карту и 50 Мб в несжатом виде.

Сообщать о копиях на других языках

Google рекомендует указывать на альтернативы, чтобы избежать случайного исключения страниц из выдачи в поиске. Настройка sitemap в формате XML позволяет обозначить локализованные варианты с помощью атрибута hreflang. При этом важно создать систему перекрестных ссылок, чтобы страницы были связаны вне карты, иначе их могут счесть дубликатами.

Добавлять в sitemap только канонические URL-адреса

Если у сайта или страницы две версии — в карту заносят только основную, которая появится в выдаче по запросу. Для таких случаев создали атрибут rel=canonical. В качестве альтернативы можно организовать переадресацию с альтернативных вариантов на базовый.

Хотите тоже написать статью для читателей Yagla? Если вам есть что рассказать про маркетинг, аналитику, бизнес, управление, карьеру для новичков, маркетологов и предпринимателей. Тогда заведите себе блог на Yagla прямо сейчас и пишите статьи. Это бесплатно и просто
Анна Дрезгунова
11392
1
4
Написать комментарий
Елена ВаснецоваFebruary 10, 2022 в 5:52 AM
Хорошая и подробная статья. У меня сайт новый, пытаюсь продвигать его сама и пропобвать любые способы. До статьи и не знала про карту сайта в формате XML. HTML версия у меня присутствует, её сделать не сложно, а вот с XML версией пришлось посидеть, помучиться) Благо в статье пошагово описано, даже теги приведены. То есть, тем, у кого есть даже небольшие знания в CSS смогут, как я это сделать.