Как правильно составить и настроить файл robots txt для сайта

Как правильно составить и настроить файл robots txt

Правильное составление и настройка файла robots txt для сайта – это сокровенные знания веб-мастера. Без них боты поисковых систем начнут вести работы по своему усмотрению. А это не самые умные машины, и чтобы индексация была действительно качественной и грамотной, их приходится водить чуть ли не за ручку. 

Поэтому в этом обзоре мы разберемся в этой проблеме детально. Узнаем все особенности создания этого документа, а также разберемся с его значением. Ведь многие ошибочно полагают, что практической пользы от него почти нет. И игнорируют рекомендации по его наличию. И это становится серьезной ошибкой, снижающий и позиции в поисковике, и входящий трафик. 

Если seo-специалисты провели аудит вашего интернет-ресурса и уже выставили на вас задачи по исправлению технических ошибок, внедрению новой структуры контента и изменению структуры сайта, но вы не знаете с какой стороны к ним подойти и у вас некому эти задачи реализовывать, вы можете обратиться к специалистам «Студии 17». Мы занимаемся не только разработкой, но и оказываем качественную техническую поддержку.

Что же это такое 

Один из самых частых вопросов – как создать файл robots txt для HTML сайта. И это крайне забавно, ведь по сути такому типу ресурсов подобный документ и не нужен. Это практически единственное исключение. Небольшие ресурсы без динамических страниц — это системы, которые и не могут содержать множество вкладок с информацией. Если робот поисковика пройдется по всем, вряд ли случится что-то страшное.

что такое файл роботс

Смысл метода в принципе ограничения исследований ботов, чтобы направить их силы в нужное русло. Тут у вас просто нерелевантная техническая информация, индексация не нужна. Закрываем доступ. А вот здесь скрывается новый контент с уникальными текстами, строго оптимизированный под тематику ресурса. Как раз сюда и нужно направить силы поисковиков. Общий смысл понятен. 

Есть и иной аспект с не меньшей важностью. Почти каждому сайту с дублированным контентом нужен правильный файл роботс тхт (txt), настройка его позволяет исключить проверку таких участков. Вы, например, просто показываете пользователям текстовые части с иных ресурсов, описываете общие понятия, вставляете вырезки из авторитетных источников. И все это снижает уникальность. А за такое можно и санкции от поисковых систем получить. Вот тут и понадобится запрет на исследование. 

Поэтому не стоит недооценивать его значения. В современных реалиях почти нет веб-ресурсов, которые могут обойтись без этого маленького помощника. Тем более, обзавестись им можно в считаные минуты. Главное понимать, как именно решить задачу.

 

Как создать 

Прежде всего, начнем с основ. Для того чтобы понять, как написать, сделать файл robots txt для сайта, что должно быть в нем, достаточно уяснить, что это текстовый документ. Обычный и тривиальный. Открыли блокнот, сохранили под соответствующим именем – все, задача выполнена. Правда, неправильно. Ни команд, ни директив там не будет. Но теоретически документ создан. 

как создать robots.txt

Всего-то нам и нужно вооружиться блокнотом и поместить результат в правильное место. А конкретно, в корневой каталог. То есть, наш сайт/наш документ. 

Есть и аналогичные методики. Просто скачать необходимый вариант из сети. Или даже сгенерировать его. Сейчас различные онлайн-сервисы предоставляет возможности по автоматическому созданию. Но тут тоже могут быть свои палки в колесах.

  • Сервис может работать в принципе неправильно. И такое случается. 
  • Полученный вариант будет не персонализированным. Не заточен под конкретные аспекты вашего ресурса. Его все равно придется дорабатывать и переделывать. Если у вас не супертиповой сайт, разумеется. Что в реальности не случается. Даже клонированные блоги на WordPress имеют массу отличий.
  • В этом нет особого смысла, ведь подобный процесс без проблем можно провести своими собственными силами. 

 

Настройка 

Правильный файл robots txt что это такое – текстовый документ, который следует корректному синтаксису и обеспечивает изоляцию всех внутренних страниц, где роботом нет смысла тратить время или даже вредно находиться. 

настройка robots.txt

В какой-то мере – это инструкция для ботов. Они ей следуют. Не будем оставлять их без присмотра. Вот подобный маневр значительно увеличивает поисковую позицию, а также повышает внутренний рейтинг площадки в глазах поисковиков. Простейший метод оптимизации, достигаемый не вливанием массивных денежных пластов, не покупкой профессиональных услуг, а всего лишь небольшой редактурой на пару минут. Вариант звучит выгодно. 

 

Структура 

Важнейшие команды – это User-agent и robots txt disallow. Первая сообщает, какой конкретно поисковый робот должен следовать указаниям. А вторая говорит, куда ходить не следует. 

структура robots.txt

Структура становится примерно следующей.

User-agent: Yandex

Disallow: /PPP – произвольное название нашей страницы. 

Disallow: /admin – закрытая для исследований админка. 

Такую же манипуляцию можно провести с Гуглом. Только сменится агент. 

User-agent: Googlebot

Disallow: / 

В данном варианте будет запрещена полностью индексация для Гугла. Но для Яндекса сохранена возможность изучения, кроме двух страниц. А именно PPP и admin. Все остальные точки свободны для посещения ботов. То есть, это пример, как настроить файл robots txt для Яндекса, запрещая при этом поиск оппоненту. Но зачастую, разумеется, абстрагироваться от ключевых поисковиков все же не стоит. 

 

Синтаксис и правила 

синтаксис robots.txt

Их, в отличие от смежных областей, немного. 

  • Используются только строчные буквы в названии документа.
  • Пробелы не имеют значения, но пустые строки имеют. Одно необходимо ставить лишь после позиции User-agent.
  • Символы * в какой-то мере являются закрывающими. Но их допустимо пропускать и итог от этого не изменится.
  • Каждое указание пишется с новой строки.
  • На одной строчке допустимо поставить единственную директиву.
  • Комментарии ставятся только после знака #. И они не учитываются ботом. 

 

Спецсимволы 

 

Пройдемся по ним.

  • *. Символ означает произвольное, любое количество символов. Также подходит и нулевое. Этот знак по логике всегда стоит вначале, даже если его не прописать руками.
  • $. Отображает факт, что предыдущий символ является последним в строке. То есть, закрываем ее.
  • #. Комментарий отключен от индексации. 

 

Директивы

директивы файла роботс

Двигаемся дальше. Теперь разберем, какие конкретно указания мы способны передать ботам. И какие действия заставить их выполнять. 

Агенты 

Команда для всех роботов одинаковая – User-agent. Дальше уже после двоеточия ставится конкретное имя. Стоит понимать, что настройка robots txt синтаксис, директивы – все это точные значения. Не укажете команду для конкретного бота, он будет следовать общей. При этом допустимо заблокировать вход всем исследователям кроме выбранных. Но это тоже не самый логичный вариант. 

агенты проверки

Разумеется, чаще всего приходится ориентироваться только на Яндекс и Гугл. 

 

Запрет индексации 

Директива Disallow. Она запрещает исследование отдельных страницы или определенного набора. Перекрыть допустимо как путь, чтобы все разветвления были заблокированы, так и конечную точку, имеющую адрес.

запрет индексации 

Сюда логично будет помещать динамическую выдачу поиска, дублированный контент, потерявший свою уникальность. Причем при указании ссылки на источник, для самого Яндекса или Гугла по факту не меняется наличие плагиата. Технические страницы тоже изучать роботом не следует, закрываем им доступ. Логи, сформированные в результате ошибок и отчетности интерес также не вызывают. 

 

Разрешение индексации 

разрешение индексации

Команда Allow. Это антагонист, директива дает право на доскональное изучение всей представленной на странице информации. Существует параметр – /. После него идет сам адрес точки. И если его оставить пустым, как Allow/ – это означает, что допустимо полное исследование зоны площадки. Ни одна из страниц не будет скрыта. Такой же прочерк, но с запрещающей директивой не позволит проникать на ресурс никому. В итоге мы, используя пометку агента, вполне способны части ботов запретить посещать веб-ресурс полностью, а другим дать все возможности для индексации. Подходит, если работать под конкретный набор поисковых машин. 

Это основные директивы роботс.

 

Карта сайта 

карта сайта в роботс

Команда Sitemap позволяет точно указать путь на xml навигатор. Это важнейший аспект. Любая система в первую очередь пытается направить своих кравлеров именно туда. Ведь там содержатся основные ссылки, пометки, размещение страниц в пространстве. И поисковик положительно оценивает сайт, если на нем есть грамотная карта, развернутая и со всеми обозначениями. И снижает его в выдаче, если искомого элемента нет на месте. Поэтому следует указать к нему путь. Делается это просто.

User-agent: * 

Sitemap: https://нашсайт.рф/sitemal.xml

Соответственно, у вас адрес будет собственный. 

 

Центральное зеркало, robots host

 

С помощью этой команды допустимо было указать дубликат сайта, если основной адрес заблокирован по веским причинам. Самый частый случай использования – это появление в свое время Secure протокола. Когда большая часть ресурсов массово переходила с HTTP на HTTPS. И если честно, вариант оказался не слишком удобным. Так от него было решено отказаться еще в 2018 году. На смену пришел сервис переезда от Яндекса или новый директ под номером 301. В данный момент заполнять HOST не нужно.

 

Команда Crawl-delay

Из названия становится понятно, что с помощью директивы создаются задержки по времени посещения. Сессии с тайм-аутом. Указав этот параметр и цифру, как вариант, 4, вы поставите задержку в 4 секунды. Такая практика оказывается весьма полезной, если боты просто нагло грузят площадку, создают повышенный перевес частыми посещениями, а сервер и так не самый мощный. Тогда скорость загрузки страниц и общая динамика начнут сильно падать. Что создать негативное впечатление уже у пользователей. А как бы важны ни были поисковые машины, все же пользователи – это самое главное. 

Crawl-delay в robots.txt

Также это и неплохой способ диагностики. Смысл прост: если сервер постоянно падает, в наблюдаем перезагрузку, пора создавать новый робот тхт (txt) для сайта. Там мы указываем задержку в 1-2-6 секунд для кравлеров. И если после этого неполадки остались, значит, проблема лежит в другой плоскости. Но на практике – это часто решение ситуации с перевесом. 

 

Команда Clean-param

 

Это лучший друг почти всех интернет-магазинов на просторах Рунета. Ведь директива запрещает изучение динамических страниц с аналоговым содержанием — то есть когда динамическая выдача (подбор товаров по категориям) будет точно копировать отдельные страницы ресурса, просто собранные в новом формате. В таком случае будет создавать искусственная нагрузка. Причем она может достигать катастрофических размеров, зависит от оптимизации. 

Зачастую в директиве нужно указать сведения, по которым и собираются динамические участки. Идентификаторы пользователя и иные ресурсы. 

 

Остальные параметры 

 

Ранее использовался еще один вариант команд. Это Request-rate. Он предоставлял возможность поставить максимальное количество страниц для изучения за определенный диапазон времени. Опять же, чтобы свести нагрузку к минимальным значениям. Но сейчас технологии находятся на высоком уровне, директива утратила актуальность и не используется. Как и Visit-time. Эта команда позволяла посещать саму площадку только в определенное время. Например, пару часов по утрам, а также вечером. Чтобы отделить время посещения пользователей и ботов. Ведь вместе они создавали сильный перекос на сервере, и он мог просто упасть. Неудобно, но альтернатив раньше не было. 

 

Комментарии 

 

Как мы уже уточнили, для прописывания собственных пометок понадобится знак #. Он будет свидетельствовать о том, что дальнейшее изучение слов после символа не требуется. То есть, запрет на индексацию. А да, смысл пока не понятен. На самом деле все примитивно. Это пометки для себя, для помощников, сотрудников, оптимизаторов и кодеров. Чтобы натолкнувшись на определенный элемент, они могли понять, почему тут стоит disallow или, напротив, проверка полностью разрешена. Когда есть небольшие аспекты, необходимые для упоминания. 

 

Проверка 

Завершающим этапом после создания документа будет его диагностика. Нельзя запускать в работу вариант, если вы не уверены в его корректности. Создав, как вариант, файл роботс тхт для Яндекс, может оказаться, что он сильно мешает другим системам. Или даже для самого целевого поисковика оптимизирован не лучшим образом. 

проверка файла роботс

Проверка – это последняя стадия в любой работе, и эта сфера не является исключением. Проблема даже не в знаниях, а в банальном человеческом факторе. Парочка нелепых ошибок способна сильно сказаться на посещаемости ресурса. 

 

Проверка на сайте 

 

Как мы помним, документ грузится в корневую папку. А значит, у него есть собственный адрес, с помощью которого его допустимо найти. И что более интересно, все сведения, связанные с этими аспектами – публичные. Вы можете проверить не только собственный файл, но также и любой в интернете. Так и начать следует с вашей работы. Напрямую вводите адрес, смотрите, получилось ли найти загруженный документ. 

 

Выявляем ошибки 

 

Существует два варианта. В первом случае следует проверить все моменты самостоятельно. Просто пройтись глазам, не напутали ли мы адреса, директивы, не забыли ли важный аспект. Это отличный способ, если по итогу у нас получился небольшой размер. 3-4 десятка строк, не более. А вот когда документ вышел несравнимо крупнее, придется обращаться к сервисам. Хотя они в любом случае понадобятся. Это панель веб-мастера Яндекса или аналог у Гугла. В автоматическом режиме эти утилиты изучат полученный Вами файл, посмотрят, есть ли серьезные ошибки, неточности, разночтения. И укажут Вам на них, снабдив своими комментариями. 

 

Работа под Яндекс и Google 

Возникает закономерный вопрос. А почему бы не прописать команды сразу для всех поисковиков. Зачем указывать отдельно каждого агента. Ответ лежит на поверхности. В первую очередь, эти две системы реагируют по-разному. Одни любят большие тексты, другие поменьше. Отношение к спаму, расположения страниц, ко всему – разное. И направлять их нужно туда, где лучше оптимизация по их мнению. 

индексация поисковиками

Но это не главное, условности. А вот тот факт, что поисковики лучше реагируют на сайт, если в документе конкретно прописан их агент – неоспорим. Поэтому придется команды писать под конкретного бота, если хотите нормальные позиции в выдаче. 

Заключение и советы 

googlebot в роботс

В эпилоге пройдемся по краткому списку рекомендаций:

  • Всегда создавайте указания для ботов. Какой бы сайт у вас ни был.
  • При любых неполадках с посещаемостью перепроверьте на ошибки.
  • Заходите на Яндекс индексацию раз в неделю-две. Проверяйте позиции. 

На этом наша инструкция как создать, правильно составить robots txt для сайта считается законченной. Пробуйте и экспериментируйте, отслеживайте результат. Если он окажется неудовлетворительным, всегда можно провести работу над ошибками. Благо, это занимает не так много времени.


Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *