Содержание:
- Robots.txt - зачем он нужен
- Для чего скрывать информацию от роботов
- Как создать файл robots.txt
- Правильная настройка файла robots.txt
- Как запретить к индексации страницу сайта
- Как разрешить к индексации только одну папку
- Как запретить к индексации весь сайт
- Как проверить страницу на запрет к индексации
- Как правильно настроить файл robots.txt
Robots.txt - зачем он нужен
В robots.txt содержатся набор параметров для поисковых роботов, как для всех поисковых систем, так и для каждой поисковой системы в отдельности. В него необходимо помещать все технические страницы, файлы, папки, пустые и не нужные страницы, чтобы не захламлять поиск и увеличить доверие поисковой системы к вашему сайту. Например: файлы админ панели, страница с поиском, рекламные страницы, служебная информация и прочее.Для чего скрывать информацию от роботов
Давайте представим, что сайт это ваша квартира в которой вы храните все свои вещи. Паспорт, деньги, документы на автомобиль, акции компаний, фотографии, драгоценности, квитанции на оплату и так далее. К вам приходят в гости друзья и вы хотите показывать им только свои фотографии, похвастаться драгоценностями, а личные вещи скрыть от всех и не показывать ни при каких обстоятельствах. Для этого вы возьмете и положите все вещи которые не хотите показывать друзьям в другую комнату и закроете ее на ключ. Больше ваши личные вещи не потревожат и вы спокойны. В интернете роль ваших гостей получает поисковый робот. Так как сайт в интернете общедоступный, а интернет является всемирным, любой желающий может войти на него или посмотреть какую информацию вы на нем храните. Некоторой информации вы хотите делиться со всеми (например свои цены на услуги), а некоторая информация только для внутреннего пользования (оптовые цены и телефоны ваших поставщиков партнеров). Так для того, чтобы спрятать важную информацию от посторонних глаз и служит файл robots.txt. Он в переносном смысле убирает вещи (страницы) от посторонних глаз в другую сторону. Конечно если вы его создали, в противном случаи запреты действовать не будут и робот зайдет и все скачает в общий доступ.Как создать файл robots.txt
Для создания файла нам потребуется простой текстовой блокнот. Его можно создать нажмите комбинацию клавиш Windows+R и в появившимся окне наберите слово notepad. У вас появится чистый файл блокнота в который мы добавляем следующую запись:User-agent: *Фраза означает, что мы настраиваем этот файл для всех поисковых роботов всех поисковых систем. Можно настроить для каждой в отдельности но я не хочу вас путать и это нужно в индивидуальных случаях. Все файлы robots начинаются с нее. После чего мы нажимаем комбинацию клавиш Ctrl+S, пишем название robots, сохраняем файл на рабочий стол и мы на 30% ближе к правильной настройке. Файл нужно загрузить на ваш сервер с сайтом туда, где находится файл index.html или index.php (в начальный каталог сайта)
Правильная настройка файла robots.txt
Есть всего 2 команды которыми мы будем пользоваться это:- Disallow – запретить к индексации (показу в поиске). Это закрывающий параметр.
- Allow – разрешить к индексации. Это разрешающий параметр.
User-agent: * Disallow: /wp-admin/В таком случае поисковому роботу дана команда, что весь сайт можно показывать в поисковой выдаче, но не папку wp-admin. Внимание: в начете всех файлов и папок должен стоять знак «/»
Как запретить к индексации страницу сайта
Чтобы запретить к индексации конкретную страницу сайта нужно добавить ее в запреты к индексации в файле роботс. Например мы не хотим показывать страницу secret.html в поисковой выдаче. Название страницы можно посмотреть в вверху браузера зайдя на нее. Например у нас выглядит вот так: site.ru/secret.html Файл robots.txt выделит вот так:User-agent: * Disallow: /secret.htmlДанная страница больше не будет обходится всеми роботами поисковых систем.
Как разрешить к индексации только одну папку
Бывают случаи, что от целого сайта нам нужно получать посетителей только на одну папку. Назовем ее /vsem/, а остольные файлы и папки срыть от роботов, тогда файл robots.txt будет выглядеть так:User-agent: * Allow: /vsem/ Disallow: /Такой командой мы говорим роботу, что можно посещать и показывать в поиске только все что находится в папке /vsem/ и нечего больше.
Как запретить к индексации весь сайт
Запретить сайт к индексации совсем поможет вот такое заполнение файла:User-agent: * Disallow: /*Ваш сайт будет полностью запрещен к обходу поисковыми роботами и показу во всех поисковых системах.
Как проверить страницу на запрет к индексации
В Яндекс Вебмастер есть функция позволяющая проверить есть ли запрет на индексацию () Как получить доступ к Яндекс Вебмастер я рассказал тут. Она находится в разделе Инструменты > Анализ Robots.txt. Опускаем страницу немного ниже и для выявления запрета к индексации мы вводим название файла или папки в окошко после чего нажимаем кнопку проверить. Давайте попробуем проверить папку которую мы запретили к индексации в начале статьи. Как вы видите доступ запрещен. Также указан параметр из-за чего индексация не происходит. В нашем примере запрет стоит на все технические папки название начала которых совпадает с /wp-*/ А вот пример уже доступной к индексации папки блогаКак правильно настроить файл robots.txt
Правильная настройка файла robots.txt, заключается в понимании зачем он вообще нужен, также поиску «мусорных», системных и ненужных страниц. Они выявляются с помощью сервиса Яндекса, а также с помощью специальных программ, о чем я написал целую статью по исправлению ошибок на сайте и давайте отталкиваться от нее. Давайте возьмем старый скриншот и его разберем На этом скриншоте мы уже видим технические папки и данные, давайте их запретим к индексации. Папка /wp-json/ сразу видно что техническая, а параметр «?p=» забивает выдачу технической информацией. Проверить и принять решение о нужности папки или файла можно перейдя по ссылке и посмотреть страницу. Давайте их уберем. Для этого настоим файл robots.txt вот таким образом:User-agent: * Disallow: */wp-json/* Disallow: */?p=*Параметр * говорит роботам, что при любой встрече с папкой wp-json, не важно в каком разделе сайта она будет находится и при любом значении парамернра /?p= (/?p=1, /?p=2, /?p=123) страницы не показывать в поиске и не индексировать.
Как рассказано в статье исправление ошибок, найдите все ненужные и технические страницы сайта и добавьте их в запрет файла robots.txt
Надеюсь вам помогла моя статья, а если появились вопросы, задавайте их в комментариях. Мы идем дальше Продвижение сайта — настройка Sitemap — часть 4