Правильно настроенное принятие/запрет доступа поисковых систем к ресурсу или части ресурса — важный и востребованный аспект для разработчиков и владельцев. В этой области есть несколько классических решений. Одним из них, несомненно, является создание файла robots.txt.
Как закрыть сайт от индексации: несколько простых способов
Увеличение трафика и продвижение страниц в поисковых системах — это, пожалуй, главная цель, которую ставит перед собой каждый владелец ресурса. Однако бывают случаи, когда появление сайта в версии нежелательно: например, в случае редизайна или если сайт слишком новый, так что необходимо добавить контент.
Тогда перед владельцем возникает вопрос: что нужно сделать, чтобы поисковые роботы не «открыли» ресурс раньше времени? В сегодняшней статье вы узнаете, как исключить сайт из индексации, и получите подробный обзор инструментов, доступных для этой цели.
Что такое индексация сайта
Индексирование — это процесс, результат которого можно сравнить, например, как рентгеновский снимок. Пауки поисковых систем действуют как рентгеновские аппараты, которые сканируют страницы ресурса и записывают информацию о них в общую базу данных (или индекс). Рептилии также выступают в роли врача в реальной жизни, описывая снимок.
Они не только фиксируют наличие сайта, но и оценивают его содержание, удобство использования и другие характеристики, которые непосредственно влияют на его рейтинг (или место в поисковых системах). Оценивая контент и оценивая ресурс как нечто интересное и полезное, роботы будут ранжировать сайт лучше, и наоборот.
Чтобы получить релевантные ответы на свой вопрос, пользователи даже не подозревают о том, какой объем работы проделывают роботы поисковых систем, чтобы составить список ресурсов, предоставляющих искомую информацию. Посетители не имеют представления о той работе, которую проделывают владельцы сайтов, чтобы страницы в Интернете занимали наилучшие места в результатах поиска.
Иногда для этого требуется некоторое время, чтобы «спрятать» ресурс от поисковых роботов, чтобы он продолжал индексироваться как полезный и привлекательный для всех посетителей.
Каждая система разработала сложные алгоритмы, по которым работают поисковые пауки. Но и Яндекс, и Google оценивают контент, исходя из его интересности и полезности для пользователей.
Индексация раскрыта:
- текст;
- графика (фотографии и картинки);
- видео (факт наличия видеоконтента, количество просмотров);
- мета-теги (указатели для роботов, позволяющие фиксировать их внимание на важных моментах страницы).
Когда информация о сайте вводится в поисковые базы данных, ресурс включается в ранжированный список, отображаемый пользователю в ответ на этот запрос.
Еще не так давно было достаточно наполнить текст ключевыми словами, упростить работу пауков поисковых систем и поддерживать
Самый популярный вопрос среди владельцев — ускорить индексацию сайта, но иногда приходится поступать наоборот: лишать роботов возможности ранжировать ресурс (полностью или частично).
Некоторые владельцы ресурсов ошибочно полагают, что индексация осуществляется по «личному приглашению», которое должно быть адресовано ботам, т.е. путем отправки ссылки на ресурс. В действительности пауки поисковых систем постоянно сканируют интернет, поэтому, чтобы сайт не был заблокирован от индексации, рано или поздно он попадет в рейтинг.
Хорошо, если к тому времени ресурс будет соответствовать требованиям, предъявляемым поисковыми системами. А если нет? Вместо оптимизации может возникнуть противоположный эффект, называемый «пессимизмом», который требует будущих усилий для восстановления ценности.
Зачем и как закрывать сайт от индексации
Объективная необходимость полностью исключить сайт из индексации может быть вызвана следующими причинами:
Но от пауков поисковых систем может скрываться не только весь сайт, но и отдельные его части (разделы или страницы), индексация которых, по определенным причинам, нежелательна. Важно ответственно относиться к страницам, закрывающим ресурсы, и помнить, что не вся информация должна быть доступна роботам и пользователям.
Прежде всего, следует скрывать служебную информацию, предназначенную только для владельца и веб-мастеров, работающих с сайтом. Чтобы быть заблокированными для индексации, это должны быть дубликаты страниц с неуникальным контентом.
- Ресурс создан недавно, на нем ведутся работы по наполнению, изменению интерфейса и др. До конечного результата еще далеко, и владелец представляет площадку в ином виде, до достижения которого правильнее скрыть ее от поисковых пауков. Аналогичным образом следует поступить и в том случае, если нет возможности заниматься наполнением сайта. Открывать ресурс для аналитической работы пауков лучше после полноценной доработки и настройки. Тогда боты видят современный и актуальный сайт, достойный высокой оценки, и, следовательно, высокого места в выдаче.
- Существует дубликат ресурса, позволяющий веб-мастерам в реальных условиях испытывать нововведения и возможные изменения. Аналог следует сделать невидимым для роботов, иначе они могут усмотреть дублирование контента, которое влечет крайне неприятные последствия. Если сайт является тестировочной площадкой разрабатываемых скриптов, шаблонов и прочего, он также не должен индексироваться.
- Если веб-ресурс создается и дорабатывается на хостинге, он доступен в любое время. Это позволяет работать над ним, когда удобно, немедленно воплощать появляющиеся идеи, апробировать разработки. Но лучше делать это в закрытом от роботов режиме, а им отправить ссылку на уже готовый сайт. Пусть они индексируют и отправляют в базу данных готовый ресурс.
Интернет-магазины с каталогами, содержащими более ста страниц, например, часто страдают от последствий такой ситуации. Низкий показатель оригинальности также наблюдается для страниц, содержащих личную информацию пользователей, которые также должны быть исключены из индексации. Это также имеет этические причины. Страницы с корзинами для покупок и формами заказа клиентов по праву скрыты от поисковых машин — они имеют значение только для конкретного человека и не должны появляться в результатах поиска. Такая информация считается «мусором» для пауков, и было бы неплохо, если бы владелец избавился от необходимости индексировать ее.
Поэтому боты не должны быть видны:
Чтобы скрыть ресурс от детекторов, просто активируйте настройку, которая отвечает за видимость детекторов. Перейдите на панель управления, прокрутите страницу Settings (Настройки) и выберите Readout (Считывание). Откроется страница, где последней опцией является нужный вам флажок. Установите флажок, а затем нажмите кнопку Сохранить изменения. С этого момента ваш ресурс больше не будет индексироваться поисковыми системами. WordPress размещает на всех страницах ресурса специальные теги, указывающие на то, что данный материал не должен учитываться при ранжировании поисковыми системами. Даже в самих настройках указано, что поисковые системы не всегда выполняют этот запрос. Яндекс и Google, скорее всего, последуют этому примеру, но менее популярные поисковые системы также могут проиндексировать ваш ресурс, несмотря на все их усилия. Вы всегда можете вернуться к настройкам и снять этот флажок. После этого метатег будет автоматически удален со всех страниц, и вы сможете отправить их на повторный анализ с помощью Яндекс.Вебмастера или Google Search Console. Вы можете закрыть ресурс не только полностью, но и только для нужных статей или страниц. Для этого необходимо установить плагин Yoast SEO для оптимизации поисковых систем или аналогичное расширение. В этой статье мы рассмотрим Yoast SEO. Чтобы закрыть нужную страницу или статью, необходимо открыть редактор в панели управления, а затем прокрутить страницу вниз. До сниппета с Yoast SEO, где есть поле с заголовком, описанием и ключевым словом для вашего материала. Перейдите на вкладку «Дополнительно» (значок шестеренки), а затем выберите «Нет» в выпадающем меню «Разрешить поисковым системам отображать записи в результатах поиска?». Здесь же можно выполнить другие настройки. Например, раскройте метатег Robots для этой страницы. Однако маловероятно, что эти функции понадобятся новым пользователям. Достаточно просто выбрать соответствующий пункт в настройках реестра, а затем сохранить изменения, нажав соответствующую кнопку. Это можно сделать с любой записью и любой страницей. Это также можно сделать с помощью тегов и других пользовательских таксономий. Чтобы закрыть все страницы или все записи, вы также можете воспользоваться опциями плагина Yoast SEO. Просто зайдите в меню «SEO» — «Внешний вид для поисковых систем». Откроется страница, где в верхнем меню нужно выбрать «Типы контента». Там будут перечислены все таксономии вашего ресурса. Каждая таксономия имеет свой собственный набор настроек, которые обычно являются
Самый распространенный способ закрыть ресурс от глаз краулеров — использовать robots.txt, который есть почти в каждом проекте. Этот файл очень важен для поисковых систем, поскольку он устанавливает все правила для роботов. Если этот файл отсутствует, он будет помечен как ошибка. Чтобы закрыть весь проект, необходимо удалить все текущее содержимое файла, а затем добавить следующие строки.
В WordPress
Этот способ очень похож на первый, где мы объясняли, как исключить ресурс из индексации в WordPress через настройки и плагин. Только в этом случае вы должны сами добавить правильный метатег в код, без ссылок и т.д. На всех страницах, которые вы хотите закрыть от PS, необходимо добавить следующий тег.
В WordPress это можно сделать с помощью редактора темы, который находится в меню «Внешний вид». Просто зайдите в панель управления, найдите нужный вам элемент, наведите на него курсор и выберите «Редактор тем». Далее необходимо выбрать файл заголовка (header.php), который используется почти на всех страницах проекта. Именно здесь вам нужно вставить этот метатег. Сразу скажу, что вставлять тег вручную неоправданно, особенно в WordPress. Зачем это делать, если есть настройки, позволяющие реализовать все в упрощенном варианте. Этот способ больше подходит для самописных сайтов или ресурсов, использующих какие-то сторонние платформы, где нет возможности так просто включить этот метатег в настройках.
Через метатег robots
Использование этого файла может привести к тому, что ресурс не будет проиндексирован. Это можно сделать с помощью следующих строк.
SetEnvIfNoCase User-Agent «^Yandex» search_bot SetEnvIfNoCase User-Agent «^Googlebot» search_bot SetEnvIfNoCase User-Agent «^Mail» search_bot SetEnvIfNoCase User-… Агент «^BlogPulseLive» search_bot SetEnvIfNoCase User-Agent «^php» search_bot SetEnvIfNoCase User-Agent «^Parser» search_bot SetEnvIfNoCase User-Agent «^spider» search_bot SetEnvIfNoCase User-… Агент «^igdeSpyder» search_bot SetEnvIfNoCase User-Agent «^Snapbot» search_bot SetEnvIfNoCase User-Agent «^Yahoo» search_bot SetEnvIfNoCase User-Agent «^Aport» search_bot SetEnvIfNoCase User-… Агент «^Robot» search_bot SetEnvIfNoCase User-Agent «^msnbot» search_bot SetEnvIfNoCase User-Agent «^WordPress» search_bot SetEnvIfNoCase User-Agent «^bot» search_bot
Через htaccess
Вам нужно добавить их в файл. С помощью этих правил ваш проект будет закрыт от всех известных URL.
Как видите, существует множество способов скрыть свой проект. Мы рассмотрели наиболее популярные и эффективные методы. Надеюсь, этот материал поможет вам решить ваши проблемы. На самом деле это довольно просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно активировать настройку, и проект будет закрыт. Вы также можете использовать глобальный метод и закрыть ресурс через robots.txt. Подавляющее большинство веб-мастеров используют эту опцию и не имеют никаких жалоб. В любой момент вы можете изменить содержимое файла и отправить сайт на обновление.
Это страницы сайта, которые имеют разные URL-адреса, но содержат одинаковое или почти одинаковое содержание. Дубликаты могут привести, в частности, к следующим последствиям:
Заключение
В некоторых случаях может потребоваться исключить из индексации такие документы, как pdf, docx и т.д. Это возможно с помощью robots.txt.
Что можно закрыть от индексации
Дубль
Если документы можно скачать из выдачи, не заходя на сайт, это, с одной стороны, может привести к потере трафика, а с другой — положительно повлиять на посещаемость сайта. Пусть стратегия и выгода для вашего проекта будут вашим руководством.
- снижение скорости индексирования новых страниц. Индексирующий робот может медленнее доходить до новых страниц, из‑за того что будет обходить дубли;
- поисковая система «склеит» дубли и сама выберет среди них основную страницу. При этом есть риск, что эта выбранная страница не будет вашей целевой;
- в индексе останутся все дубли. Тогда все они могут конкурировать между собой, «моргать» в выдаче и т. д. Это может влиять на положение сайта в поиске.
Документ для скачивания
Если страница не имеет содержания или просто копирует другую страницу, если это редизайн или улучшение, а мы все равно не хотим ее развивать, и в других подобных случаях можно запретить индексацию страницы.
Если вы предоставляете такие страницы для индексации, PS может уменьшить или исключить их из индекса, что может повлиять на рейтинг всего сайта.
Страницы, которые находятся в разработке
Все сервисы и технические страницы не содержат полезного для пользователей контента или вообще пусты. Поэтому они должны быть исключены из индексации.
Такими страницами могут быть, в зависимости от сайта и особенностей проекта: регистрация страницы, авторизация, результаты поиска по странице, личный кабинет, корзина, избранное и т.д.
Техническая страница
Файлы веб-сайта обычно располагаются в папках, например, категории, каталоги, разделы, подразделы и т.д. Если часть вашего сайта полностью устарела, вы можете исключить из индексации всю папку, а не только отдельные страницы.
Вы можете не только закрывать страницы, но и скрывать от индексации определенный тип контента, например, все изображения определенного формата или фотографии.
Папка
Если вы размещаете информативные и полезные изображения, не стоит исключать их из индексации.
Картинка
С помощью robots.txt мы не можем заблокировать индексацию одной ссылки. Чтобы предотвратить переход роботов по ссылкам на странице, мы можем запретить индексирование страницы, содержащей ссылку, или страницы, на которую указывает ссылка.
Чтобы предотвратить индексацию ссылки, Яндекс рекомендует использовать атрибут rel.
Ссылка
Невозможно скрыть отдельные блоки страницы в robots.txt.
Вы можете использовать тег noindex, чтобы запретить Яндексу индексировать часть текста, но Google не поддерживает этот тег.
Блок на сайте
Файл robots.txt — это документ .txt со специальными правилами (инструкциями) для краулеров поисковых систем. Они помогают управлять индексацией вашего сайта.
Эти правила позволяют поисковым системам определять, какие страницы и файлы на сайте не должны появляться в результатах поиска, а какие должны отображаться вместо них.
Как запретить индексацию в robots.txt
В файле robots.txt вы можете:
В robots.txt обычно блокируются страницы целиком: весь каталог, определенные типы страниц, страницы или файлы с определенными атрибутами.
Если на сайте есть robots.txt, он обычно хранится в корневом каталоге сайта — там, где загружаются каталоги и другие файлы.
- разрешить или запретить индексацию страниц или разделов сайта;
- указать ссылку на карту сайта Sitemap.xml;
- заблокировать показ изображений, видеороликов и аудиофайлов в результатах поиска.
Кроме того, на некоторых сайтах robots.txt может быть расположен по адресу site.ru/robots.txt, где site.ru — это ваш сайт. Например, https://topvisor.com/robots.txt.
Если файл отсутствует, то, скорее всего, сейчас для индексации всех страниц сайта и поисковых роботов нет специальных инструкций.
Поэтому вам необходимо создать файл самостоятельно. Вы можете сделать это в Блокноте или другом текстовом редакторе. В файл необходимо включить специальные
Каждая новая директива агента пользователя, которую вы пишете в своем документе, должна предваряться дополнительным переводом строки.
Например, если мы хотим исключить весь сайт из индексации Яндексом и Google, мы напишем это следующим образом:
Пользовательский агент: Googlebot Di sallow: / Пользовательский агент: Yandex Disallow: /
Правила определения политики следующие:
- User‑Agent — обязательная директива, которая говорит, какому именно поисковому роботу адресуются указанные ниже правила. В документе эта директива может повторяться несколько раз — с неё начинается каждая новая группа правил для конкретного бота.
Если правило ссылается на страницу, следует указать полный адрес. В начале должно быть «/». Например: /ru/marketing/57-free-seo-tools.
После создания файла из загрузки на сайте убедитесь, что он существует, находится в корневом каталоге сайта и может быть открыт без проблем. Чтобы проверить это, введите в строке браузера адрес сайта с файлом в формате https://site.ru/robots.txt.
Затем вы можете проверить файл в таблицах вебмастеров Яндекс.Вебмастер и Google Search Console.
- * — когда обращаемся ко всем поисковым роботам;
- Googlebot — когда обращаемся к роботам Google;
- Yandex — когда обращаемся к роботам Яндекса.
В Вебмастере откройте «Инструменты» → «Анализ robots.txt». Обычно содержимое файла сразу отображается в строке. Если нет, скопируйте его из браузера и вставьте сюда. Затем нажмите на кнопку «Проверить»:
Если файл содержит ошибки, веб-мастер подскажет вам, как их исправить.
Чтобы проверить файл robots.txt с помощью валидатора Google, нужно сделать следующее:
1. 1. войдите в свой аккаунт Google Search Console.
3. В открывшемся окне вы увидите информацию, уже загруженную из файла. Если нет, вставьте его через браузер.
- Disallow — этой директивой мы можем запретить роботу индексировать определённые разделы сайта, страницы или файлы. Здесь могут закрываться от индексации, например:
- технические страницы: страницы регистрации, авторизации и др., у интернет‑магазинов это могут быть страницы «Корзина», «Избранное» и др.;
- страницы сортировок, которые изменяют вид отображения информации;
- страницы внутреннего поиска и т. д.
GSC покажет вам, есть ли в файле ошибки и как их исправить.
- Сначала указываем саму директиву и двоеточие. Например: Disallow:
- После этого указываем раздел или страницу в корневой папке текущего сайта без указания самого домена. Например: /ru/marketing/.
Каждый поддомен сайта обычно имеет свой собственный файл robots.txt, который обычно находится в папке, являющейся корнем поддомена. Вы должны настроить содержимое файла, указывающего, какие разделы должны быть закрыты через каталог disallow. Если файл не существует, его необходимо создать.
Как проверить запрет
В этом случае рекомендуется либо предварительно настроить атрибут rel=»canonical» тега в основном домене, либо создать файл robots.txt в поддомене CDN (например, nnmmkk.r.cdn.skyparkcdn.ru), который запрещает это. Опция rel=»canonical» является более предпочтительной, поскольку она сохраняет/прикрепляет всю информацию о поведенческом агенте для обоих адресов.
У каждой поисковой системы есть свой список поисковых систем (их несколько), которые можно перечислить по имени в файле robots.txt. Вот список наиболее важных из них (полные списки см. в «Помощи веб-мастерам»):
Яндекс.Вебмастер
Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:
Также можно исключить индексацию сайта или конкретной страницы с помощью метатега robots. Этот метод также используется с более старыми
Google Search Console
В этом случае блокировка также настраивается через .htaccess, но тег X-Robots HTTP-заголовка изменяется, давая поисковым системам инструкции, которые им не нужны для загрузки и понимания самого документа. Такие инструкции более содержательны, поскольку вам не нужно тратить ресурсы на проверку содержания. Более того, этот метод подходит для всех типов контента.
Он используется с теми же инструкциями, что и meta robots: sing, poindex, poarkhive, nоfоllоw и т.д. Существует два способа использования метки X-Robots. Первый — это использование RNR, а второй — настройка файла .htaccess.
Чтобы определить, проиндексирован ли сайт (страница, отдельный материал) в поисковой системе или нет, можно воспользоваться одной из следующих четырех возможностей.
- Yandex — основной робот-индексатор Яндекса.
- Googlebot — основной робот-индексатор от Google.
- Slurp — поисковый робот от Yahoo!.
- MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
- SputnikBot — имя робота российского поисковика Спутник от Ростелекома.
Прочие директивы в robots.txt #
- «Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5
- «Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /catalog/books.php
- «Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://pixelplus.ru/sitemap.xml
Закрыть страницу и сайт с помощью meta-тега name=»robots» #
4-й способ – Прописывание кода в настройках сервера
5-й способ – Использование X-Robots-Tag
Проверка индексирования сайта и отдельных страниц
- Через панель инструментов «Вебмастера». Это самый популярный вариант. Находим в меню раздел индексирования сайта и проверяем, какие страницы попали в поиск.
- С использованием операторов поисковиков. Если указать команду «site: url сайта» в строке поиска Google или «Яндекса», можно определить, какое примерное количество страниц попало в индекс.
- При помощи расширений и плагинов. Можно провести автоматическую проверку индексирования через специальные приложения. Лидер по популярности среди таких плагинов – RDS bar.
- Посредством специальных сторонних сервисов. Они наглядно демонстрируют, что попало в индекс, а каких страниц там нет. Есть и платные, и бесплатные варианты таких инструментов.