banner_nika_hozyaike      banner_pos_bekker     banner_specpredl_roznica_2

SEO Lexicon: Robots.txt и поисковая оптимизация

  1. содержание
  2. Что такое robots.txt?
  3. Зачем мне нужен robots.txt?
  4. Как мне установить файл robots.txt?
  5. robots.txt генераторы в интернете
  6. Таблица: Команды для robots.txt
  7. Как поисковые системы реагируют на заблокированный контент?
  8. SEO: что делать, если контент уже включен в индекс Google?
  9. Что произойдет, если я исключу страницы только через robots.txt?
  10. Является ли robots.txt гарантией того, что страницы не попадут в индекс Google?
  11. Инструменты Google для веб-мастеров: проверьте заблокированный контент

Robots.txt является важным инструментом для веб-мастеров и онлайн-маркетологов для контроля поисковых систем и исключения их из определенных сайтов. В этой вики-статье мы поговорим о robots.txt: что означает этот файл, как мне настроить robots.txt и что он делает для результатов поисковой системы?

содержание

robots.txt базовые знания

robots.txt и SEO

Если не указано иное, в данной статье для поиска используется поисковая система Google и ее робот Google.

Что такое robots.txt?

Файл robots.txt (произносится как « текст роботов ») - это файл в главном каталоге веб-сайта. Хотя это не официальный международный стандарт (такой как HTML 5) файл и его содержимое стали фактическим стандартом.

Цель файла robots.txt - дать сканерам и ботам инструкции о том, как вести себя на веб-сайте. В частности, исключение ботов из различных каталогов и файлов регулируется в файле robots.txt. Например, поисковые системы, такие как Google, предупреждаются, что они не должны или не должны посещать определенные веб-сайты и другой контент.

Зачем мне нужен robots.txt?

Как упоминалось ранее, robots.txt является важным инструментом для предотвращения доступа поисковых систем к определенному контенту. Поэтому мы блокируем поисковые системы, такие как Google, пытаясь получить критические страницы. К ним относятся:

  • Административное управление (бэкэнд),
  • Страницы с маршрутами бронирования и транзакций покупки,
  • временные каталоги и файлы,
  • Регистрационные и контактные формы,
  • Результаты поиска страницы
  • а также любой веб-сайт или файлы, которые мы явно не хотим видеть в индексе Google и Co.

Как мне установить файл robots.txt?

Настройка файла robots.txt очень проста.

  • Шаг 1 : Откройте текстовый редактор.
    • СОВЕТ : Мы рекомендуем программу → Notepad ++ , но и нормальный редактор (Блокнот) под Windows прекрасно работает для него.
    • ПРИМЕЧАНИЕ . Microsoft Word и другие приложения для создания документов (например, Open Office Writer) не подходят для создания файла robots.txt!
  • Шаг 2 : Вставьте соответствующие команды, которые мы будем ссылаться на → Таблица: Команды для robots.txt входить
  • Шаг 3 : Сохраните файл как robots.txt.
  • Шаг 4 : Загрузите файл robots.txt в главный каталог вашего сайта.
    • Пример: https://nextlevelseo.de/robots.txt
    • ПРИМЕЧАНИЕ : файл robots.txt не входит в подпапки. Загрузка файла robots.txt здесь не имеет смысла. (Пример:

robots.txt генераторы в интернете

Чтобы быстро и легко создать файл robots.txt для Google и других поисковых систем, мы рекомендуем два веб-генератора, с помощью которых можно легко создать файл robots.txt:

Таблица: Команды для robots.txt

Давайте теперь обратимся к командам, которые мы можем поместить в robots.txt. Он построен по последовательной схеме. Поэтому обратите внимание на точный стиль написания (прописные и строчные буквы) и на тот факт, что одна команда на строку может быть сохранена. Ниже таблицы вы найдете примеры как все это выглядит в конце концов.

SMARTPHONE NOTE В данный момент отображаются только самые важные описания. Если они вас смущают, попробуйте открыть страницу на вашем ПК. Там вы получите табличный обзор, который легче понять. 😉

Команда Описание # Ромб символизирует заметку . Для ботов это означает, что они игнорируют все в этой строке от алмазного знака. Таким образом, вы можете прикрепить свои собственные примечания к командам, чтобы быстрее находить нужные места при внесении изменений.Если ромб находится в начале строки, вся строка игнорируется. Пример: # Это примечание. * Символ звезды (или знак умножения) является подстановочным знаком, подстановочный знак означает, что на его месте может быть что-то вместо символа звезды. Так что любая часть URL. User-agent: * Если строка начинается с user-agent: * , это означает, что все боты, начинающиеся с этой строки, должны учитывать приведенные ниже команды. Символ звездочки (или знак умножения) представляет всех ботов как подстановочный знак, так что все Боты обращены. User-agent: Googlebot начинает строку с user-agent: Googlebot , поэтому только Google Bot имя. Только он должен учитывать следующие строки, пока не появится новый пользовательский агент: - пока не появится новая строка, начинающаяся с пользовательского агента:. Другие сканеры и боты не учитывают команды в них. Вместо робота Google, вы также можете выборочно командовать другими ботами:

  • Агент пользователя: изображение Googlebot
  • Пользователь-агент: Bingbot
  • Пользователь-агент: Yahoo! чавкать
  • Пользователь-агент: Яндекс.Бот

Список веб-сканеров и ботов можно найти здесь: useragentstring.com

Disallow: / Если строка начинается с Disallow: это означает, что ранее упомянутым роботам и сканерам не разрешается вводить путь или область URL, прикрепленную к нему. Это, так сказать, знак остановки для соответствующих адресов ботов. ПРИМЕЧАНИЕ . Если подстановочный знак (символ звезды / знак умножения) не установлен, применяется следующее:

  • В этом примере ботам запрещено извлекать страницы, начинающиеся с /.
  • Это НЕ означает, что ботам запрещен доступ к странице, которая в точности совпадает с тем, что было внесено на хранение. Вы должны использовать следующую команду со знаком доллара:

Disallow: /index.php$ Знак доллара в конце пути или файла говорит, что боты заканчиваются на знаке доллара. В этом случае index.php в главном каталоге не учитывается.Если в index.php есть что-то еще в URL-адресе - как, например, с URL /index.php?id=123 - боты снова рассмотрят эту страницу. Работает только с Googlebot Yahoo! Slurp, msnbot Disallow: / temp / В этом случае соответствующим ботам запрещено сканировать папку / temp /, а также все файлы и содержимое в ней. Таким образом, структуры папок могут быть заблокированы от доступа поисковыми системами. Disallow: /admin.php Блокирует файл admin.php для всех ботов и сканеров и всех подстраниц, генерирующих страницу. Пример: Disallow: /*.doc Эта команда указывает, что боты и сканеры не могут экспортировать файлы из Введите .DOC для чтения. Еще примеры:

  • Disallow: /*.pdf
  • Disallow: /*.jpg
  • Disallow: /*.mp4
  • Disallow: /*.xls

Disallow: /
Разрешить: / website / bots обычно проверяют robots.txt сверху вниз. Если раздел был ранее заблокирован (как и весь веб-сайт), но ниже указано « Разрешить»: общая папка, боты и сканеры проверят папку / website / и включат ее в индекс. Работает с: Googlebot, Ask.com, Yahoo! Slurp, msnbot (другие боты могут игнорировать порядок!) Карта сайта: <Robots> Файл robots.txt также можно использовать для хранения карты сайта XML. Таким образом, боты и сканеры знают об этом и будут проверять файл Sitemap XML, чтобы быстрее включать их содержимое в индекс. Пример: задержка сканирования: <SECONDS> Специально для Yahoo! и MSNbot:
Их боты могут быть проинструктированы сканировать через определенные промежутки времени новую страницу. пример:

  • Задержка сканирования: 300 # 300 секунд = каждые 5 минут

Сначала файл robots.txt без объяснений, а затем файл с пояснениями, помеченными как примечания.

SMARTPHONE ПРИМЕЧАНИЕ. Переверните телефон в альбомную ориентацию, чтобы увидеть местоположение файла robots.txt без ошибок. Если это уведомление не исчезнет, ​​снова посмотрите на страницу на вашем компьютере.

Пользователь-агент: *
О компании:
Disallow: / temp /
#
Пользователь-агент: Googlebot
Disallow: / загрузки /
Разрешить: / загрузки / изображения /
#
Пользователь-агент: discobot
Disallow: / * список.
#
Пользователь-агент: msnbot
Disallow: /.js$

А теперь тот же robots.txt с примечаниями для объяснения. Заметки также могут быть включены в robots.txt, потому что боты и сканеры игнорируют заметки.

# robots.txt для веб-сайта
#
# Ромб в начале строки
# говорит, что это один
# Комментарий и боты
# не в этой области
# следует учитывать.
#
Пользователь-агент: *
# все боты
#
О компании:
# Хранит карту сайта для
# Гусеницы и боты
#
Disallow: / temp /
# папка / temp / будет для всех
# Боты заблокированы
#
Пользователь-агент: Googlebot
Disallow: / загрузки /
# Googlebot не допускается в
# Папка / загрузка /
Разрешить: / загрузки / изображения /
# Googlebot все еще разрешен в
# папка / uploads / images /
#
Пользователь-агент: discobot
Disallow: / * список.
# Возможно, на дискотеке нет файлов
# и откройте страницы с этим списком.
Включить # в URL.
# Подстановочный знак (* знак) говорит
# что не имеет значения, что происходит
# Список. расположен.
#
Пользователь-агент: msnbot
Disallow: /.js$
# Бот MSN разрешен для JavaScript
# не открывать. Однако только
# если файлы заканчиваются на .js.
# Все еще стоит за этим
# что-то вроде
# script.js? date = 20141220, тогда
# бот MSN становится файлом
# Поиск.
#
# КОНЕЦ

Как поисковые системы реагируют на заблокированный контент?

Robots

Стоп знак. Фото: Мишель Кинси Брунс (CC BY 2.0)

Для Google и других поисковых систем, а также для любого целевого бота и сканера заблокированный контент - это как знак остановки. Вам не разрешено посещать эти сайты и вы не будете делать это обычно. В результате страницы, заблокированные файлом robots.txt, больше не будут просматриваться роботом Googlebot и другими сканерами и ботами.

Тем не менее, robots.txt скорее следует понимать как особо важное примечание для роботов и гусеничных машин любого типа. В то время как крупные провайдеры, такие как Google, следуют правилам дорожного движения (символический знак остановки), другие мелкие хулиганы не делают этого автоматически.

Кроме того, блокировка контента не является гарантией не включения в индекс поисковых систем. Если страница внутренне связана, поисковые системы предпочитают использовать текст ссылки в качестве заголовка результата поиска. Но поскольку страницы не сканируются, поисковые системы игнорируют контент, как noindex. Вы можете найти больше об этом в статье → SEO тест: читает ли Google заблокированный контент через robots.txt?

Тем не менее, основные и основные поисковые системы придерживаются его.

SEO: что делать, если контент уже включен в индекс Google?

Если в индексе Google есть страницы, которые вы бы предпочли не указывать в индексе, не следует немедленно блокировать файлы и каталоги с помощью robots.txt. Потому что исключение ботов и сканеров не означает, что поисковые системы автоматически удаляют контент из индекса.

Лучше тогда следующая процедура:

  • Шаг 1 : Установите нужные страницы на Noindex.
  • Шаг 2. Повторно сканируйте нужные страницы, используя Инструменты Google для веб-мастеровСканированиеВыбрать как Google .
    • Необязательный шаг. Сделайте то же самое с помощью инструментов Bing для веб-мастеров.
  • Шаг 3. Удалите URL- адреса в Инструментах Google для веб-мастеров. Перейдите в Индекс GoogleУдалить URL-адреса.
  • Шаг 4. Подождите, пока URL-адреса будут фактически удалены.
  • Шаг 5 : Заблокируйте пути и файлы через robots.txt

Что произойдет, если я исключу страницы только через robots.txt?

Результаты поиска могут продолжать появляться. Тем не менее, описание не выдается, но примечание:

Из-за robots.txt этого сайта, нет описания для этого результата. дальнейшая информация

Результат поиска Google был заблокирован файлом robots.txt

Является ли robots.txt гарантией того, что страницы не попадут в индекс Google?

Нет . Боты и сканеры не обязаны следовать инструкциям в файле robots.txt. Они как знак остановки, которого придерживаются большинство ботов и сканеров. Это не совсем барьер.

Тем не менее: большинство крупных интернет-сервисов придерживается этого интернет-StVO.

Инструменты Google для веб-мастеров: проверьте заблокированный контент

Чтобы проверить, правильно ли Google оценивает файл robots.txt и правильно оценивает сохраненный файл robots.txt, вы можете обратиться к Инструментам Google для веб-мастеров.

txt, вы можете обратиться к Инструментам Google для веб-мастеров

Инструменты Google для веб-мастеров: robots.txt Tester

В разделе Сканированиеrobots.txt тестером является robots.txt, как в последний раз проверял Google. Если вы хотите внести новые изменения или уже внесли изменения, вы можете заполнить поле новыми настройками.

Затем вы можете проверить URL-адреса с разными ботами в Инструментах Google для веб-мастеров.

  • Если URL заблокирован, он также указывает, какая строка его блокирует.
  • Если URL не заблокирован, кнопка «Тест» становится зеленой кнопкой «Одобрено».

Ссылки

Наш магазин

Сезонные товары

Icon    Доставка в течение дня
Icon    Работаем с 09:00 до 18:00 кроме выходных
Icon    Возврат в течении 14 дней
Icon    Гарантия на все товары