Разработка сайта – Seo продвижение – Маркетинг

Логотип сайта веб-домик

Что такое robots.txt

  robots.txt – служебный файл, который находится в корневом каталоге сайта и содержит набор директив, позволяющих управлять индексацией сайта. Когда краулер приходин на хостинг , файл robots.txt является первым документом обращаясь к нему. 

  В robots.txt содержатся инструкции поисковым роботам какие URL адресов на вашем сайте им разрешено обрабатывать. С помощью него можно снизить нагрузку на сайт ограничив количество запросов на сканирование. Файл robots.txt не предназначен запрещать показ ваших материалов в результатах поиска Google, если хотите скрыть страницы сайта сделайте их по паролю или добавьте директиву noindex.

Robots.txt используется для исключения дубликатов, служебных страниц, удаленных страниц, и не нужных страниц из индекса поисковых систем. Через robots.txt можно подключить адрес карты сайта localhost/sitemap.xml . Рекомендации запретить при помощи robots.txt сканировать файлы : скрипты, стили, картинки если они не влияют на оформление страницы и не нужно что бы робот их посещал.

Если доступ к странице запрещен в файле robots.txt она все равно может быть проиндексирована по ссылкам с других сайтов. Google не будет напрямую  сканировать и индексировать контент, который заблокирован в файле robots.txt. Однако если на URL  ссылаются другие сайты, то он может быть найден и добавлен в результатах поиска ( с текстом ссылки на которую она ведет ).

Пример простого файла robots.txt с двумя правила:

User-agent: Googlebot

Disallow: /nogooglebot/

User-agent: *

Allow: /

Sitemap: https://webdomic.com/sitemap.xml

Пояснение:

  • Агенту пользователя с названием Googlebot запрещено сканировать любые URL, начинающие с Sitemap: https://webdomic.com/nogooglebot/
  • Любым агентам разрешено сканировать сайт целиком.
  • Файл Sitemap карты сайта находится по адресу https://webdomic.com/sitemap.xml

Файл robots.txt должен быть единственным и располагаться в корне сайта.

Для файлов robots.txt можно использовать URL с субдоменами, число директив не должно превышать 1024. Символ # предназначен для описания комментариев все что после символа и до первого перевода строки не учитывается.

Файл robots.txt имеет формат plain text в кодировке UTF-8 и называться robots.txt . Поле User-agent – директива определяет робота поисковых систем к которому относится правило индексации сайта.

Внутри директивы User-agent используют следующие правила:

В каждом правиле должна быть одна директива Disallow: (Запретить) или Allow: (Разрешить) .

Disallow: Указывает на каталог или страницу в корневом домене, которые нельзя сканировать поисковым роботом. Если это каталог путь к нему заканчивается слешем.

Allow: Директива указывает на каталог или страницу в корневом домене, которые нужно сканировать поисковым роботам.

Пример моего файла robots.txt для Google и Yandex:

User-agent: Googlebot
Allow: /wp-admin/admin-ajax.php
Allow: /*/uploads/
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-*.svg
Disallow: /wp-admin/
Disallow: /cgi-bin/
Disallow: /?/
Disallow: /wp-/
Disallow: /*?s=/
Disallow: /*&s=/
Disallow: /*?attachment_id=/
Disallow: /*/trackback/
Disallow: /*/feed/
Disallow: /*/rss/
Disallow: /*/embed/
Disallow: /author/
Disallow: /wp-json/
Disallow: /*/xmlrpc.php
Disallow: /*/page/
Disallow: /search/
Disallow: /*utm*=/
Disallow: /*openstat=/

User-agent: Yandex
Allow: /wp-admin/admin-ajax.php
Allow: /*/uploads/
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-*.svg
Disallow: /wp-admin/
Disallow: /cgi-bin/
Disallow: /?/
Disallow: /wp-/
Disallow: /*?s=/
Disallow: /*&s=/
Disallow: /*?attachment_id=/
Disallow: /*/trackback/
Disallow: /*/feed/
Disallow: /*/rss/
Disallow: /*/embed/
Disallow: /author/
Disallow: /wp-json/
Disallow: /*/xmlrpc.php
Disallow: /*/page/
Disallow: /search/
Disallow: /*utm*=/
Disallow: /*openstat=/

Sitemap: https://webdomic.com/sitemap.xml

СЕГОДНЯ ЧИТАЮТ

Смарт приставка x98 mini 4GB/32 GB android 11
Новости мира технологий
Admin

Смарт приставка x98 mini 4GB/32 GB android 11

Смарт приставка x98 mini 4GB/32 GB android 11

Интернет телевидение смарт , бесплатно, без абонентской плати.
1000 каналов + база фильмы, сериалы, мультики
+Фильмы (400 каналов)
+Спорт(132 канала)
+Мультики(68 канала)
+Познавательные(126 канала)
+Канали для взрослых +18 (342 канала)
+ Музыкальные (129 каналов)
+База фильмов ( очень огромная )
+Дискавери
+Рыбалка
+Охота
+Машины
+Игры
Поддержка устройств: Телефон , планшет, телевизор
Страна и языки под ваш регион.

0
Читать полностью »
Написание статьи на заказ по доступной цене
IT услуги по сайту
Admin

Написание статьи на заказ по доступной цене

При написании статьи на заказ обязательно составляется техническое задание (ТЗ) – документ, где прописывается тематика текста, для какой аудитории, его объем в символах без пробелов, стиль подачи и т.д. Дается список ключевых слов, которые нужно вставить в текст, указывается желаемый процент уникальности, и другие технические показатели. Также определяется срок исполнения. Хорошо, если заказчик добавит в техническое задание ссылку на пример статьи, которая ему нравится. При его составлении лучше будет понятно, какой текст хочет заказчик.

0
Читать полностью »
areainfo Маркетинговое агентство
Новости мира технологий
Admin

Areainfo маркетинг

AREA INFO – маркетинговое агентство предоставляющее услуги в области веб разработки.
Специалисты реализуют в интернете торговые площадки и сайты для бизнеса под ключ.
Открывая свой сайт и загрузив вашу идею и бизнес в интернет, клиенты IT агентства увеличивают охват аудитории и видимость за пределы физического места нахождения.

0
Читать полностью »
5 1 голос
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
0
0
Оставьте комментарий! Напишите, что думаете.x
Прокрутить вверх