Semalt: Як блокувати Darodar Robots.txt

Файл Robots.txt - це типовий текстовий файл, який містить інструкції про те, як веб-сканери або боти повинні сканувати сайт. Їх застосування очевидно в пошукових системах, які часто використовуються в багатьох оптимізованих веб-сайтах. Як частина протоколу виключення роботів (REP), файл robots.txt утворює важливий аспект індексації вмісту веб-сайту, а також дозволяє серверу відповідно аутентифікувати запити користувачів.

Юлія Вашнева, старший менеджер з успіху клієнтів Semalt , пояснює, що посилання - це аспект оптимізації пошукових систем (SEO), який передбачає отримання трафіку з інших доменів у вашій ніші. Для посилань "слідувати" для передачі соку посилань, важливо включити файл robots.txt на свій веб-сайт, який хостить, щоб діяти як інструктор взаємодії сервера з вашим сайтом. В цьому архіві наведені інструкції, що дозволяють або забороняють поведінку деяких конкретних користувачів-агентів.

Основний формат файлу robots.txt

Файл robots.txt містить дві основні лінії:

User-agent: [ім'я користувача-агента]

Заборонити: [URL-адресу не сканувати]

Повний файл robots.txt повинен містити ці два рядки. Однак деякі з них можуть містити кілька рядків користувацьких агентів та директив. Ці команди можуть містити такі аспекти, як дозволу, заборона чи затримка сканування. Зазвичай існує розрив рядка, який розділяє кожен набір інструкцій. Кожна інструкція з дозволу або заборони розділена цим розривом рядка, особливо для robots.txt з кількома рядками.

Приклади

Наприклад, файл robots.txt може містити такі коди, як:

Користувач-агент: darodar

Відключити: / плагін

Відключити: / API

Відключити: / _комменти

У цьому випадку це блоковий файл robots.txt, який обмежує доступ веб-сканеру Darodar до вашого веб-сайту. У наведеному вище синтаксисі код блокує аспекти веб-сайту, такі як плагіни, API та розділ коментарів. На основі цих знань можна досягти численних переваг від ефективного виконання текстового файлу робота. Файли Robots.txt можуть виконувати численні функції. Наприклад, вони можуть бути готові:

1. Дозволити весь вміст веб-сканерів на сторінку веб-сайту. Наприклад;

Користувач-агент: *

Заборонити:

У цьому випадку до всього вмісту користувача може бути доступний будь-який веб-сканер, який вимагає перейти на веб-сайт.

2. Блокуйте певний веб-вміст із певної папки. Наприклад;

Користувач-агент: Googlebot

Заборонити: / example-subfolder /

Цей синтаксис, що містить ім'я агента користувача Googlebot, належить Google. Це обмежує доступ бота до будь-якої веб-сторінки в рядку www.ourexample.com/example-subfolder/.

3. Блокуйте певний веб-сканер із певної веб-сторінки. Наприклад;

Користувач-агент: Bingbot

Заборонити: /example-subfolder/blocked-page.html

Користувач-користувач Bing bot належить до веб-сканерів Bing. Цей тип файлу robots.txt обмежує веб-сканер Bing доступу до певної сторінки за допомогою рядка www.ourexample.com/example-subfolder/blocked-page.

Важлива інформація

  • Не кожен користувач використовує ваш файл robots.txt. Деякі користувачі можуть вирішити ігнорувати його. Більшість таких веб-сканерів включають трояни та зловмисне програмне забезпечення.
  • Щоб файл Robots.txt був видимим, він повинен бути доступний у каталозі веб-сайтів верхнього рівня.
  • Символи "robots.txt" залежать від регістру. Як результат, ви не повинні їх змінювати жодним чином, включаючи капіталізацію деяких аспектів.
  • "/Robots.txt" - це публічне надбання. Будь-хто може знайти цю інформацію, додавши її до вмісту будь-якої URL-адреси. Не слід індексувати важливі деталі або сторінки, які ви хочете, щоб вони залишалися приватними.