Robots.txt – do czego służy i jakich błędów unikać przy jego tworzeniu?

Spis treści

Plik robots.txt to jeden ze sposobów wpływania na działanie robotów, które przeglądają strony internetowe. Warto dowiedzieć się o nim więcej i poznać najczęściej popełniane błędy przy jego tworzeniu i płynące z nich konsekwencje.

Czym jest plik robots.txt?

Plik robots txt co to dokładnie jest? Jest to sposób wpływania na podejmowane działania robotów Google. Polega on na przekazaniu robotom i programom informacji dotyczących tego, co powinny one robić na danej stronie internetowej, a czego nie. Polecenia wysyłane są za pośrednictwem standardu Robots Exclusion Protocol. Wśród podstawowych zapisów wyróżnić można na przykład komunikaty o określonych fragmentach stron www, których roboty nie powinny przeglądać.

Czym jest protokół Robots Exclusion Protocol?

Robots Exclusion Protocol powstał w lutym 1994 roku i praktycznie nie uległ on żadnym zmianom. Jest on nieoficjalnym standardem i dość nietypowym ze względu na to, że jest on przede wszystkim sugestią. Roboty mogą się do niego zastosować, ale nie muszą. Zazwyczaj jest tak, że w ogóle go nie respektują bądź respektują go tylko częściowo.

Plik robots.txt – do jakich robotów jest kierowany?

Plik robots txt przeznaczony jest wszystkim automatom wchodzącym na określoną stronę internetową. Oznacza to, że dotyczy on nie tylko tych najbardziej oczywistych – robotów wyszukiwarek. Dyrektywy tego pliku adresowane są również do botów:

  • automatów archiwizujących internet (na przykład Web Archive);
  • programów pobierających witrynę www na dysk lokalny (na przykład HTTrack Website Copier);
  • narzędzi do analizy strony internetowej (na przykład narzędzia SEO – Xenu, Ahrefs, Mejestic SEO).

W jakim celu stosowany jest plik robots.txt?

Wiedząc, że zapisy tego pliku nie zawsze są respektowane, warto poznać przykłady, dla których polecane jest stosowanie pliku robots txt. Trzeba tu przede wszystkim zaznaczyć, że zawsze lepiej jest mieć przynajmniej niewielką kontrolę nad robotami, niż w ogóle jej nie posiadać. Dzięki czemu można nie dopuścić automatów do przeglądania konkretnych części stron, których z jakichś powodów, nie powinny widzieć. Przyczyn blokady określonych obszarów strony internetowych jest wiele, można tutaj wyróżnić między innymi:

  • kwestie bezpieczeństwa – zdarza się, że właściciel strony internetowej nie chce, żeby roboty czy też dalsi użytkownicy zaindeksowanych zasobów mieli dostęp do jakiejś szczególnej sekcji danych;
  • oszczędność transferu – stosując zapisy robots txt, można spróbować usunąć całe podkatalogi lub jakieś rodzaje plików ze ścieżek, którymi wędrują boty;
  • zabezpieczenie przed duplicate contentem – posiadając na stronie internetowej dużo wewnętrznie powielonego contentu, którego schemat adresów URL umożliwia jego jasne zidentyfikowanie i stosując zapisy robots txt google czy też inne automaty, otrzymują podpowiedź, wskazówkę dotyczącą tego, żeby nie przeglądać tych konkretnych obszarów;
  • optymalizację crawl budgetu – blokując nieistotne obszary dla pozycjonowania, zwiększa się prawdopodobieństwo, że roboty będą przeglądały to, co powinny.

Podstawowe dyrektywy pliku robots.txt

Plik robots txt to plik tekstowy, który umieszczany jest w głównym katalogu serwisu danej strony internetowej. Jedną z podstawowych dyrektyw jest: user-agent, w której określa się to, do jakich botów kierowana jest dana reguła. Wśród pozostałych dyrektyw wyróżnia się:

  • dyrektywy allow i disallow – wskazują obszary, do których automaty powinny mieć dostęp lub nie powinny;
  • dyrektywę sitemap – służy do umiejscowienia mapy strony internetowej, można wskazać więcej niż jedną ścieżkę mapy, co polecane jest przy rozbudowanych witrynach;
  • dyrektywę crawl-delay – służy do przekazywania informacji robotom o tym, że nie powinny one pobierać żadnych nowych plików częściej niż na przykład co kilka sekund;
  • dyrektywę clean-param – czytana jest przez boty wyszukiwarki Yandex, zezwala na ignorowanie konkretnych parametrów we wskazanych ścieżkach;
  • dyrektywę host – jest to niestandardowa dyrektywa robots txt, ignorowana jest ona przez większość wyszukiwarek, służy do wskazania preferowanej domeny w sytuacji posiadania kilku mirrorów będących pod różnymi adresami.

Jak stworzyć plik robots.txt?

Plik robots txt można stworzyć na różne sposoby. Jednym z nich jest zapisanie go ręcznie lub wygenerowanie do za pomocą jakiegoś zewnętrznego narzędzia. Można również go stworzyć w formie dynamicznej za pomocą swojej strony internetowej. Każdy z tych sposobów jest łatwy i nie wymaga posiadania specjalistycznej wiedzy. Jednak ręczne tworzenie pliku jest najprostsze i najpopularniejsze. Polega ono na utworzeniu zwykłego pliku z rozszerzeniem txt i następnie wypisaniu w nim wszystkich user-agentów i reguł ręcznie. Wymagana jest tutaj jedynie znajomość działania pliku, jak i jego składni. Jeśli ktoś nie posiada takiej wiedzy, to powinien skorzystać z pomocy generatora. Potrzebne będą tutaj tylko informacje o tym, które roboty chce się zablokować i jakie reguły chce się zastosować.

Co jest istotne przy tworzeniu pliku robots.txt?

Przy tworzeniu pliku robots.txt warto pamiętać między innymi o tym, że:

  • trzeba wskazać, do jakich robotów ma on zastosowanie;
  • trzeba wskazać, do których katalogów i plików powinny lub nie powinny mieć dostępu roboty;
  • roboty rozróżniają wielkości liter zapisanych w regułach;
  • reguła dotycząca konkretnego katalogu musi zakończyć się znakiem: “/”;
  • w jednym wierszu może znajdować się tylko jedna reguła;
  • reguła dotycząca określonej strony internetowej musi zawierać jej pełną nazwę.

W jaki sposób sprawdzić plik robots.txt?

Stworzony plik robots txt można sprawdzić. Dzięki czemu można się dowiedzieć, czy został on poprawnie napisany oraz, czy boty zastosują się do jego zapisów. Można to zrobić za pomocą narzędzia, które jest dostępne w Google Search Console. Umożliwia ono weryfikację tego, czy poszczególne adresy URL będą przeglądane przez roboty. Można w nim również powiadomić Google o tym, że wprowadziło się zmiany i poprosić o zaindeksowanie zmienionego pliku robots.txt.

Jakie błędy są najczęściej popełniane przy stosowaniu pliku robots.txt?

Niestety plik robots txt może również wiązać się z negatywnymi konsekwencjami, na przykład:

  • jeśli wykluczy się z wyszukiwania zawartość, która powinna być w indeksie – efektem będzie utrata widoczności danej strony w rankingu;
  • jeśli obejmie się dyrektywą disallow wszystkie obrazki, style CSS, pliki Javascript – efektem będzie niepokazywanie grafik w wyszukiwaniach czy też niedopuszczenie bota do istotnych plików do uzyskania wyglądu końcowego strony, co może sprawić, że będzie ona niepełna i również może to wpłynąć na pozycję w rankingu;
  • jeśli zastosuje się nieodpowiednie dyrektywy lub zapisy, to można niechcący zablokować częściowo lub całościowo dostęp do strony internetowej.

O czym pamiętać stosując plik robots.txt?

Warto tutaj jeszcze wspomnieć o kilku ważnych kwestiach, a mianowicie:

  • plik robots txt nie jest zabezpieczeniem dostępu do zasobów danej strony internetowej, jeśli chce się odpowiednio zabezpieczyć te dane, to trzeba zastosować właściwe uwierzytelnianie;
  • googlebot może indeksować nawet zablokowane adresy URL, dzieje się tak w sytuacji, gdy natrafi na nie na innych witrynach w postaci odnośnika;
  • wiele robotów nie stosuje się do zapisów pliku robots.txt, na przykład roboty odpowiedzialne za poszukiwanie dziur w zabezpieczeniach witryn internetowych mogą je ignorować (podobnie jest z automatami, które gromadzą między innymi dane teleadresowe);
  • niektóre roboty bardzo szybko pobierają strony internetowe do sprawdzenia, co wiąże się z obciążeniem serwera, dlatego polecane jest zablokowanie user agentów takich botów czy też ich adresów IP;
  • plik robots txt jest przydatny tylko, gdy strona internetowa zawiera treści, które chce się ukryć przed wyszukiwarkami, więc jeśli wyszukiwarka ma indeksować całą witrynę, to jest on zbędny.

Czy blokada strony internetowej w pliku robots.txt jest wystarczająca?

Blokada strony internetowej w pliku robots.txt nie jest wystarczająca. Roboty wyszukiwarek nie zawsze odczytują zakazy, a nawet po ich odczytaniu mogą wejść na daną stronę www i dodać ją do indeksu, poprzez uwzględnienie tylko jej tytułu i adresu URL. Co oznacza, że nadal można trafić na taką witrynę z poziomu wyszukiwarki, mimo tego, że jest to mało prawdopodobne.

Co można zastosować oprócz pliku robots.txt?

Oprócz pliku robots.txt można dodatkowo zastosować meta znacznik robots, który należy umieścić w sekcji <HEAD> poszczególnych podstron. Warto tu jednak zaznaczyć, że ta metoda nadal nie daje 100% gwarancji, ale jest dodatkowym sygnałem dla robotów. Innym rozwiązaniem jest objęcie strony hasłem, ale jest to całkowita blokada dostępu do strony internetowej. Można również sięgnąć po półśrodki w formie zablokowania dostępu do wywołań z konkretnych adresów i klas IP – używanych przez roboty wyszukiwarek.

Warto stosować plik robots.txt, trzeba tylko pamiętać, aby robić to umiejętnie, ponieważ łatwo można popełnić błąd, co będzie się wiązało z negatywnymi skutkami, na przykład utratą widoczności strony internetowej w wynikach wyszukiwania.

    Wysyłając formularz wyrażam zgodę na przetwarzanie moich danych przez Neutrino w celu kontaktu bezpośredniego.
    Przeczytaj również
    Dodaj komentarz

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Skontaktuj się z nami