Problém blokování souborů JS a CSS v robots.txt u webů běžících na WordPressu

Na anglických diskuzích se množí dotazy uživatelů WordPressu ohledně oznámení ze Search Console, že na jejich webu je blokován pro roboty důležitý obsah.

(Pozn.: Jak upozornil Marián Kábele v komentáři, tato záležitost se netýká jen WordPressu, ale celé řady dalších redakčních systémů.)

Mně také včera přišla zpráva ze Search Console:

search console blokace js a css

 

Robots.txt u tohoto webu vypadá následovně:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

 

Problém zde představuje zejména blokování /wp-includes/, jelikož v této složce se objevují soubory JavaScriptu.

U některých šablon se může v robots.txt objevovat i blokace složky /wp-content/, která zase obsahuje např. soubory CSS.

Nejjistějším řešením je ponechat soubor robots.txt čistý a robotům neblokovat žádné složky (samozřejmě kromě těch, jejichž procházení je cíleně blokováno). Složku /wp-admin/ můžete ponechat blokovanou, ale je to poměrně zbytečné. Tato stránka obsahuje meta tag robots s hodnotou noindex, takže by ji Google neměl ani indexovat.
Pokud budete zakládat nový web na WordPressu, doporučuji toto defaultní nastavení zkontrolovat a popř. rovnou opravit.

6 komentářů

You can post comments in this post.


  • Ahoj Maruško,

    takže doporučuješ zrušit obě „disallow“ a nechat pouze „User-agent: *“ ?

    Má pak robots.txt vůbec smysl?

    M.

    Miloš 2 roky ago


    • Čau Miloši, tak klasicky vypadá robots.txt následovně:
      User-agent: *
      Disallow:

      Disallow se tedy nechává prázdné, čímž se robotům sděluje, že mají přístup všude. Je pravda, že v takovém případě soubor robots.txt není potřeba – pokud v něm nechceš odkázat na Sitemapu :)

      Marie Štouračová 2 roky ago


  • Nemáš zkušenost naopak s tím, že Google nenačte styly, ke kterým má povolen přístup, viz https://nimbus.everhelper.me/client/notes/share/256086/kJhGc8cUk31fLzWbiEo4hpWuF8tuhKSP, přičemž je ale zase za pár minut normálně vezme: https://nimbus.everhelper.me/client/notes/share/256088/vQgS37eCYGUzH17yUZhkAlnEubvgV0qg ? Může to být přílišnou velikostí stránky, kdy robot přestane stahovat data?

    Marek Hnátek 2 roky ago


    • Marku, přímou zkušenost s tímto nemám, ale trochu jsem pátrala a status „Dočasně nedostupné“ značí jen nějakou momentální chybu v komunikaci mezi serverem a samotnou simulací robota. Neznamená to tedy, že bys měl na webu nebo na serveru chybu. Řekla bych, že pokud by tam byla skutečná chyba, status by vypadal jinak, např. přímo „Nedostupné“. Viz dokumentace Google, v části Stavy načtení a vykreslení: https://support.google.com/webmasters/answer/6066468?hl=cs&rd=2

      Marie Štouračová 2 roky ago


  • Stejná situace je i u CMS Joomla a Drupal, asi u jiných redakčáků.

    Ale jak poznat, do jaké složky robotovi přístup povolit, a do jaké je to už bezpečnostní kamikadze?

    Například u mého webu vypadá robots.txt takto: http://www.mariankabele.com/robots.txt

    Marián K. 2 roky ago


    • Mariáne, díky za připomínku. Upozornila jsem na to poznámkou v článku. Trochu jsem googlila a skutečně se tento problém vyskytuje i na jiných systémech.
      K Vaší otázce: Čeho přesně se bojíte? Citlivý obsah, který je součástí správy systému, bývá zaheslovaný, takže se k němu robot nedostane. Navíc obecně robots.txt není zákon, roboti jej nemusí respektovat (obzvláště různí malware a spam roboti). A pokud Vám bude chtít uškodit nějaký člověk, tak si najde způsob sám (a asi bude velmi znalý toho, kde se v redakčních systémech citlivý obsah nachází), bez ohledu na robots.txt :-)

      Marie Štouračová 2 roky ago


Comments are closed