среда, Ноябрь 05, 2008

Яндекс и robots.txt

Похоже, что все-таки лыжи не едут. Летом добиться от Яндекса сколько-нибудь вменяемой работы с robots.txt у меня не получилось. Убрал все строчки, которые он мог бы обрабатывать и сайт довольно быстро вернулся к номальной работе, посещаемости и индексируемости.

На праздниках у меня было немного свободного времени и я немного поизучал этот вопрос. Есть у мен еще два сайта, на них установлен Wordpress. Wordpress сам генерирует по запросу файл robots.txt и отдает примерно такое содержимое:

User-agent: *
Disallow:

На одном сайте я довольно давно заблокировал выдачу robots.txt, на втором – оставил все как есть. Отслеживаю оба сайта в Яндекс.Вебмастере. Сайт с заблокированным robots.txt проиндексирован, какое-то количество страниц есть в индексе, в общем все хорошо. Второй сайт, который отдает robots.txt, роботами Яндекса посещается, но страниц в индексе – 0 (ноль).

На выходных посмотрел несколько явно спамных сайтов на Wordpress – у большинства выдача robots.txt тем или иным способом заблокирована. Чаще всего просто стоит редирект на главную страницу – закомменирован соответствующий блок в файле rewrite.php.

Очень похоже, что я не единственный наступающий на эти грабли и проблема довольно распространенная.

Поскольку я Wordpress обновляю время от времени, помнить о необходимости комментировать строчку мне лень. Я блокирую выдачу robots.txt в файле .htaccess, добавляя еще одно правило RewriteRule. Блок с mod_rewrite в .htaccess получается такой:

<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteBase /
  RewriteCond %{REQUEST_FILENAME} !-f
  RewriteCond %{REQUEST_FILENAME} !-d
  RewriteCond %{REQUEST_FILENAME} !robots.txt
  RewriteRule . /index.php [L]
</IfModule>

Добавил такое-же правило и сайту, у которого выдача robots.txt заблокирована не была. Понаблюдаю динамику.