→ Блокирование плохих ботов и расхитителей сайта (типа автономные браузеры).

Когда я нашла и бегло прочитала одну статью, потом нашла еще парочку подобных статей в интернете, то вспомнила про статью VladSavitsky - «Неожиданный дубль сайта DrupalCookBook.ru» и пришла к выводу, что это как раз то, что нужно, чтобы защитится от такой наглости.

Блокирование плохих ботов приведет к:

  • защите email адресов
  • большой экономии трафика
  • снижение нагрузки на сервер до минимума (блог стал летать)
  • защите от копирования (и/или клонирования) вашего сайта
  • и т.п.

Ниже вы найдете файл-список с 178-ю ботами.

Определение "плохой бот" ("bad bot") меняется в зависимости от того, кого вы спрашиваете, но большинство бы согласилось, что они - пауки, которые приносят больше вреда, чем пользы для вашего сайта (то есть: почтовый комбайн (an email harvester)). Расхитители сайта (site ripper) с другой стороны автономно просматривает программы, которые серфер может выпускать на вашем сайте, чтобы ползать и загружать каждые из его страниц для автономного просмотра. В обоих случаях, и пропускная способность вашего сайта и использование ресурса в результате поднимаются иногда до грани падения вашего сервера. Плохие боты обычно игнорируют пожелания файла robots.txt, таким образом вы захотите запретить их используя средства, типа .htaccess. Уловка должна идентифицировать плохого бота.

Ниже файл .htaccess с полезным блоком кода, который вы можете вставить в файл .htaccess для того, чтобы блокировать много известных плохих ботов и расхитителей сайта (site rippers) прямо от туда. Это получено из моего (автора оригинальной статьи) чтения превосходного обсуждения "A close to perfect .htaccess file" (Приближаясь к совершенному .htaccess файлу), а так же, "A close to perfect .htaccess file II". Просто добавьте необходимый код из приложенного файла htaccess.txt в ваш .htaccess файл.

Все упомянутые в файле боты, получат ошибку 403 Forbidden (Запрещено), при попытке рассмотреть ваш сайт. В результате во многих случаях это может существенно сберечь количество пропускной способности и уменьшить использование ресурса сервера.

Также ботов можно просто послать, тогда используйте следующее:

RewriteRule /*$ http://www.site-you-are-sending-the-bot-to.com [L,R]

Имейте в виду - это не должен быть www.вашсайт.ru, это должно быть www.сайт-куда-вы-хотите-послать-ботов.com (вместо http://www.site-you-are-sending-the-bot-to.com)

Отметьте, что копировать весь список приведенных ботов в ваш .htaccess файл полностью не обязательно и вы делаете это на свой страх и риск. Лучше всего изучить список и/или поискать в интернете определения для ботов, о которых вы ничего не знаете, чтобы избежать блокировки нужных вам ботов.

Бороздя интернет и "требуя продолжения банкета", я нашла довольно хороший бесплатный сервис, который я рекомендую посмотреть, с целью ознакомления с этими плохими, тормозящими сайты ботами. На их сайте можно прочитать про каждого указанного там бота (на английском), и выбрать ботов, которым вы хотите запретить доступ к вашему сайту, там также упомянут и Синхронизатор Internet Explorer (MSIECrawler), которого нет а приведённом списке. После чего генерируется код для htaccess файла. На следующем шаге, вы можете протестировать реакцию ботов на ваш новый htaccess файл.

Сервис BotSense находиться… соответственно на http://www.botsense.com, сервис старенький и думаю скорее для ознакомления

Эта статья и список ботов основаны на материале:

ПредпросмотрВложениеРазмер
htaccess-blocklost-178-1.zip1.87 КБ
RSS-материал

12 Комментариев [Нет новых]

Аватар пользователя Влад Савицкий

Отличный дизайн сайта - мне понравился. Даже очень!
Статья достаточно подробная и емкая.
Пожалуй запишу себе в задачи ознакомиться с ботами и посмотреть логи сервера на наличие плохих ботов.

Аватар пользователя KoluX

очень интересная статья, мне она пригодится

Аватар пользователя joencross

Интересно, спасибо. Пишите новые посты, куда пропали-то?

Аватар пользователя EllECTRONC

@joencross: Пишу, пишу… блог будет обновляться по мере возможности, т.е. зависит от наличия свободного времени и настроения…
Подпишитесь на основную RSS-ку и вы будете знать о появлении нового поста, и не нужно будет заходить в блог на угад!

Аватар пользователя Pypeeffedbara

Полезная статья

Аватар пользователя Модница

Вообще тема интересная. Ну если не считать некоторые грамматические ашипки автора. )) Добавила ваш блог в закладки, стала постоянным читателем Улыбка

Аватар пользователя ingumsky

Спасибо! Очень полезный материал.

Аватар пользователя Андрей

А как быть в wget, который запускает cron на том же сайте? Нужно, наверное, локальный wget все же пропускать…

Аватар пользователя EllECTRONC

А каким образом он у вас блокируется?

Аватар пользователя Андрей

Может я, конечно, чего-то не понял… Но если к http : // site. domain / cron.php обращаться через wget, то в теории .htaccess должен же его идентифицировать, блокировать по HTTP_USER_AGENT …. или я чего-то не понимаю?

Аватар пользователя EllECTRONC

Дошло о чем вы. Ну в вашем варианте либо не запрещать wget, либо для запуска хрона не использовать wget, и запускать его используя другой способ (curl, lynx, php).

Что ты об этом думаешь?

МультиВход
ИЛИ

Комментарии