Налазване от нагли ботове и роботи

vandv

Member
Здравейте колеги, направо на темата :)
Налазиха ме много нагли и упорити ботове, роботи и т.н. Интернет сган :D

Capture.jpg

Най-голям трафик прави гоглето, ама с него ще се преборя, обаче как да се преборя с останалите? Подозирам онова руско копе*енце yandex ама като го знам че влиза от хиляда адреса май не мога да до изгоня.
Дайте съвет, как да се боря че и процесорното време взех да прескачам заради тия гадове.

Има ли някакъв шанс през .httaces да спра всички гадове и да оставя само гогле, мсн, и яху?
 
От: Налазване от нагли ботове и роботи

Yandex си признава, че е той и може да му забраниш да те посещава, като напишеш инструкции в robots.txt. С този файл обаче не се съобразяват наглите ботове, тях само с .htaccess правила можеш да ги блокираш (освен ако не се представят за Firefox или друг браузър - тогава не можеш да ги различиш от обикновен браузър, освен по IP адрес).
 
От: Налазване от нагли ботове и роботи

cisco.gif

Към автора:

User-agent: *
Disallow: /дир/
Disallow: /събдир/
Disallow: /събдир2/

Надявам се схвана :)
 
От: Налазване от нагли ботове и роботи

Много грешни съвети му даваш :). Той иска да ограничи посещенията от ботове, crawler-и и scraper-и за целия сайт, а не за конкретна директория. Още повече, че част от азиатските ботове и разните му там псевдоSEO услуги изобщо не се поддават на манипулации през robots.txt. Този файл се чете и се съобразяват с него само google, yandex, yahoo и bing. Цялата азиатска паплач посещаваща те от Китай и Индия го пренебрегва. Един филтър на логовете може да ти изведе IP-тата, които правят най-много заявки към сайта. От там почваш да ги проверяваш кое IP, на кой бот е и след това блокиране по User-Agent и IP през .htaccess. През последните седмици се наблюдава агресия от страна на msnbot, особенно като захапе някой tag-cloud почва да рекуества всеки таг паралелно с останалите и се случват един фоерверки.
 
От: Налазване от нагли ботове и роботи

Много грешни съвети му даваш :). Той иска да ограничи посещенията от ботове, crawler-и и scraper-и за целия сайт, а не за конкретна директория. Още повече, че част от азиатските ботове и разните му там псевдоSEO услуги изобщо не се поддават на манипулации през robots.txt. Този файл се чете и се съобразяват с него само google, yandex, yahoo и bing. Цялата азиатска паплач посещаваща те от Китай и Индия го пренебрегва. Един филтър на логовете може да ти изведе IP-тата, които правят най-много заявки към сайта. От там почваш да ги проверяваш кое IP, на кой бот е и след това блокиране по User-Agent и IP през .htaccess. През последните седмици се наблюдава агресия от страна на msnbot, особенно като захапе някой tag-cloud почва да рекуества всеки таг паралелно с останалите и се случват един фоерверки.

Еми то и въпроса му е такъв. Да стига до там да блокира всички ботове, защото процесорното време не стигало :D... Като иска да си играе, има бази данни из нета с айпитата им и да ги спира 1 по 1. За мен е безмислено. Ако чак пък толкова е проблем, да блокира цели държави или съб мрежи и ще се оправи работата :lol: И с пхп лесно ще изкара списък.

За мен винаги robots.txt е било повече от достаъчно.

P.S. - ако беше с Nginx щеше да му е в пъти по-лесно, там става с една директива само и бот няма да видиш повече :)
 
От: Налазване от нагли ботове и роботи

Най-вече при Baidu, Sogou, Youdao, Sosospider е много ефективен :D, .....имаш енергията, но ти липсва стажа.
 
От: Налазване от нагли ботове и роботи

Напротив, енергия ми липсва. За това и не споменах бот трап. Мързи ме. И както казах не виждам смисъл.

$ip = $_SERVER['REMOTE_ADDR'];
$host = $_SERVER['HTTP_HOST'];
$agent = $_SERVER['HTTP_USER_AGENT'];
$referer = $_SERVER['HTTP_REFERER'];
$time = date("d.m.Y H:i");6
// мейл или дб

<!-- ако си човек не натискай -->
<a href="trap/index.php"><img src="1_by_1pixel.gif" border="0"
alt="ако си човек не натискай" width="1" height="1"/></a>
 
От: Налазване от нагли ботове и роботи

Може да се избегне разхода на ресурси в php (за разлика от други технологии тази не е много щадяща) и да караш директно на .htaccess и mod_rewrite или mod_setenvif. Повечето нежелани ботове клякат на ограничение по %{HTTP_USER_AGENT} и %{HTTP:Accept-Encoding}.
 
От: Налазване от нагли ботове и роботи

Тъкмо мирясха за известно време и ся пак ме налазиха тия копеленца.

Unknown robot (identified by 'robot') 26,400 655.02 MB 08 Фев 2013 - 16:50
Unknown robot (identified by 'bot*') 19,743 345.51 MB 08 Фев 2013 - 16:50
Unknown robot (identified by '*bot') 3,940 542.23 MB 08 Фев 2013 - 16:49

И процесорното време отиде на ма*ната си... суперхостинг за сега ме търпят но до кога ли :)
Как да ги разкарам тия ботове от сайта ми? Искам да ги разкрам всички до един, с изключение на google, bing и msn.
Няма ли някакъв код да набия в .htaccess и да ги разкарам?
Всяка помощ ще ми е добре дошла ;)
 
От: Налазване от нагли ботове и роботи

Код:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ="" [OR]
RewriteCond %{HTTP:Accept-Encoding} =""
RewriteRule .* - [F,L]
</IfModule>
 
От: Налазване от нагли ботове и роботи

@s1yf0x благодаря ти :)
Само да попитам... тоя код както си е го вземам и го слагам в .htaccess, така ли?
Гледам има някакви кавички... между тях трябва ли да добавям нещо или директно така го слагам?
И последна питанка... това нали няма да забрани google бота? :)
 
От: Налазване от нагли ботове и роботи

Просто го копирай. Няма да забрани Google, защото той е интелигентен бот и ползва, и user-agent и accept-encoding хедъри.
 
От: Налазване от нагли ботове и роботи

Много ти БЛАГОДАРЯ ;)
Ако някога се видим ... да знаеш че имаш една бира :beer:
 
От: Налазване от нагли ботове и роботи

Нека първо да сработи, все пак ти го казвам наизуст без да съм видял структурата на трафика.
 
От: Налазване от нагли ботове и роботи

Аз го приложих този код, но явно при мен китайците идват с всичките си юзер агенти и темподобни. Ако има по-ефективен начин, нека се сподели. Но явно за сега е ръчно.

edit: погледнах логовете с грешки и видях, че има орязани IP адреси на BTK и на Blizoo.
 
Последно редактирано:
От: Налазване от нагли ботове и роботи

Здравете,имам нужда от помощ как да разбера дали трафика ми идва от ботове,като се има предвид ,че нямам сайт, а само домейн с една картинка на лърдпрес -очаквайте скоро,проблема е ,че за един месец имам 20 000 уникални посетители ,но всички са насочени към админ,доста съм нов в интернет бизнеса и не знам как да разбера реалния трафик какъв е ,все пак ако са ботове защо такъв интерес към моя домейн
 
От: Налазване от нагли ботове и роботи

Здравете,имам нужда от помощ как да разбера дали трафика ми идва от ботове,като се има предвид ,че нямам сайт, а само домейн с една картинка на лърдпрес -очаквайте скоро,проблема е ,че за един месец имам 20 000 уникални посетители ,но всички са насочени към админ,доста съм нов в интернет бизнеса и не знам как да разбера реалния трафик какъв е ,все пак ако са ботове защо такъв интерес към моя домейн

http://www.google.com/analytics/
 
От: Налазване от нагли ботове и роботи

Здравете,имам нужда от помощ как да разбера дали трафика ми идва от ботове,като се има предвид ,че нямам сайт, а само домейн с една картинка на лърдпрес -очаквайте скоро,проблема е ,че за един месец имам 20 000 уникални посетители ,но всички са насочени към админ,доста съм нов в интернет бизнеса и не знам как да разбера реалния трафик какъв е ,все пак ако са ботове защо такъв интерес към моя домейн

Ако заявките са към wp-admin, определено нежелан трафик. А и се замисли, без никакво съдържание на практика и толкова много унукални посетители, явнo има нещо нередно. Драскай .htaccess ако си на Apache или там според какъв сървър си хостваш сайта, за да филтрираш лошия трафик. За мен и силно препоръчително е да смениш адреса на админ панела.
 
От: Налазване от нагли ботове и роботи

Сложи капча или 2FA за логин. Явно се опитват с brute force да се логнат.
 

Горе