Нов проект: Филтриране на лоши ботове + Безплатен бонус

Virosss

Active Member
Понеже напоследък доста често срещам срещам теми и мнения на начинаещи собственици на сайтове и молба за помощ срещу повишено процесорно време, реших, че е добра идея да се създаде проект, който до някаква степен да решава въпросният проблем.

Естествено, повишаването на процесорното време може да се дължи на страшно много фактори и лошите ботове са може би е един от последните от тези фактори, но все пак в някой случай филтрирането им помага и то доста. В Интернет е пълно с кодове и съвети как да се справим с лошите ботове, но доста често за да го направите ще са ви необходими поне някакви минимални знания.

Именно по тази причина, реших да създам този проект, който накратко има за цел да улесни потребителите, като им представи до някъде що-годе универсално решение на проблема с лошите ботове.

Самият проект не е нещо ново (не смятам, че съм открил топлата вода) и е просто една база с информация за някой от ботовете, които най-често посещават сайтовете напоследък. Като информацията към момента включва - Име, Кратко описание, User Agent, Извадка от access log и код за филтриране чрез Apache и Nginx (в момента тествам някой неща и скоро смятам да добавя и код за филтриране чрез Varnish).

Като услуга, сайта предлага да ползвате основен код, който филтрира основните лоши ботове. Гледал съм в този списък да влизат само ботове, които можете да филтрирате спокойно, без това да навреди на сайта ви. Естествено, можете допълнително да добавите към филтрирането и други ботове, които съм сметнал, че не трябва да са в този списък, но в някой специфични ситуации, може би за вас би било добре да изолирате. Такива например са Bing/Yandex ботовете.

Сайта можете да разгледате на следният адрес: http://badbots.vps.tips

Естествено идеята ми не е просто да си пльосна един линк в темата, а по-скоро бих желал вашите критики и идеи за развитието на проекта.

Безплатен бонус

Всъщност този "безплатен бонус" е малка уловка, защото реално вие ще си платите, но под формата на информация. И преди да сте започнали да ме хейтите, ще кажа, че всъщност "безплатно" ще е времето, което ще ми отнеме да ви помогна.

Предлагам на тези от вас, които желаят да филтрират лошите ботове, но нямат знанията и възможностите да го направят, да ми представят access log-овете на своя сайт. Аз от своя страна ще анализирам логовете и ще създам персонален филтър с който да филтрирате лошите ботове, които посещават сайта ви. Така ще си помогнем взаимно. Аз ще ви помогна да се отървете от лошите паяци, а от своя страна вие ще ми предоставите информация, която евентуално ще помогне за допълването на базата с лоши ботове и всъщност ще помогнете до някаква степен и на много ваши колеги.

Имайте предвид, че целият този процес отнема време, така, че е много вероятно при много желаещи да се наложи да позабавям заявките ви или пък в един момент да откажа изпълнението на повече заявки.

Е това е от мен, очаквам вашите отзиви. ;)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Ако си намеря темата ще покажа и в % колко е, мисля че поне 40% падна след блокиране на ботовете и някои държави - русия, Индия, Пакистан..
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

От моите тестове, след блокиране само на ботовете, пада натоварването с около 20-30%. От моите наблюдения в последно време най-агресивни са ботовете на Bing/Yandex/Ahrefs/Majestic :)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Айде Русия да не я блокирате, че SAPE-то се сърди.... но примерно semrush bot може с кеф да го напсуваш :)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Айде Русия да не я блокирате, че SAPE-то се сърди.... но примерно semrush bot може с кеф да го напсуваш :)

Еххх що не ми дава да ти дам една положителна репутация :D

Умишлено към момента избягвам добавянето на ботовете от борсите в основният филтър, даже за момента се въздържам въобще да ги добавям в базата :D Те реално не биха посетили сайта, ако не им ползваш услугите ;)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Колега , няма ли да е по лесно д направиш опция и посетителите на сайта да могат да добавят лошите ботове който са засекли, а разбита се ти ще си правиш проверки преди да го добавиш в списъка.
Мисля че така доста бързо ще се събере голяма база данни с лошите ботове :)
Успех с проекта, доста ще улесни живота на много хора. :)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Обмислях тази идея още преди да пусна сайта, но след дискусия с други колеги стигнах до извода, че сайта би се посещавал основно от хора, които си нямат и на идея как да филтрират ботовете от което следва, че едва ли ще могат да си направят анализ на логовете и да предложат лоши ботове.

Планирал съм няколко допълнителни инструмента и статии как точно да хората могат да си анализират логовете и тогава вероятно ще пусна подобна форма, защото просто тогава ще има смисъл от нея. Под каква форма обаче ще е формата още обмислям, дали най-обикновена или ще напиша направо някакво API и инструмент през който като минат логовете да се пращат заявките за добавяне автоматично в системата и след преглед от моя страна да се добавят.

Самият проект е в доста начален стадии и доста от нещата ще трябва да се пипнат, включително текста по сайта, че с английският съм меко казано скаран и голяма част от текста се съмнявам да са много правилни граматически, въпреки прегледа от трета страна ;)
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Айде Русия да не я блокирате, че SAPE-то се сърди.... но примерно semrush bot може с кеф да го напсуваш :)
Цели държави само ако си 100% сигурен какво правиш. В моя случай умрял БГ сайт без реални посещения от тия държави и мина и замина лимитите.
 
От: От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Ето ти тука една извадка от роботс - прегледай и виж какво може да ти е от полза.
Извинявам се за дългия цитат, но няма опция да се добави под спойлер.
User-agent: WBSearchBot
Disallow: /
User-agent: bingbot
User-agent: ia_archiver
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: 008
Disallow: /
User-agent: 200PleaseBot
Disallow: /
User-agent: 360Spider
Disallow: /
User-agent: adbeat_bot
Disallow: /
User-agent: ADmantX Platform Semantic Analyzer - ADmantX Inc. - www.admantx.com - [email protected]
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: AOLbot/4.0
Disallow: /
User-agent: Attribot/1.1 (compatible; Attribot-Site; http://static.attribyte.com/robotreadme.txt)
Disallow: /
User-agent: Baiduspider-image
Disallow: /
User-agent: bitlybot
Disallow: /
User-agent: Bot.AraTurka.com
Disallow: /
User-agent: Butterfly/1.0
Disallow: /
User-agent: ClarityDailyBot
Disallow: /
User-agent: CMS Crawler
Disallow: /
User-agent: crawler4j (http://code.google.com/p/crawler4j/)
Disallow: /
User-agent: CRAZYWEBCRAWLER
Disallow: /
User-agent: diffbot
Disallow: /
User-agent: DomainAppender
Disallow: /
User-agent: DomainSigmaCrawler
Disallow: /
User-agent: Domain Re-Animator Bot
Disallow: /
User-agent: Ezooms Robot
Disallow: /
User-agent: Exabot
Disallow: /
User-agent: FavOrg
Disallow: /
User-agent: Findxbot
Disallow: /
User-agent: FlipboardProxy
Disallow: /
User-agent: GigablastOpenSource/1.0
Disallow: /

User-agent: Google-HTTP-Java-Client
Disallow: /

User-agent: Grapeshot
Disallow: /

User-agent: Heritrix
Disallow: /

User-agent: heritrix/2.0.2 +http://www.adsafemedia.com
Disallow: /

User-agent: HTTrack 3
Disallow: /

User-agent: InAGist URL Resolver
Disallow: /

User-agent: Insitesbot
Disallow: /

User-agent: jack
Disallow: /

User-agent: James BOT
Disallow: /

User-agent: Java
Disallow: /

User-agent: JS-Kit URL Resolver, http://js-kit.com/
Disallow: /

User-agent: linkdexbot
Disallow: /

User-agent: LivelapBot/0.2 (http://site.livelap.com/crawler)
Disallow: /

User-agent: LS Session
Disallow: /

User-agent: ltx71
Disallow: /

User-agent: meanpathbot
Disallow: /

User-agent: MetaURI API/2.0 +metauri.com
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: Mozilla/4.0 (CMS Crawler: http://www.cmscrawler.com)
Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; MS Search 4.0 Robot)
Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; MS Search 5.0 Robot)
Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 5.0 Robot)
Disallow: /

User-agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0 ; ClarityDailyBot)
Disallow: /

User-agent: Mozilla/5.0 (compatible; 200PleaseBot/1.0; +http://www.200please.com/bot)
Disallow: /

User-agent: Mozilla/5.0 (compatible;acapbot/0.1;treat like Googlebot)
Disallow: /

User-agent: Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; AOLbot/4.0; +http://www.aol-soft.com/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; DomainAppender /1.0; +http://www.profound.net/domainappender)
Disallow: /

User-agent: Mozilla/5.0 (compatible; DomainSigmaCrawler/0.1; +http://domainsigma.com/robot)
Disallow: /

User-agent: Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Disallow: /

User-agent: Mozilla/5.0 (compatible; Findxbot/1.0; +http://www.findxbot.com)
Disallow: /

User-agent: Mozilla/5.0 (compatible; Genieo/1.0 http://www.genieo.com/webfilter.html)
Disallow: /

User-agent: Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)
Disallow: /

User-agent: Mozilla/5.0 (compatible; linkdexbot/2.0; +http://www.linkdex.com/bots/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; meanpathbot/1.0; +http://www.meanpath.com/meanpathbot.html)
Disallow: /

User-agent: Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)
Disallow: /

User-agent: Mozilla/5.0 (compatible; OpenHoseBot/2.1; +http://www.openhose.org/bot.html)
Disallow: /

User-agent: Mozilla/5.0 (compatible; PAD-bot/9.0; +http://www.descargarprogramagratis.com/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; PaperLiBot/2.1; http://support.paper.li/entries/20023257-what-is-paper-li)
Disallow: /

User-agent: Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)
Disallow: /

User-agent: Mozilla/5.0 (compatible; SemrushBot-SI/0.97; +http://www.semrush.com/bot.html)
Disallow: /

User-agent: Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
Disallow: /

User-agent: Mozilla/5.0 (compatible; SoftListBot/2.2; +http://www.softlist.us/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; TweetedTimes Bot/1.0; +http://tweetedtimes.com)
Disallow: /

User-agent: Mozilla/5.0 (compatible; TweetmemeBot/3.0; +http://tweetmeme.com/)
Disallow: /

User-agent: Mozilla/5.0 (compatible; uMBot-LN/1.0; mailto: [email protected])
Disallow: /

User-agent: Mozilla/5.0 (compatible; XoviBot/2.0; +http://www.xovibot.net/)
Disallow: /

User-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:28.0) Gecko/20100101 Firefox/28.0 (FlipboardProxy/1.1; +http://flipboard.com/browserproxy)
Disallow: /

User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6 - James BOT - WebCrawler http://cognitiveseo.com/bot.html
Disallow: /

User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)
Disallow: /

User-agent: Mozilla/5.0 (Windows NT 6.2) Insitesbot/1.0
Disallow: /

User-agent: MS Search 4.0 Robot
Disallow: /

User-agent: MS Search 5.0 Robot
Disallow: /

User-agent: NativeHost
Disallow: /

User-agent: NerdyBot
Disallow: /

User-agent: netEstate NE Crawler
Disallow: /

User-agent: NetShelter ContentScan
Disallow: /

User-agent: newsme/1.0; [email protected]
Disallow: /

User-agent: Niki-Bot
Disallow: /

User-agent: NING/1.0
Disallow: /

User-agent: Node/simplecrawler 0.3.9 (http://github.com/cgiffard/node-simplecrawler.git)
Disallow: /

User-agent: OpenHoseBot
Disallow: /

User-agent: PAD-bot
Disallow: /

User-agent: PaperLiBot
Disallow: /

User-agent: peerindex
Disallow: /

User-agent: Perl LWP
Disallow: /

User-agent: Photon
Disallow: /

User-agent: postano
Disallow: /

User-agent: proximic
Disallow: /

User-agent: PulseCrawler/1.1
Disallow: /

User-agent: RavenCrawler
Disallow: /

User-agent: Recorded Future
Disallow: /

User-agent: Ruby
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: SEOlyticsCrawler
Disallow: /

User-agent: ShowyouBot (http://showyou.com/crawler)
Disallow: /

User-agent: simplecrawler
Disallow: /

User-agent: SISTRIX Crawler
Disallow: /

User-agent: SmeshBot
Disallow: /

User-agent: SMTBot
Disallow: /

User-agent: SoftListBot
Disallow: /

User-agent: sogou spider
Disallow: /

User-agent: tbot-nutch
Disallow: /

User-agent: Turnitin Robot
Disallow: /

User-agent: TweetmemeBot
Disallow: /

User-agent: Typhoeus - https://github.com/typhoeus/typhoeus
Disallow: /

User-agent: uMBot-LN
Disallow: /

User-agent: UptimeRobot/2.0
Disallow: /

User-agent: WebIndex
Disallow: /

User-agent: WeSEE
Disallow: /

User-agent: WeSEE:Ads/PageBot (http://www.wesee.com/bot/)
Disallow: /

User-agent: WeSEE:Ads/PictureBot (http://www.wesee.com/bot/)
Disallow: /

User-agent: WiseGuys Robot
Disallow: /

User-agent: voltron
Disallow: /

User-agent: woobot
Disallow: /

User-agent: XoviBot
Disallow: /

User-agent: yacybot
Disallow: /
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

@agatha65, Благодаря. Ще потърся информация за някой от ботовете и ще добавя което е полезно.

Само да отбележа, че така добавени, някой от правилата ти са безсмислени, понеже голяма част от боговете в списъка ти не се съобразяват с robots.txt и едва ли не ти им казваш, че не искаш да ти посещават сайта..., но повечето хич няма да те питат. Та ако само с robots.txt си ги филтрирала, те съветвам да го направиш и с .htaccess ;)

@wbg и на теб благодаря и твоят код има описани доста ботове, които вероятно ще влязат в базата.
 
От: От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

@agatha65, Благодаря. Ще потърся информация за някой от ботовете и ще добавя което е полезно.

Само да отбележа, че така добавени, някой от правилата ти са безсмислени, понеже голяма част от боговете в списъка ти не се съобразяват с robots.txt и едва ли не ти им казваш, че не искаш да ти посещават сайта..., но повечето хич няма да те питат. Та ако само с robots.txt си ги филтрирала, те съветвам да го направиш и с .htaccess ;)
Не е мой файл. Попаднах на него работейки по един Опенкарт сайт и си го запазих за всеки случай.
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Следното ми върши перфектна работа: http://www.allthingsdemocrat.com/block-bad-bots-in-htaccess.txt

Човече, това цялото в .htaccess ли си го интегрирал? Списъкът е доста дълъг и вероятно върши работа срещу доста от досадните ботове.
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

Между другото по принцип не мисля, че е много добра идея да се слага толкова подробен списък, ако знаеш как да си го направиш специално за твоят сайт. Първо защото вероятно 90% от описаните ботове едва ли все още обхождат, а и вероятността някой от тези 90% дори да са още на линия да ти обходи сайта е доста малка, а трябва да имаш предвид, че все пак апачето прави тия проверки, което по пътя на логиката забавя зареждането... да не е като през PHP, но все пак се отразява. Втората причина поради която не бих го препоръчал е самият факт, че се доверяваш на списъка с IP-та, но реално не знаеш дали не филтрираш нещо което не трябва. Да за General е перфектно (такава всъщност е и идеята на проекта, който правя. Просто да даде някакъв актуален към днешна дата списък с вредни ботове и по възможност да светне хората как да си филтрират само това което трябва), но за по добър ефект, анализирайте логовете и направете филтъра ръчно по footprints на вредните ботове.
 
От: Нов проект: Филтриране на лоши ботове + Безплатен бонус

По принцип има няколко основни виртуални сървъра, които се ползват за атаки и генериране на спам коментари, които ако се блокират по мрежа /range/ на титуляра, ще се ограничи по-голямата част проблемите ни. От 5-7 страни се генерира най-много спам и всяка с 2 до 4 основни VPN сървъра - Франция, Украйна, Русия, Латвия, Индия, Китай.
 

Горе