MegaKaloyan
Well-Known Member
ТОП 15 НАЙ-ОПАСНИ БОТОВЕ, КОИТО ТРЯБВА ДА БЛОКИРАШ
1. AhrefsBot
- Най-агресивният SEO скенер.
- Изяжда огромно количество CPU, RAM и bandwidth.
- Индексира ВСИЧКО, дори и админ панели.
2. SemrushBot
- Още по-тежък от AhrefsBot на моменти.
- Сканира цялата структура многократно.
3. MJ12Bot (Majestic)
- Рекордьор по безцелно сканиране.
- Понякога прави по 10–40 заявки в секунда.
4. DotBot (Moz)
- Няма проблеми да минава през формуляри.
- Отваря страници, които не трябва.
5. PetalBot (Huawei)
- Сканира цяла Европа без ограничение.
- Причинява висок load дори на мощни VPS-и.
6. Baiduspider
- Китайският Google.
- Няма стоп. Често игнорира robots.txt.
7. YandexBot
- Руската търсачка – агресивна, тежка.
- Не ти трябва, ако не таргетираш Русия.
8. SeznamBot
- Чешки бот, но обича да сканира масивно.
9. Bytespider (TikTok)
- Качва публични данни в архив.
- Може да „замрази“ информация, която не трябва да е публична.
10. CrawlChaos / CCBot
- Супер агресивен.
- Следи URL структури и скрейпва контент.
11. CrawlChaos / CCBot
- Известен като "хаос бот".
- Краде CPU много бързо.
12. Unknown / Generic Scrapers
- С User-Agent:
- python-requests
- curl
- wget
- Java
- Go-http-client
- Това са реални скрейпери, правени от хакери.
13. Uptime Robots (евтините мониторинг ботове)
- Някои правят 10–30 заявки в минута.
14. Fake Google Bots
- Изглеждат като Googlebot, но идват от съмнителни IPs.
- Нужно е DNS reverse lookup.
15. CloudSystemBots
- Масово се използват за копиране на цели сайтове.
| Бот | Проблем |
|---|
| AhrefsBot | огромен трафик, магически „изяжда“ ресурси |
| SemrushBot | прави DoS тип натоварване |
| MJ12Bot | брутално много заявки |
| Baidu / Yandex | игнорират robots.txt |
| Bytespider | скрейпва съдържанието ти за TikTok AI |
| python-requests | използва се за хакерски атаки и brute force |
1) robots.txt – „Full lock“, но с достъп за GPTBot и големите търсачки
Сложи този файл в public_html/robots.txt
# Разрешаваме само основни търсачки + GPTBot
User-agent: GPTBot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Google-InspectionTool
Allow: /
User-agent: Bingbot
Allow: /
User-agent: DuckDuckBot
Allow: /
User-agent: Slurp
Allow: /
# Всички останали ботове – блокирани на ниво robots.txt
User-agent: *
Disallow: /
Това:
- дава зелен семафор на GPTBot и основните търсачки;
- казва на всички останали „не обхождай“ (лошите масово не го спазват!)
2) .htaccess – реална защита срещу лоши ботове
# ===== Bot Protection – block bad user agents =====
<IfModule mod_setenvif.c>
# SEO/Backlink scrapers
SetEnvIfNoCase User-Agent "AhrefsBot" bad_bot
SetEnvIfNoCase User-Agent "SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "MJ12bot" bad_bot
SetEnvIfNoCase User-Agent "DotBot" bad_bot
SetEnvIfNoCase User-Agent "BLEXBot" bad_bot
SetEnvIfNoCase User-Agent "MegaIndex" bad_bot
SetEnvIfNoCase User-Agent "SEOkicks" bad_bot
SetEnvIfNoCase User-Agent "BacklinkCrawler" bad_bot
# Скрапери / скенери / инструменти
SetEnvIfNoCase User-Agent "python-requests" bad_bot
SetEnvIfNoCase User-Agent "python-urllib" bad_bot
SetEnvIfNoCase User-Agent "curl" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "libwww-perl" bad_bot
SetEnvIfNoCase User-Agent "Go-http-client" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "Apache-HttpClient" bad_bot
SetEnvIfNoCase User-Agent "okhttp" bad_bot
SetEnvIfNoCase User-Agent "axios" bad_bot
# Сканери/хакерски инструменти
SetEnvIfNoCase User-Agent "sqlmap" bad_bot
SetEnvIfNoCase User-Agent "nikto" bad_bot
SetEnvIfNoCase User-Agent "nmap" bad_bot
SetEnvIfNoCase User-Agent "masscan" bad_bot
SetEnvIfNoCase User-Agent "wpscan" bad_bot
SetEnvIfNoCase User-Agent "acunetix" bad_bot
SetEnvIfNoCase User-Agent "CensysInspect" bad_bot
# Генерични „неприятни“ ботове
SetEnvIfNoCase User-Agent "crawler" bad_bot
SetEnvIfNoCase User-Agent "fetch" bad_bot
SetEnvIfNoCase User-Agent "spider" bad_bot
SetEnvIfNoCase User-Agent "scrape" bad_bot
SetEnvIfNoCase User-Agent "scanner" bad_bot
# Празен или липсващ User-Agent
SetEnvIfNoCase User-Agent "^$" bad_bot
</IfModule>
<IfModule mod_authz_core.c>
<RequireAll>
Require all granted
Require not env bad_bot
</RequireAll>
</IfModule>
# ===== END Bot Protection =====
Това ще:
- връща 403 Forbidden на куп известни скрапери и скенери;
- блокира заявки без User-Agent (често ботове/скриптове);
<LS