ТОП 15 НАЙ-ОПАСНИ БОТОВЕ, КОИТО ТРЯБВА ДА БЛОКИРАШ

MegaKaloyan

Well-Known Member

🔥 ТОП 15 НАЙ-ОПАСНИ БОТОВЕ, КОИТО ТРЯБВА ДА БЛОКИРАШ​


❌ 1. AhrefsBot​


  • Най-агресивният SEO скенер.
  • Изяжда огромно количество CPU, RAM и bandwidth.
  • Индексира ВСИЧКО, дори и админ панели.

❌ 2. SemrushBot​


  • Още по-тежък от AhrefsBot на моменти.
  • Сканира цялата структура многократно.

❌ 3. MJ12Bot (Majestic)​


  • Рекордьор по безцелно сканиране.
  • Понякога прави по 10–40 заявки в секунда.

❌ 4. DotBot (Moz)​


  • Няма проблеми да минава през формуляри.
  • Отваря страници, които не трябва.

❌ 5. PetalBot (Huawei)​


  • Сканира цяла Европа без ограничение.
  • Причинява висок load дори на мощни VPS-и.

❌ 6. Baiduspider​


  • Китайският Google.
  • Няма стоп. Често игнорира robots.txt.

❌ 7. YandexBot​


  • Руската търсачка – агресивна, тежка.
  • Не ти трябва, ако не таргетираш Русия.

❌ 8. SeznamBot​


  • Чешки бот, но обича да сканира масивно.

❌ 9. Bytespider (TikTok)​


  • Качва публични данни в архив.
  • Може да „замрази“ информация, която не трябва да е публична.

❌ 10. CrawlChaos / CCBot​


  • Супер агресивен.
  • Следи URL структури и скрейпва контент.

❌ 11. CrawlChaos / CCBot​


  • Известен като "хаос бот".
  • Краде CPU много бързо.

❌ 12. Unknown / Generic Scrapers​


  • С User-Agent:
    • python-requests
    • curl
    • wget
    • Java
    • Go-http-client
  • Това са реални скрейпери, правени от хакери.

❌ 13. Uptime Robots (евтините мониторинг ботове)​


  • Някои правят 10–30 заявки в минута.

❌ 14. Fake Google Bots​


  • Изглеждат като Googlebot, но идват от съмнителни IPs.
  • Нужно е DNS reverse lookup.

❌ 15. CloudSystemBots​


  • Масово се използват за копиране на цели сайтове.


💀 Кои причиняват най-много проблеми?


БотПроблем
AhrefsBotогромен трафик, магически „изяжда“ ресурси
SemrushBotправи DoS тип натоварване
MJ12Botбрутално много заявки
Baidu / Yandexигнорират robots.txt
Bytespiderскрейпва съдържанието ти за TikTok AI
python-requestsизползва се за хакерски атаки и brute force


1) robots.txt – „Full lock“, но с достъп за GPTBot и големите търсачки
Сложи този файл в public_html/robots.txt


# Разрешаваме само основни търсачки + GPTBot
User-agent: GPTBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Google-InspectionTool
Allow: /

User-agent: Bingbot
Allow: /

User-agent: DuckDuckBot
Allow: /

User-agent: Slurp
Allow: /

# Всички останали ботове – блокирани на ниво robots.txt
User-agent: *
Disallow: /

Това:


  • дава зелен семафор на GPTBot и основните търсачки;
  • казва на всички останали „не обхождай“ (лошите масово не го спазват!)


2) .htaccess – реална защита срещу лоши ботове

# ===== Bot Protection – block bad user agents =====
<IfModule mod_setenvif.c>
# SEO/Backlink scrapers
SetEnvIfNoCase User-Agent "AhrefsBot" bad_bot
SetEnvIfNoCase User-Agent "SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "MJ12bot" bad_bot
SetEnvIfNoCase User-Agent "DotBot" bad_bot
SetEnvIfNoCase User-Agent "BLEXBot" bad_bot
SetEnvIfNoCase User-Agent "MegaIndex" bad_bot
SetEnvIfNoCase User-Agent "SEOkicks" bad_bot
SetEnvIfNoCase User-Agent "BacklinkCrawler" bad_bot



# Скрапери / скенери / инструменти
SetEnvIfNoCase User-Agent "python-requests" bad_bot
SetEnvIfNoCase User-Agent "python-urllib" bad_bot
SetEnvIfNoCase User-Agent "curl" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "libwww-perl" bad_bot
SetEnvIfNoCase User-Agent "Go-http-client" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "Apache-HttpClient" bad_bot
SetEnvIfNoCase User-Agent "okhttp" bad_bot
SetEnvIfNoCase User-Agent "axios" bad_bot

# Сканери/хакерски инструменти
SetEnvIfNoCase User-Agent "sqlmap" bad_bot
SetEnvIfNoCase User-Agent "nikto" bad_bot
SetEnvIfNoCase User-Agent "nmap" bad_bot
SetEnvIfNoCase User-Agent "masscan" bad_bot
SetEnvIfNoCase User-Agent "wpscan" bad_bot
SetEnvIfNoCase User-Agent "acunetix" bad_bot
SetEnvIfNoCase User-Agent "CensysInspect" bad_bot

# Генерични „неприятни“ ботове
SetEnvIfNoCase User-Agent "crawler" bad_bot
SetEnvIfNoCase User-Agent "fetch" bad_bot
SetEnvIfNoCase User-Agent "spider" bad_bot
SetEnvIfNoCase User-Agent "scrape" bad_bot
SetEnvIfNoCase User-Agent "scanner" bad_bot

# Празен или липсващ User-Agent
SetEnvIfNoCase User-Agent "^$" bad_bot
</IfModule>

<IfModule mod_authz_core.c>
<RequireAll>
Require all granted
Require not env bad_bot
</RequireAll>
</IfModule>
# ===== END Bot Protection =====

Това ще:


  • връща 403 Forbidden на куп известни скрапери и скенери;
  • блокира заявки без User-Agent (често ботове/скриптове);
    <LS
 
За 3-4 от ботовете клиентите пискат яко, ако ги блокнеш. :)
Топ е uptimerobot, следван от SEO инструментите, защото видиш ли да си правят одити на сайтовете. :)
всеки клиент на хоста сам решава кой бот да блокне, но е длъжен да прочете информацията кой бот какво върши за да си направи сметка .
 

Горе