Как да си намирате лийдове с ИИ? :)

metaverse

Well-Known Member
Днес се заиграх с и брейнстормнах с Gemini инструмент за намиране на лийдове. В случая ми трябваше ефективен и евтин начин да намирам Wordpress сайтове за cold email кампанията ни.

Няколко часа по-късно инструмента има капацитет за ~60к сайта дневно.

Bash:
{
  "status": "ok",
  "data": {
    "TotalProcessed": 78109,
    "WordPressDetected": 3396,
    "NotWordPress": 68562,
    "Failed": 6151,
    "DetectionRate": 4.71941966146919,
    "Pending": 1811938,
    "Processing": 91425,
    "CheckedPerMinute": 1192.36608793175,
    "LastCheckTime": "2025-11-20T18:55:16.554621Z"
  },
  "timestamp": "2025-11-20T18:59:09.637404899Z"
}

Bash:
root@wphunt:/opt/wphunt# docker ps
CONTAINER ID   IMAGE                      COMMAND                  CREATED          STATUS                    PORTS                                         NAMES
3208faa9892e   wphunt-listener:latest     "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-listener
ac006b039bb9   wphunt-poller:latest       "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-poller
1ed30a9f970f   wphunt-writer:latest       "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-writer-2
e533476ab9b2   wphunt-poller:latest       "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-poller-2
70537686fa31   wphunt-writer:latest       "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-writer-3
c29a9f7276c9   wphunt-writer:latest       "./ng-service"           54 minutes ago   Up 13 minutes                                                           wphunt-writer
64dd6b178f9e   lestream-server:latest   "/app/lestream-ser…"   54 minutes ago   Up 13 minutes (healthy)   8080/tcp                                      lestream-server
b6feb1d12ddb   wphunt-recorder:latest     "./ng-service"           54 minutes ago   Up 13 minutes             0.0.0.0:8080->8080/tcp, [::]:8080->8080/tcp   wphunt-recorder
86755a6d75b7   postgres:18.0-bookworm     "docker-entrypoint.s…"   2 hours ago      Up 2 hours                5432/tcp                                      postgres

Най-хубавото е, че са пресни, пресни, защото обработва https://certificate.transparency.dev в реално време. Демек всички намерени сайтове са активни.

Трябва му малко повече зоб за да си обработи опашката де ама за POC толкова.

За подобни данни в момента плащаме $500 месечно, а в същото време са ужасни като качество. Голяма част са изтекли домейни, сменена платформа (т.е. не са Wordpress вече) и т.н.

Detection rate-a е само 4.7%, защото съм му добавил едва няколко метрики, по които да засича Wordpress и не се заглежда много ако например WAF го блокира.

Остана само да му добавя да обогатява данните с мета данни като контакти на собственици, linkedin профили, държава, хостинг и каквото още сметнем за полезно за нуждите ни и да го закачим към системата за маркетинг, което също е изцяло ИИ.

Идеята е да автоматизираме бавния ръчен процес. При ръчните кампании конверсията ни е 30-40%, но е много бавна ръчна работа. Ако с този инструмент имаме дори 1% ще е в пъти по-ефективно и евтино.

И не, не ни интересува GPDR.
 
Качих първоначалната версия на AX41 машинка в Hetzner.

Сега успява да се справи с цялата опашка идваща от CT, която е около 3,000,000 сертификата на час при текущата конфигурация. Като към инструмента идват повече от 3м, защото сертификатите понякога не са само за един домейн.

1к обработени на лаптопа срещу почти 30к с AX41. Пробвах с няколко десктопа в нас и с едно MacMini с i9, но така и не го докарах до повече от 5-10к, защото нямаше как да пусна достатъчно writers за да не се губят заявки.

Направих и доста оптимизации. Например пропуска honey pot домейни, сайтове на държавни агенции, ако DNS проверката не мине за под 500ms не продължава към http и др. Т.е. може да бъде по-точен, но дори в този вид намира повече от достатъчно сайтове.

Логвам всички failed, така че по-натам и за тях ще изкарам някаква статистика. Може би ще направя нещо като https://builtwith.com Също ще се види кои хостинг компании в ЕС (като начало) са бавни.

Код:
{
  "status": "ok",
  "data": {
    "TotalProcessed": 690893,
    "WordPressDetected": 1150,
    "NotWordPress": 15866,
    "Failed": 673877,
    "DetectionRate": 6.75834508697696,
    "Pending": 0,
    "Processing": 602,
    "CheckedPerMinute": 27057.3577339481,
    "LastCheckTime": "2025-11-21T17:33:53.440256Z"
  },
  "timestamp": "2025-11-21T17:35:41.909835835Z"
}

Код:
# docker ps
CONTAINER ID   IMAGE                      COMMAND                  CREATED          STATUS                    PORTS                                         NAMES
24ad050195fd   postgres:18.0-bookworm     "docker-entrypoint.s…"   29 minutes ago   Up 29 minutes             5432/tcp                                      postgres
9c90fcc8405b   wphunt-listener:latest     "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-listener
214d572d006f   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-7
bc40059392f3   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-5
cc777a2b01cc   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-4
7caef7693865   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-8
e18f925af0d2   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer
4b2088b89114   lestream-server:latest   "/app/lestream-ser…"   30 minutes ago   Up 30 minutes (healthy)   8080/tcp                                      lestream-serverer
ca3d8389126c   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-6
1abc2e037430   wphunt-janitor:latest      "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-janitor
9e2b977416ab   wphunt-poller:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-poller
13f80f376f16   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-2
91532494577f   wphunt-writer:latest       "./ng-service"           30 minutes ago   Up 29 minutes                                                           wphunt-writer-3
1fafe21e7f46   wphunt-recorder:latest     "./ng-service"           30 minutes ago   Up 29 minutes             0.0.0.0:8080->8080/tcp, [::]:8080->8080/tcp   wphunt-recorder

Screenshot 2025-11-21 at 19.38.26.png

Нещо рамта не я използва добре ама ще търся друг път какво да променя.

Докато събира сайтове ще имплементирам обогатяването на данните. Ако не ме срежат в Hetzner де, защото яде по 60-80Mbps и реално е crawler, а те не са фен.

Ще видим каква конверсия ще докара като добавя автоматичния аутрийч с ИИ. Имам доста идеи как да стане много добре.

Като цяло е хитър процес и съм приятно изненадан, че Gemini успя да се справи със спецификацията, а после Sonnet 4.5 с имплементацията.

Също оказа се, че маркетолозите в Reddit и Twitter имат интерес да се абонират. Данните са в реално време.

Та, понеже има теми как се правят пари с ИИ. :)
 
Последно редактирано:
  • Sad
Реакции: Sky
един имейл лист да беше купил

Според теб не съм ли?

За различни проекти съм минал през почти всичко платено включително новоизлюпени ИИ платформи като instantly.ai. Първо лийдовете им са супер зле и второ излизат прекалено скъпо, а конкретно този проект много зависи от cost of acquisition.

Имай предвид, че бюджетния план на хоста е $12/y. При цена на сървъра за базата данни €37.30 разхода ми е €0.0000187 на лийд. Дори с мижава конверсия от 0.001% ще е повече от достатъчно.

За сравнение apollo.io например е $79 на месец и хич не съм доволен от резултатите.

Плюс не мога да продавам данните или да правя интересни статистики. Не съм предполагал, че LE пуска 3.3м сертификата на час?!!?

Също нов домейн + сертификат, fingerprint на хоста и така можеш да разбереш кой WP хост расте най-бързо. ;)

Имам още една подобна задачка да мапна ipv4 пространството за да мога да скипвам CDN-ите като Cloudflare. Така ще стане още по-точна статистиката.
 
  • Like
Реакции: Sky
Добавих първоначалното скрейпване, пак без да се заигравам много.

Изненадан съм колко лесно става обработката При 30-40% съксес рейт засега намира достатъчно и няма нужда да симулирам браузър.

Единствения проблем, който хитнах е: въпреки лекия трафик, който стига сайтовете (2-3 заявки месечно) започнах да получавам abuse репорти от honeypot мрежи. Ще преместя част от сървиса в нас, а в Hetzner ще оставя само базата и тежката обработка.

Също ще трябва да направя някакъв landing page с опция потребителите да могат да се отписват от сканирането, да уважава robots.txt и да има нормален user agent с връзка към страницата.

Това се проверени/реални мейли, които са активни.

Screenshot 2025-11-22 at 14.20.50.png
 
Хич не е зле като за vibe code-нат инструмент 😁. Това е само с Postgres, няма Кафка и други фенси допълнения.

Има още малко да се оптимизира и започваме интересната част с инфраструктурата за изпращане на писмата.

Screenshot 2025-11-23 at 23.17.57.png
 
22m записа се събраха, въпреки че ресетвах базата няколко пъти за различни промени. При сегашния обем няма да стане с един сървър. Много сертификати се правят всеки ден по около 2-3м на час. :)

Screenshot 2025-11-25 at 11.36.55.png

Явно ще трябва да разпределя сървиса, който прави самите проверки дали сайта е Wordpress върху 5-6 VPS-a. Ще ги пусна в OVH хем ще са отделно от Hetzner. На малки сървъри с 4-6 ядра ще работи по-бързо от един голям. Останалото ще си е в Hetzner.

Screenshot 2025-11-25 at 11.38.12.png

Появи се и първия клиент за този проект с него разхода за Hetzner машината отпада :). Ще му направя API, с който да взима информация, когато се се пръкне нов Wordpress.
 
Вече репортва и млади домейни, които са регистрирани до преди 30 дни. След малко ще иде ъпдейта на прод де.

Целта е маркетинг агенции да могат да ги таргетират. Било то с Google Adds или нещо друго. Все пак на всеки нов сайт му трябват най-различни услуги.
 
Изглежда интересно, каква е крайната цел?
 
Изглежда интересно, каква е крайната цел?

По принцип е за друг мой проект за хостинг оптимизиран за Wordpress, където сайтовете върват в собствени среди/контейнери с базов план $12 на година.
Т.е. трябваше ми начин да намирам потенциални клиенти на база определени параметри като държава, плъгини, билдъри, скорост на зареждане и др.

Исках и да може да се скалира безкрай. Така, когато вкарам нов параметър може да обхожда всички вече добавени и проверени домейни в базата възможно най-бързо.

Готовите решения струват прекалено много пари, а и лийдовете им са с лошо качество.

В последствие показах какво правя на различни хора и понеже получих интерес най-вероятно ще опитам да го монетизирам като платформа за рийч с обогатени лийдове. Например $99/м за 100 лийда дневно.

Това са 3к проверени лийда на месец. Ако си агенция, която прави сайтове на конвейр за $3,000-$5,000 само 1 продажба намерена чрез този списък ти избива абонамента за 2+ години напред.

Също ми дава възможност да следя какво се случва в екосистемата на Wordpress. Коя хостинг компания колко нови клиенти има и д.р.
 
Добавих и MaxMind за да записва къде се намират сайтовете. Ако са зад Cloudflare или друг CDN няма да може да определи локацията, но имам решение на този проблем.

Просто е още една група от сървиси (по-скоро отделен проект де), които трябва да се имплементират, а не ми трябва засега. Има предостатъчно сайтове без CDN. Което пък си е още един data point и ще го вкарам като премиум енричмънт. :)

Ето няколко хубавци от България. Хваща ги само по 2-3 параметъра по-натам на всички ще записва версиите на ядрото и добавките.

Gambling shits направо ще ходят в коша.

Bash:
  | Domain             | IP            | Version | Detection      |
  |--------------------|---------------|---------|----------------|
  | sekolah138.com     | 78.142.47.245 | 6.5.4   | meta-generator |
  | tawaran77.com      | 78.142.47.245 | 6.5.4   | meta-generator |
  | puan789.com        | 78.142.47.245 | 6.5.4   | meta-generator |
  | pororo138.org      | 78.142.47.245 | 6.5.4   | meta-generator |
  | peluang78.com      | 78.142.47.245 | 6.5.4   | meta-generator |
  | mlb4d.org          | 78.142.47.245 | 6.5.4   | meta-generator |
  | mascotvision.com   | 185.45.66.171 | -       | multiple       |
  | p9-sportcenter.com | 185.80.2.227  | -       | multiple       |
  | lebah388.com       | 78.142.47.245 | 6.5.4   | meta-generator |

AWS RDS ряпа да яде. 😁

~98.5 million rows total with 0.137ms query latency
 
Последно редактирано:
Направих малък ъпдейт на UI-a. Буквално 1 промпт и след 3-4 минути изплю това. https://vertexwp.com/dashboard Изглежда по-добре от повечето неща, които съм получавал от хора във форума. 😁

Казах му само да бъде тъмно. :) По-натам ще си направя agent за UI.
 
Трагедия, сложи една светла тема белким разберем какво има в тоя дашбоард :D
 
Трагедия, сложи една светла тема белким разберем какво има в тоя дашбоард :D

После. Засега не ми дреме. А и на Apple Studio Display си се вижда супер.

Между другото никога през живота си не съм имал толкова хубави къмит съобщения. 😁

Много е приятно някой да ходи по теб за да не се занимаваш да мислиш и проверяваш какво си правил, а докато чакаш просто да превключиш контекста към следващата задача.

За този agent съм нагласил малкия модел на Anthropic Haiku 4.5, който е супер бърз. И на практика безплатен защото е към абонамента така или иначе.

Screenshot 2025-11-27 at 14.19.11.pngScreenshot 2025-11-27 at 14.21.51.pngScreenshot 2025-11-27 at 14.23.47.png
 
И за да добиете представа колко е зле пазара в България ако още не сте. По-горе са последните намерни сайтове от България от вчера като тествах. От тях почти всички бяха gambling :hankey:, единия малко блогче, а другия не помня някаква глупост пак.

Тези са с IP-та от САЩ, сайтовете са с много по-високо качество като лийдове. Филтрите са същите базови просто проверява за 2-3 параметъра.

Bash:
  | Domain                         | Detected | WP Version |
  |--------------------------------|----------|------------|
  | furgiueleagency.com            | 12:35:48 | 6.8.3      |
  | naturalbalancett.com           | 12:35:46 | 6.8.3      |
  | alphafactor.tech.blog          | 12:35:45 | -          |
  | awarevet.ca                    | 12:35:43 | -          |
  | irmifeldman.com                | 12:35:42 | -          |
  | thebookandpapergathering.org   | 12:35:32 | -          |
  | mantenimientodemontacargas.com | 12:35:31 | -          |
  | kolpenima.com                  | 12:35:31 | 6.8.3      |
  | nextlevsports.com              | 12:35:30 | 6.8.3      |
  | a20justicealliance.org         | 12:35:28 | 6.8.3      |
 
Правиш заключение на база 5 турски сайта???

Българските видя ли ги? Аз съм разгледал и доста други. Всички са супер зле що се отнася процент/качество.

Няма да ме разбереш преди да добавя филтрите за CDN и език за да има реална сегментация на пазарите.

Също Турция е много по-голям пазар от България.
 
Оказа се, че няма нужда от отделни сървъри. След малко оптимизация един AX41 е достатъчен. :) Сега мога да се фокусирам върху енричмънта.

Bash:
  | Service  | Rate                                    | Status       |
  |----------|-----------------------------------------|--------------|
  | Listener | 718 events/sec → 135 domains/sec queued | ✅ Healthy    |
  | Poller   | 107 domains/sec claimed                 | ✅ Keeping up |
  | Writer   | 220 domains/sec processed               | ✅ Working    |
 
Вече мога да филтрирам домейни по кога са регистрирани за да търся чисто нови.

Клиента, който прояви интерес точно това иска. Ще се абонира за $99/м за до 100 броя дневно за пресни сайтове от Северна Америка. През Stripe линк ест, защото ме мързи и това да имплементирам. :)

Ако намеря още 4-5 плащащи ще вкарам ИИ в самата услуга като допълнителни анализи и ще опитам да скалирам с пари от YC. А следващата стъпка е още малко енричмънт и автоматизацията за аутрийч.

192.0.78.x е wordpress.com тях не съм сигурен засега какво да ги правя.

Bash:
  | Domain                          | IP             | CDN | Country |
  |---------------------------------|----------------|---------|---------|
  | authormargograham.com           | 66.235.200.145 | direct  | US      |
  | aviralprakash.com               | 192.0.78.25    | direct  | US      |
  | citrusbeltmobilerepair.com      | 67.222.24.232  | direct  | US      |
  | educationandtutoring.com        | 66.223.49.89   | direct  | US      |
  | everydayseniorsavings.com       | 184.94.213.109 | direct  | US      |
  | peninsulagoldcleaning.com       | 82.29.87.193   | direct  | US      |
  | pinkdiamondgirl.com             | 192.0.78.238   | direct  | US      |
  | rebeccaturleycare.com           | 74.208.236.131 | direct  | US      |
  | secondmuseart.com               | 192.0.78.24    | direct  | US      |
  | skysportaviation.com            | 160.153.0.11   | direct  | US      |
 

Горе