Най-добрият софтуер / скрипт за скейпване на продукти

Blinky

Owner
Здравейте, да попитам тези, които си пълнят магазините с продукти от други, да дадат акъл с какво го правят и как. Идеята е далеч от крадене, а просто мой приятел има магазин, в който зарежда продукти на ръка, и доставчиците му имат сайтове с тях. Въпросните доставчици не намират за нужно да направят XML, или друг тип фиид, с който той да не му се налага да набива всичко на ръка, защото говорим за бройки от над 5000 продукта, които постоянно се актуализират - отпадат стари, добавят се нови, сменят се цени и какво ли още не.

Та идеята ми е, ако някой ползва някакво решение, с което се адаптирал в тази насока, много ще се радвам да сподели. Нали, изключено е да го пуснат с нещо къстам написано до базата им, за да тегли от там, дори е стигал до момента да им предложи за негова сметка да им направи него приятел програмист, но са му отказали с довода, че никой не би го ползвал, което е доста лейм изказване, но пък продуктите им са що годе добри и се продават, поне по думите на моя приятел.

Всякакъв скрип или софтуер с някакъв събскрипшън би бил полезен. Тук говорим за не повече от 2-3 магазина, от които да си "събира" данните - заглавие, снимки, цени, описание, размери и цветове (може би), и може би още някои атрибути. Много благодаря. Просто ме помили да пиша. Аз лично рядко работя с някакви подобни, защото ги намирам за излишни, както и бизнесите търгуващи с без да улесняват онлайн търговците не ги намирам за успешни. :)
 
Записвам се. Аз също търсих преди година две такъв скрейпър, но намерих само за обичкновенни продукти без вариации. Плъгинът, мисля, ти го беше препоръчал в някоя тема, ама вече непомня кой беше, май нещо октоподско. За single продукти вършеше добра работа, но неподържаше вариации и от хоста изпищяха, че имал зловреден код, затова го изтрих.
 
Аз поне бих написал къстъм crawler. Много зависи от сайта. Универсален доста трудно би се направил. (освен ако не си гугъл :Д)
 
Готови освен за популярни cloud платформи май няма добри. Може би е идея за стартиране на бизнес? :rolleyes:
 
Аз поне бих написал къстъм crawler. Много зависи от сайта. Универсален доста трудно би се направил. (освен ако не си гугъл :Д)
Мислих си момента на маппинга, за се ползва за повече от един сайт. Разбира се трябва в него да има екземпъли, за да може обикновен юзър да се ориентира.

Ето това е бизнес за милиони, ако знаете колко големи търговци, чак не вярвах, не искат или немогат да си правят фиидове за препродавачите им. :) И разбира се, идват и хора, които няма как да набиват 1000+ продукти. Докато го направят, вече 10% и нагоре не се предлагат.

Аз съм за скрипт, който явно ще е за определен брой сайтове с много къндишъни в него, и до времето, в което не трябва да се добавят нови или някой от старите смени структура на сайта. :)
 
Здравей, аз от 2015 решавам доста такива проблеми за всякакви магазини специално за скрапването, просто защото доставчика отказва feed или изпраща каталог под формат на хартия, но има уеб каталог с цени.

Ето няколко варианта:
- Написване на паяк/scrapper + крон заявки да обхужда, това е скъпо и ако не се направи от човек с опит през седмица ще трябва поправки.
- Софтуер, прочем също са доста скъпички: https://oxylabs.io/products/scraper-api/ecommerce или https://webscraper.io/
- Може да ползваш и хром добавка: https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn доста е добро но всеки път ще трябва да си смъкваш сам, това разшерение доста добре работи и има дори селектор, а може да направиш и хрома да сваля автоматично, чрез друго раширение.


Но ако търсиш някой да напише къстъм решение е доста скъпо, също така в България са малко хората с такъв опит, всеки казва, че ще напише и накрая получаваш нещо което прилича на това което искаш, но не е това и дори започва да се чупи и да бърка елементи. Ние имаме разработен и го продаваме и цената е 5000 лв с настройките и поддръжката за 3 месеца, просто е много нерви с хостинг, ip, агенти и подобни, но това което ти дадох като решения ще ти свършат перфектно работа за малък магазин.

Поздрави.
 
Последно редактирано:
Здравей, аз от 2015 решавам доста такива проблеми за всякакви магазини специално за скрапването, просто защото доставчика отказва feed или изпраща каталог под формат на хартия, но има уеб каталог с цени.

Ето няколко варианта:
- Написване на паяк/scrapper + крон заявки да обхужда, това е скъпо и ако не се направи от човек с опит през седмица ще трябва поправки.
- Софтуер, прочем също са доста скъпички: https://oxylabs.io/products/scraper-api/ecommerce или https://webscraper.io/
- Може да ползваш и хром добавка: https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn доста е добро но всеки път ще трябва да си смъкваш сам, това разшерение доста добре работи и има дори селектор, а може да направиш и хрома да сваля автоматично, чрез друго раширение.


Но търсиш някой да напише къстъм решение е доста скъпо, също така в България са малко хората с такъв опит, всеки казва, че ще напише и накрая получаваш нещо което прилича на това което искаш, но не е това и дори започва да се чупи и да бърка елементи. Ние имаме разработен и го продаваме и цената е 5000 лв с настройките и поддръжката за 3 месеца, просто е много нерви с хостинг, ip, агенти и подобни, но това което ти дадох като решения ще ти свършат перфектно работа за малък магазин.

Поздрави.
ИСкам да го купя, къде да ти дам мейл на който да пратиш демо?
 
има поне 100 сайта предлагащи такава услуга. Просто ползвайте гугъл
Абе има, ама като търсиш нещо по-персонално по-скоро питаш хората. Иначе имаше какви ли не листи с "най-яките то ....", ама нали. :)
 
Мислих си момента на маппинга, за се ползва за повече от един сайт. Разбира се трябва в него да има екземпъли, за да може обикновен юзър да се ориентира.

Ето това е бизнес за милиони, ако знаете колко големи търговци, чак не вярвах, не искат или немогат да си правят фиидове за препродавачите им. :) И разбира се, идват и хора, които няма как да набиват 1000+ продукти. Докато го направят, вече 10% и нагоре не се предлагат.

Аз съм за скрипт, който явно ще е за определен брой сайтове с много къндишъни в него, и до времето, в което не трябва да се добавят нови или някой от старите смени структура на сайта. :)
Има вариянт ти да си сложиш селекторите или за да е максимално съвместимо да се направи юзър френдли с интерфейс подобен на дом инспектора. Друг е въпроса дали сайта на доставчика използва SPA или някакви манипулации с js. Също за максимално универсално ще трябва всеки селектор да го мапнеш към поле което пак си е играчка ама ще работи. И това при положение че генерираш само фийда.
Допълнително трябва да се вземе в предвид листинг страницата, pagination, single product страницата за да е максимално автоматизирано.
 
Последно редактирано:
Има вариянт ти да си сложиш селекторите или за да е максимално съвместимо да се направи юзър френдли с интерфейс подобен на дом инспектора. Друг е въпроса дали сайта на доставчика използва SPA или някакви манипулации с js. Също за максимално универсално ще трябва всеки селектор да го мапнеш към поле което пак си е играчка ама ще работи. И това при положение че генерираш само фийда.
Допълнително трябва да се вземе в предвид листинг страницата, pagination, single product страницата за да е максимално автоматизирано.
Има такъв тул, даже на WordPress е под формата на плъгин: https://octolooks.com/wordpress-auto-post-and-crawler-plugin-scrapes/

Там от фронта на другия сайта даже може да си мапваш. Не, обикновени сайтове са, нямат чак такива технологии. Между другото, ще го помоля да ми ги пусне, да ги видя и аз, че така малко на сляпо.
 
Има такъв тул, даже на WordPress е под формата на плъгин: https://octolooks.com/wordpress-auto-post-and-crawler-plugin-scrapes/

Там от фронта на другия сайта даже може да си мапваш. Не, обикновени сайтове са, нямат чак такива технологии. Между другото, ще го помоля да ми ги пусне, да ги видя и аз, че така малко на сляпо.

Яко изглежда и както си го представям. Само не знам с СПА как ще се справя :Д
 
- Може да ползваш и хром добавка: https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn доста е добро но всеки път ще трябва да си смъкваш сам, това разшерение доста добре работи и има дори селектор, а може да направиш и хрома да сваля автоматично, чрез друго раширение.
Ползвам това разширение и съм доволен. 1 продукт го дърпа за 2.5 сек.
Вече ако се търси скорост, може да погледнеш scrapy за python. С него съм свалял половин милион продукта за около час и нещо.
 
Ползвам това разширение и съм доволен. 1 продукт го дърпа за 2.5 сек.
Вече ако се търси скорост, може да погледнеш scrapy за python. С него съм свалял половин милион продукта за около час и нещо.

Аз винаги давам добри решения, като цяло работи перфектно това решение, но за сериозна работа и много доставчици ставаш луд. :)
Има още подобни за малък магазин са топ просто, особено в България, всеки казва сваляй там. :D
 
Ползвам това разширение и съм доволен. 1 продукт го дърпа за 2.5 сек.
Вече ако се търси скорост, може да погледнеш scrapy за python. С него съм свалял половин милион продукта за около час и нещо.
Ей аман от тия реклами за полуидиоти.
Аз винаги давам добри решения, като цяло работи перфектно това решение, но за сериозна работа и много доставчици ставаш луд. :)
Има още подобни за малък магазин са топ просто, особено в България, всеки казва сваляй там. :D
Че ние не се съмняваме във Вашата компетенция.

Поредната тема за същото. Не виждам как един паяк ще струва 5к ама щом има будали, да лапат царевицата. Блинки, пак да кажа имам такъв с xpath селектори, ти си конфигурираш ако сменят хтмл. Аз за разлика от "колегата" нямам чак толкова високо мнение за кода си и искам 900. Също така ако наистина има безплатен вариант, ползвайте него!
 
Ей аман от тия реклами за полуидиоти.

Че ние не се съмняваме във Вашата компетенция.

Поредната тема за същото. Не виждам как един паяк ще струва 5к ама щом има будали, да лапат царевицата. Блинки, пак да кажа имам такъв с xpath селектори, ти си конфигурираш ако сменят хтмл. Аз за разлика от "колегата" нямам чак толкова високо мнение за кода си и искам 900. Също така ако наистина има безплатен вариант, ползвайте него!

Това е далеч от твоята глава, не се мъчи да го мислиш, като цяло един фрийлансър няма голяма поглед над бизнеса. И аз се чудя как има фирми да плащат 300к в евро на година за SAP, но явно има причина. Но както на мен ми е далеч от главата това, така и на теб толкова елементарни неща, когато нямаш опит и нужните познания най-добре да си замълчиш, защото е смешно доста. Ако искаш напиши твой скрапер и го пусни за 100 лв, ще се радвам какво говно ще сглобиш като повечето програмисти в България които съм срещал да блещят глупости. На скоро срещнах един като теб дето искаше да копира microsoft dynamics, той също се чудил защо толкова пари струва, щял да го напише за 3 месеца и още го пише, неговият клиент още чака копие на microsoft dynamics за 3000 лв.

Поздрави.
 
Последно редактирано от модератор:
Това е далеч от твоята глава, не се мъчи да го мислиш, като цяло един фрийлансър няма голяма поглед над бизнеса. И аз се чудя как има фирми да плащат 300к в евро на година за SAP, но явно има причина. Но както на мен ми е далеч от главата това, така и на теб толкова елементарни неща, когато нямаш опит и нужните познания най-добре да си замълчиш, защото е смешно доста. Ако искаш напиши твой скрапер и го пусни за 100 лв, ще се радвам какво говно ще сглобиш като повечето програмисти в България които съм срещал да блещят глупости. На скоро срещнах един като теб дето искаше да копира microsoft dynamics, той също се чудил защо толкова пари струва, щял да го напише за 3 месеца и още го пише, неговият клиент още чака копие на microsoft dynamics за 3000 лв, та толкова за такива като теб клоуни.

Поздрави.
Станимирка браво, хвърли жлъч, ама при мен скрапера работи от 2 години. Майкрософт динамикс нямам идея какво е ама сигурно е върхът на сладоледа, щом си толкова запален. Ползвам едно ЕРП на Майкрософт (по-голямо и миризливо лайно надали е можело да изакат).
Та да се върнем на скрейпването на продукт за 2,5 секунди :D. Това сиганин със счупена лопата по-бързо ще хвърля продукти... имаме рекуест да кажем средно 500мс и от там на сетне тоя процесор 2 секунди мачка ХТМЛ-а върти, суче и накрая вади продукт (каква магия). Приятел, нали не работиш на Правец 8?
Тъй, като ти искаш 5к то поне трябва да компилираш! Аз с мега бавния Python скрейпвам средно за 1,6сек. Ти с 5к продукт се влачиш почти двойно УАУ какъв успех!

@Blinky извинявай, че акам по темата, ама глупостите не ми понасят на чревната флора.
 
YAML:
bot:
  name: "MyUglyBot.com"
  delay: 5 # Delay in seconds between requests. Be careful!
  spiders: 1 # Number of concurrent requests. Be careful!
  empty_queue_retries: 100
  request_timeout: 300
  old_data_expire: 604800 # 7 days
entry:
  example.com:
    refetch: 86400 # A day
    base: 'https://example.com'
    start_urls:
      - 'https://example.com/category1/'
      - 'https://example.com/category2/'
    deny_url:
      - 'https://example.com/not_needed_products/'
    link_containers:
      - '//div[contains(@class, "categories_links")]/a'
      - '//ul[contains(@class, "pagination")]/li/a'
      - '//div[@id="content"]//div[contains(@class, "product-thumb")]//h4/a'
    exist_attribute:
      id: "//input[@name='product_id']/@value"
    attributes:
      name: "//h1[contains(@class, 'product-title')]/span/text()"
      code: "//div[contains(@class, 'product-model')]/text()"
      price1: "//li[@itemprop='price']/text()"
      price2: "//h2[@itemprop='price']/text()"
      price3: ""
      price_old: "//div[@id='product_information_2']//li[contains(@class, 'price-old')]/text()"
      available: '//div[contains(@class, "stock-li")]//text()'
    lists:
      - name: 'tags'
        key: './/td[1]/text()'
        value: './/td[2]/text()'
        row: "//div[@id='tab-specification']/table/tbody/tr"
    options:
      - type: 'select'
        selector: "//div[@id='product']//select"
    categories:
      selector: '//ul[contains(@class, "breadcrumb")]/li'
      value: ".//a/span/text()"
    htmls:
      - name: "description"
        selector: "//div[@id='tab-description']/*"
    images:
      main: "//div[@id='myElement']//img[@id='main']/@data-src"
      additional: "//ul[contains(@class, 'slides')]//img/@data-for-target"
IO:
  complete_domains: "completed.json"
  incomplete_domains: "incomplete.json"
  directory_domains: "directories.json"
  feed_data: "feed.json"
logger:
  name: "scraper.log"
  format: "%(asctime)s %(levelname)-8s [%(thread)d](%(module)s)(%(lineno)-3d) %(message)s"
За да не бъда голословен, ето конфиг на скрапера, писан от мен.
 

Горе