Робот за скрейпене на онлайн издание

Дискусията в 'Скриптове и CMS-и' стартирана от Blinky, Март 27, 2017.

Тагове:
  1. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    Здравейте приятели. Случайно някой от вас да има или да знае за робот, скрипт или цяла програма, която да може да изтегля от да речем бг сайтовете новини и да ги налива в база? Не говоря за плъгин, защото и системата е къстам. Просто скрипт, който от едната страна да скрейпи, а от другата да пълни база, хващайки основните параметри: заглавие, подзаглавие, дата на статията, съдържанието (тялото на статията), url адрес. Това е в общи линии. Ще се радвам ако някой има идея да пише. Няма значение на какво е написано, важното е да върши работа.
     
  2. Sky

    Sky Well-Known Member

    Рег.:
    Юли 29, 2012
    Съобщения:
    8,824
    Харесвания:
    648
    Точки:
    113
    Пол:
    Мъж
    Място:
    Стара Загора
    Blinky харесва това.
  3. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    Мерси много. Ако има други предложения, ще се радвам. ;)
     
  4. madmax3

    madmax3 Member

    Рег.:
    Окт 11, 2010
    Съобщения:
    54
    Харесвания:
    21
    Точки:
    8
    Здравей
    Разгледай първия сайт от подписа ми в раздела "Директория" или тази https://www.predpriemach.com/thread...ии-линкове-реклами-и-обяви.70376/#post-832189 тема
    Въвежда се само адреса на сайта и се изтегля информацията от него, включитело и снимките. Може да го тестваш, но трябва да се регистрираш в сайта. Регистрацията е валидна и за двата сайта от подписа.
    Новините също се вземат автоматично от RSS емисии с мой скрипт. При желание от твоя страна съм на разположение за въпроси.
     
    arcsales и Blinky харесват това.
  5. Sky

    Sky Well-Known Member

    Рег.:
    Юли 29, 2012
    Съобщения:
    8,824
    Харесвания:
    648
    Точки:
    113
    Пол:
    Мъж
    Място:
    Стара Загора
    По принцип всичко е 40/50 реда код.
    След толкоз време вярвам вече си на ниво да го сглобиш.
     
    Blinky харесва това.
  6. nikosa1986

    nikosa1986 Active Member

    Рег.:
    Ян 22, 2016
    Съобщения:
    277
    Харесвания:
    37
    Точки:
    28
    Виж си ЛС :)
     
    Blinky харесва това.
  7. garnet

    garnet Well-Known Member

    Рег.:
    Септ 10, 2009
    Съобщения:
    1,156
    Харесвания:
    53
    Точки:
    48
    Аз пиша такива. Ако искаш, кажи на ЛС.
     
  8. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    ОК, ако нещо има, ще пиша. Просто не знаех, че толкова хора имат опит в това. Изненадан съм....вие не си ли пишете сами статиите? :) Шегувам се.
     
  9. arcsales

    arcsales Active Member

    Рег.:
    Дек 2, 2015
    Съобщения:
    289
    Харесвания:
    33
    Точки:
    28
    Аз мисля да си "сглобя" един, както препоръча Иво.
    Идеята на @madmax3 е супер. Оспамих ти сайта :D , но пък открих някой пропуски в няколко мои сайтове.
    Направих малко проучване и съвсем не изглежда трудно.
     
  10. Sky

    Sky Well-Known Member

    Рег.:
    Юли 29, 2012
    Съобщения:
    8,824
    Харесвания:
    648
    Точки:
    113
    Пол:
    Мъж
    Място:
    Стара Загора
    http://simplehtmldom.sourceforge.net/
    +
    http://www.mustbebuilt.co.uk/php/insert-update-and-delete-with-pdo/
    И си готов,
     
  11. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    Мисля, че PHP няма да е подходящ език за целта. Ще е нужно мощност тук. Да не говорим, че става дума за над 200 сайта. Мерси за споделеното инфо. :)
     
  12. Sky

    Sky Well-Known Member

    Рег.:
    Юли 29, 2012
    Съобщения:
    8,824
    Харесвания:
    648
    Точки:
    113
    Пол:
    Мъж
    Място:
    Стара Загора
    Че не е най-подходящото не е, но пък само за 200 сайта ако е...
    Набиваш му един крон и си гледаш работата.
    ПП хостинга да му мисли :D
     
  13. Torbalan Trolski

    Torbalan Trolski Well-Known Member

    Рег.:
    Авг 1, 2013
    Съобщения:
    2,093
    Харесвания:
    441
    Точки:
    83
    Че какво ти пречи да го пуснеш на локална машина и да го блъскаш в локална база. Cli-ти си работи където ти е кеф.
     
  14. AMitrev

    AMitrev Well-Known Member

    Рег.:
    Авг 6, 2012
    Съобщения:
    1,556
    Харесвания:
    244
    Точки:
    63
    Пол:
    Мъж
    Място:
    София
    @Blinky договори си правата за ползване и съм сигурен, че ще ти дадат xml feed с нужното ;).
    Нужно ли е да "кредеш" информацията на другите?
     
  15. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    По принцип сегашното решение е точно с такава структура - локална машина и праща към друга, която обработва информацията и я налива в базата. От там вече какво искаш си правиш. Това не е за обикновен хостинг, дори е на ръба за VPS. :) Но и много проксита май ще е нужно. Заявките реално ще са постоянни, а машината с базата ще трябва да се обръща през 30 мин. или по-малко време за нови неща.
     
  16. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    По принцип по интелигентен начин е с RSS каналите, чисто бързо, лесно и определено не ти е нужно да товариш каквито и да е ресурси. Хубавото е също така, че сменили се структурата, в повечето случаи RSS остава същия формат, стига да не е някакво генерална смяна на системата.
     
  17. AMitrev

    AMitrev Well-Known Member

    Рег.:
    Авг 6, 2012
    Съобщения:
    1,556
    Харесвания:
    244
    Точки:
    63
    Пол:
    Мъж
    Място:
    София
    Не става дума за интелигенция. Ако имаш правата да копираш съдържанието на разни сайтове то ще имаш нужният канал по който това да се случва - вие се разбирате как да се случва ;).
    Просто ми е интерснно как от едни от подкрепящите авторското право мина от другата страна :D. Между другото: RSS е стандарт, така че каквото и да е система няма как да се промени ;).

    Няма проблем да се парсват и 1000 сайта с PHP въпрос на код.
    Прокситата за какво са ти? Ако е за да се криеш няма да ти се получи :). Ако отсреща има човек, който държи сайта да не му се копира ще може да хване периодичните ти рекуести и да те блокне.

    Намериш ли някакво готово решение или нещо подобно на недуразумението "PHP Simple HTML DOM Parser" ще има да береш много ядове дни след като си го стартирал.

    Интересно ми е как така реши, че ще ти трябва много ресурс за това след като не си избрал технология?
     
  18. Sky

    Sky Well-Known Member

    Рег.:
    Юли 29, 2012
    Съобщения:
    8,824
    Харесвания:
    648
    Точки:
    113
    Пол:
    Мъж
    Място:
    Стара Загора
    Е не се знае какво ще се парсва, че да се говори за авторски права.
     
  19. Blinky

    Blinky Owner

    Рег.:
    Апр 12, 2006
    Съобщения:
    22,896
    Харесвания:
    1,641
    Точки:
    113
    Пол:
    Мъж
    Професия:
    Dev
    Място:
    Sofia
    Съдейки по това, което в момента гледам. C# - над 4000 новини на 1-2 часа. Мисля, че не е малко.
     
  20. AMitrev

    AMitrev Well-Known Member

    Рег.:
    Авг 6, 2012
    Съобщения:
    1,556
    Харесвания:
    244
    Точки:
    63
    Пол:
    Мъж
    Място:
    София
    @Sky как да не се знае? Ще се парсва чуждо съдържание, така че да има авторски права ;).

    @Blinky ако при 4000 рекуеста на всеки 1-2 часа ви товари то гръмнете програмиста докато е време :).

    В момента ползвам една куца услуга при която ми се налага да парсвам по 80-100 страници на всяка минута и всичко спи (отнема около 10-30сек).
    Чакам деня в който ще мигрират и ще получавам данните накуп в xml/json/etc. :)
     

Сподели страницата

  1. This site uses cookies. By continuing to use this site, you are agreeing to our use of cookies.
    Dismiss Notice