Робот за скрейпене на онлайн издание

Blinky

Owner
Здравейте приятели. Случайно някой от вас да има или да знае за робот, скрипт или цяла програма, която да може да изтегля от да речем бг сайтовете новини и да ги налива в база? Не говоря за плъгин, защото и системата е къстам. Просто скрипт, който от едната страна да скрейпи, а от другата да пълни база, хващайки основните параметри: заглавие, подзаглавие, дата на статията, съдържанието (тялото на статията), url адрес. Това е в общи линии. Ще се радвам ако някой има идея да пише. Няма значение на какво е написано, важното е да върши работа.
 

madmax3

Member
Здравей
Разгледай първия сайт от подписа ми в раздела "Директория" или тази https://www.predpriemach.com/threads/Възможност-за-публикуване-на-статии-линкове-реклами-и-обяви.70376/#post-832189 тема
Въвежда се само адреса на сайта и се изтегля информацията от него, включитело и снимките. Може да го тестваш, но трябва да се регистрираш в сайта. Регистрацията е валидна и за двата сайта от подписа.
Новините също се вземат автоматично от RSS емисии с мой скрипт. При желание от твоя страна съм на разположение за въпроси.
 

Sky

Well-Known Member
Мерси много. Ако има други предложения, ще се радвам. ;)
По принцип всичко е 40/50 реда код.
След толкоз време вярвам вече си на ниво да го сглобиш.
 

garnet

Well-Known Member
Аз пиша такива. Ако искаш, кажи на ЛС.
 

arcsales

Active Member
Аз мисля да си "сглобя" един, както препоръча Иво.
Идеята на @madmax3 е супер. Оспамих ти сайта :D , но пък открих някой пропуски в няколко мои сайтове.
Направих малко проучване и съвсем не изглежда трудно.
 

Sky

Well-Known Member
Аз мисля да си "сглобя" един, както препоръча Иво.
Идеята на @madmax3 е супер. Оспамих ти сайта :D , но пък открих някой пропуски в няколко мои сайтове.
Направих малко проучване и съвсем не изглежда трудно.
http://simplehtmldom.sourceforge.net/
+
http://www.mustbebuilt.co.uk/php/insert-update-and-delete-with-pdo/
И си готов,
 

Sky

Well-Known Member
Мисля, че PHP няма да е подходящ език за целта. Ще е нужно мощност тук. Да не говорим, че става дума за над 200 сайта. Мерси за споделеното инфо. :)
Че не е най-подходящото не е, но пък само за 200 сайта ако е...
Набиваш му един крон и си гледаш работата.
ПП хостинга да му мисли :D
 

Torbalan Trolski

Well-Known Member
Мисля, че PHP няма да е подходящ език за целта. Ще е нужно мощност тук. Да не говорим, че става дума за над 200 сайта. Мерси за споделеното инфо. :)
Че не е най-подходящото не е, но пък само за 200 сайта ако е...
Набиваш му един крон и си гледаш работата.
ПП хостинга да му мисли :D
Че какво ти пречи да го пуснеш на локална машина и да го блъскаш в локална база. Cli-ти си работи където ти е кеф.
 

AMitrev

Well-Known Member
@Blinky договори си правата за ползване и съм сигурен, че ще ти дадат xml feed с нужното ;).
Нужно ли е да "кредеш" информацията на другите?
 

Blinky

Owner
Че какво ти пречи да го пуснеш на локална машина и да го блъскаш в локална база. Cli-ти си работи където ти е кеф.
По принцип сегашното решение е точно с такава структура - локална машина и праща към друга, която обработва информацията и я налива в базата. От там вече какво искаш си правиш. Това не е за обикновен хостинг, дори е на ръба за VPS. :) Но и много проксита май ще е нужно. Заявките реално ще са постоянни, а машината с базата ще трябва да се обръща през 30 мин. или по-малко време за нови неща.
 

Blinky

Owner
@Blinky договори си правата за ползване и съм сигурен, че ще ти дадат xml feed с нужното ;).
Нужно ли е да "кредеш" информацията на другите?
По принцип по интелигентен начин е с RSS каналите, чисто бързо, лесно и определено не ти е нужно да товариш каквито и да е ресурси. Хубавото е също така, че сменили се структурата, в повечето случаи RSS остава същия формат, стига да не е някакво генерална смяна на системата.
 

AMitrev

Well-Known Member
Не става дума за интелигенция. Ако имаш правата да копираш съдържанието на разни сайтове то ще имаш нужният канал по който това да се случва - вие се разбирате как да се случва ;).
Просто ми е интерснно как от едни от подкрепящите авторското право мина от другата страна :D. Между другото: RSS е стандарт, така че каквото и да е система няма как да се промени ;).

Няма проблем да се парсват и 1000 сайта с PHP въпрос на код.
Прокситата за какво са ти? Ако е за да се криеш няма да ти се получи :). Ако отсреща има човек, който държи сайта да не му се копира ще може да хване периодичните ти рекуести и да те блокне.

Намериш ли някакво готово решение или нещо подобно на недуразумението "PHP Simple HTML DOM Parser" ще има да береш много ядове дни след като си го стартирал.

Интересно ми е как така реши, че ще ти трябва много ресурс за това след като не си избрал технология?
 

Sky

Well-Known Member
Е не се знае какво ще се парсва, че да се говори за авторски права.
 

Blinky

Owner
Интересно ми е как така реши, че ще ти трябва много ресурс за това след като не си избрал технология?
Съдейки по това, което в момента гледам. C# - над 4000 новини на 1-2 часа. Мисля, че не е малко.
 

AMitrev

Well-Known Member
@Sky как да не се знае? Ще се парсва чуждо съдържание, така че да има авторски права ;).

@Blinky ако при 4000 рекуеста на всеки 1-2 часа ви товари то гръмнете програмиста докато е време :).

В момента ползвам една куца услуга при която ми се налага да парсвам по 80-100 страници на всяка минута и всичко спи (отнема около 10-30сек).
Чакам деня в който ще мигрират и ще получавам данните накуп в xml/json/etc. :)
 

Горе