Робот за скрейпене на онлайн издание

Blinky

Owner
Здравейте приятели. Случайно някой от вас да има или да знае за робот, скрипт или цяла програма, която да може да изтегля от да речем бг сайтовете новини и да ги налива в база? Не говоря за плъгин, защото и системата е къстам. Просто скрипт, който от едната страна да скрейпи, а от другата да пълни база, хващайки основните параметри: заглавие, подзаглавие, дата на статията, съдържанието (тялото на статията), url адрес. Това е в общи линии. Ще се радвам ако някой има идея да пише. Няма значение на какво е написано, важното е да върши работа.
 
Здравей
Разгледай първия сайт от подписа ми в раздела "Директория" или тази https://www.predpriemach.com/thread...ии-линкове-реклами-и-обяви.70376/#post-832189 тема
Въвежда се само адреса на сайта и се изтегля информацията от него, включитело и снимките. Може да го тестваш, но трябва да се регистрираш в сайта. Регистрацията е валидна и за двата сайта от подписа.
Новините също се вземат автоматично от RSS емисии с мой скрипт. При желание от твоя страна съм на разположение за въпроси.
 
Мерси много. Ако има други предложения, ще се радвам. ;)
По принцип всичко е 40/50 реда код.
След толкоз време вярвам вече си на ниво да го сглобиш.
 
Аз пиша такива. Ако искаш, кажи на ЛС.
 
Аз мисля да си "сглобя" един, както препоръча Иво.
Идеята на @madmax3 е супер. Оспамих ти сайта :D , но пък открих някой пропуски в няколко мои сайтове.
Направих малко проучване и съвсем не изглежда трудно.
 
Аз мисля да си "сглобя" един, както препоръча Иво.
Идеята на @madmax3 е супер. Оспамих ти сайта :D , но пък открих някой пропуски в няколко мои сайтове.
Направих малко проучване и съвсем не изглежда трудно.
http://simplehtmldom.sourceforge.net/
+
http://www.mustbebuilt.co.uk/php/insert-update-and-delete-with-pdo/
И си готов,
 
Мисля, че PHP няма да е подходящ език за целта. Ще е нужно мощност тук. Да не говорим, че става дума за над 200 сайта. Мерси за споделеното инфо. :)
Че не е най-подходящото не е, но пък само за 200 сайта ако е...
Набиваш му един крон и си гледаш работата.
ПП хостинга да му мисли :D
 
Мисля, че PHP няма да е подходящ език за целта. Ще е нужно мощност тук. Да не говорим, че става дума за над 200 сайта. Мерси за споделеното инфо. :)
Че не е най-подходящото не е, но пък само за 200 сайта ако е...
Набиваш му един крон и си гледаш работата.
ПП хостинга да му мисли :D
Че какво ти пречи да го пуснеш на локална машина и да го блъскаш в локална база. Cli-ти си работи където ти е кеф.
 
@Blinky договори си правата за ползване и съм сигурен, че ще ти дадат xml feed с нужното ;).
Нужно ли е да "кредеш" информацията на другите?
 
Че какво ти пречи да го пуснеш на локална машина и да го блъскаш в локална база. Cli-ти си работи където ти е кеф.
По принцип сегашното решение е точно с такава структура - локална машина и праща към друга, която обработва информацията и я налива в базата. От там вече какво искаш си правиш. Това не е за обикновен хостинг, дори е на ръба за VPS. :) Но и много проксита май ще е нужно. Заявките реално ще са постоянни, а машината с базата ще трябва да се обръща през 30 мин. или по-малко време за нови неща.
 
@Blinky договори си правата за ползване и съм сигурен, че ще ти дадат xml feed с нужното ;).
Нужно ли е да "кредеш" информацията на другите?
По принцип по интелигентен начин е с RSS каналите, чисто бързо, лесно и определено не ти е нужно да товариш каквито и да е ресурси. Хубавото е също така, че сменили се структурата, в повечето случаи RSS остава същия формат, стига да не е някакво генерална смяна на системата.
 
Не става дума за интелигенция. Ако имаш правата да копираш съдържанието на разни сайтове то ще имаш нужният канал по който това да се случва - вие се разбирате как да се случва ;).
Просто ми е интерснно как от едни от подкрепящите авторското право мина от другата страна :D. Между другото: RSS е стандарт, така че каквото и да е система няма как да се промени ;).

Няма проблем да се парсват и 1000 сайта с PHP въпрос на код.
Прокситата за какво са ти? Ако е за да се криеш няма да ти се получи :). Ако отсреща има човек, който държи сайта да не му се копира ще може да хване периодичните ти рекуести и да те блокне.

Намериш ли някакво готово решение или нещо подобно на недуразумението "PHP Simple HTML DOM Parser" ще има да береш много ядове дни след като си го стартирал.

Интересно ми е как така реши, че ще ти трябва много ресурс за това след като не си избрал технология?
 
Е не се знае какво ще се парсва, че да се говори за авторски права.
 
@Sky как да не се знае? Ще се парсва чуждо съдържание, така че да има авторски права ;).

@Blinky ако при 4000 рекуеста на всеки 1-2 часа ви товари то гръмнете програмиста докато е време :).

В момента ползвам една куца услуга при която ми се налага да парсвам по 80-100 страници на всяка минута и всичко спи (отнема около 10-30сек).
Чакам деня в който ще мигрират и ще получавам данните накуп в xml/json/etc. :)
 

Горе