• Jetzt anmelden. Es dauert nur 2 Minuten und ist kostenlos!

Wie funktioniert Web-Scraping/Crawling?

tmn

Neues Mitglied
Hey ich wollte mal fragen wie Web-Scraping bzw Web-Crawling funktioniert. Als Beispiel: ich will eine "kopie" von kinox.to machen. wie kann ich die einzelnen filme automatisiert rauskopieren und in eine datenbank einsetzen?

ich bin alles andere als bewandert was datenbanken angeht...
könnte mir evtl. jmd erklären wie dbs allgemein funktionieren?

Danke fuer eure Mühe

MfG tmn
 
Technisch gesehen kann man alles was im Web irgendwie zur Verfügung gestellt wird runterladen. Wenn man eine ganze Webseite runterladen will, dann gibt es dafür auch entsprechende Programme. Die Stichwörter nach denen Du suchen musst um so eines zu finden, hast Du selbst schon genannt. Im Ergebnis werden die runtergeladenen Daten aber nicht in einer Datenbank gespeichert sondern als Dateien auf dem lokalen System abgelegt.

Rechtlich gesehen halte ich es jedoch für eine Grauzone überhaupt eine Seite auf die Art zu kopieren. Eigentlich müsste man das mit dem Webseiten-Inhaber absprechen, da es darum geht von ihm erschaffene "Werke" zu vervielfältigen. Das lässt sich keiner wirklich gerne zu.
In Bezug auf die von dir genannte Webseite würde ich dir sogar raten, gar nicht weiter darüber nachzudenken, da du dich damit auch noch strafbar machst. Unrechtmäßig online gestellte Videos werden nicht dadurch legalisiert, dass man sie einfach auch runterlädt.

Wenn Du einen Einstieg in Datenbanken willst, schau dir z.B. MySQL-Tutorials an. Hier gibt es eines dazu mit Bezug auf PHP:
PHP fr dich - mySQL und phpMyAdmin
 
Technisch gesehen kann man alles was im Web irgendwie zur Verfügung gestellt wird runterladen. Wenn man eine ganze Webseite runterladen will, dann gibt es dafür auch entsprechende Programme. Die Stichwörter nach denen Du suchen musst um so eines zu finden, hast Du selbst schon genannt. Im Ergebnis werden die runtergeladenen Daten aber nicht in einer Datenbank gespeichert sondern als Dateien auf dem lokalen System abgelegt.

Rechtlich gesehen halte ich es jedoch für eine Grauzone überhaupt eine Seite auf die Art zu kopieren. Eigentlich müsste man das mit dem Webseiten-Inhaber absprechen, da es darum geht von ihm erschaffene "Werke" zu vervielfältigen. Das lässt sich keiner wirklich gerne zu.
In Bezug auf die von dir genannte Webseite würde ich dir sogar raten, gar nicht weiter darüber nachzudenken, da du dich damit auch noch strafbar machst. Unrechtmäßig online gestellte Videos werden nicht dadurch legalisiert, dass man sie einfach auch runterlädt.

Wenn Du einen Einstieg in Datenbanken willst, schau dir z.B. MySQL-Tutorials an. Hier gibt es eines dazu mit Bezug auf PHP:
PHP fr dich - mySQL und phpMyAdmin

ich meinte eher dass man die filmdatenbank kopiert um zb eine eigene filmsite aufzumachen und die streams dort aus der original datenbank automatisch einzufügen
 
Technischer Part:
Eine Datenbank kann man nur kopieren, wenn man auch Zugriffsrechte auf diese hat. Die hast Du nicht und wirst sie mit Sicherheit auch nicht bekommen. Du kannst nur die Seiten selbst kopieren, diese landen dann aber wie gesagt nicht in deiner Datenbank sondern in deinem Filesystem als Dateien. Wenn Du Daten aus diesen Seiten dann in eine Datenbank einfügen willst, musst Du einen Parser schreiben der die benötigten/gewünschten Daten aus den Dateien extrahiert und in die Datenbank einfügt. Das ginge z.B. mit PHP, aber auch mit C++, Perl und jeder anderen Programmiersprache. Eine Datenbank selbst kann das nicht.

Rechtlicher Part:
Eine 1:1 Kopie einer Datenbank anzulegen bedarf auch der Einwilligung der Original-Inhaber. Das kannst Du nicht einfach so machen. Ganz zu schweigen von der rechtlichen Sicht auf die Dinge die dort angeboten werden die Du kopieren willst.
 
ich will nicht zu sehr abschweifen aber das einzige was mir angekreidet werden kann ist das vorsätzliche verlinken auf externe sites auf die ich keinen einfluss habe die urheberrechtsverletzende kopien von filmen anbieten.
danke für die erklärung ich weiss das klingt etwas makaber aber was will der betreiber von kinox.to machen? mich anzeigen wird schwierig ;)

auf jeden fall sind es ja nicht seine streams. die streams liegen zb bei stream2k etc und sind nicht sein eigentum das einzige was evtl sein "eigentum" ist ist die mühe die er investiert hat um die streams zu sammeln und in die datenbank zu streamen.

ich müsste also etwas schreiben das genau den teil des quelltextes kopiert den ich will dazu bin ich dann doch nicht in der lage ;)
danke für die hilfe :)
 
Ich finde nicht, das Threads, in denen solche Absichten proklamiert werden, in dieses Forum gehören.
 
Zurück
Oben