Wenn ARTE die zentralen Crawler von MediathekView sperrt, dann sollten wir alle Crawlen - alle können sie nicht sperren.



  • Mediatheken der Fernseh-Sender können einige, wenige IPs von fix installierten Crawlern sperren, aber nicht verteilte Crawler einer großen Kunden-Anzahl. Also müssen viele/alle die Mediatheken durchforsten. Man kann zentrale Crawler daran erkennen, daß sie regelmäßig die gesamte Site durchsuchen. Man kann aber nicht alle aussperren, die ab und zu einen Teil der Site durchsuchen - sonst müßte man alle Benutzer aussperren.

    Würden wir noch weitere, zusätzliche Crawler und Server mit neuen, fixen IP-Adressen installieren, dann suchen diese jede (2.) Stunde die gesamte Mediathek ab, würden erkannt und auch gesperrt. Das ist leider keine Lösung.

    Die Suche muß über möglichst viele IP Adressen verteilt und möglichst unregelmäßig erfolgen. Von uns MediathekView-Nutzern.

    public, distributed Crawling:

    Dafür gäbe es viele unterschiedliche Möglichkeiten, ich greife einige heraus:

    • jeder MediathekView Benutzer scannt einen Teil einer Mediathek, wer MediathekView nutzt, trägt auch bei. Crawlen ist Teil des MedathekView Clients.
    • Interessierte “Unterstützer” installieren ein Programm, das unregelmäßig Mediatheken oder Abschnitte von Mediatheken “crawlt”. Es sollten möglichst viele teilnehmen, damit IP-Adressen nur unregelmäßig scannen und nicht “auffallen”.
    • Echte Fans und Power-Unterstützer könnten einen Raspberry Pi verwenden, eine vorkonfigurierte Speicherkarte herunterladen und zum Power-Crawler werden, aber schön unregelmäßig.

    Es werden nur Rohdaten “ge-crawlt” und zu den etablierten, zentralen Crawlern übertragen, diese bauen die Listen zusammen, wie gehabt.

    Idee: BOINC, bekannt von SETI@home, schneidet Rechenaufgaben in Teile, Teilnehmer laden die Rechenaufgaben ohne Verpflichtung, die Ergebnisse werden validiert (am Einfachsten mehrmals berechnet und verglichen) und abgespeichert. Das ist berühmt!

    In unserem Fall geht es nicht um Rechenleistung, sondern um Netzwerk-Suchen und um weit verteilte IP-Adressen. Für den Einzelnen sollten kaum Aufwände entstehen, die Datenmengen sind ein Klax im Vergleich zu einem Video-Stream.

    • Unsere vielen einzelnen Crawler suchen Abschnitte einer Mediathek ab und senden die Roh-Daten an die Mediathek-Crawler. Die Mediathek-Crawler validieren, überprüfen auf Duplikate, erstellen die Mediatheks-Liste zusammen - wie bisher.*
    • Die zentralen Crawler teilen die einzelnen Mediatheken in kleinere, “unauffälligere” Abschnitte und weisen den verteilten Crawlern Aufgaben zu.
    • Die verteilten Crawler werden mit den Such-Pfaden und den Roh-Filtern beauftragt, um in den Mediatheken navigieren und extrahieren zu können.
    • Die zentralen Crawler plausibilitäts-prüfen die eingesammelten Ergebnisse und fügen sie als Rohdaten in die bestehenden Datenstrukturen ein. Die endgültige Auswertung wäre dann wie bisher.
    • Die verteilten Crawler müssen automatisch mit den neuesten Such-Pfaden und Filtern upgedated werden.

    Wir sollten jetzt in unserer Arte-Not eine Diskussion beginnen:

    • Verzichten wir auf ARTE? - Bitte nicht!!!
    • Kann man den aktuellen, aufwendig optimierten Crawler mit vernünftigem Aufwand erweitern?
    • Wären die Mediathek-Nutzer bereit, an den genutzten Ergebnissen mitzuarbeiten?

    Liebe Entwickler, ich bin in den letzten 20 Jahren eher Java-scheu und habe mir Euren Source-Code nicht durchgelesen. Ich kann Euren Aufwand nicht abschätzen. Aber ARTE wäre einige Mühe wert!

    Marcus



  • @MarcusK
    Finde, das sind grundsätzlich gute Ideen, sofern arte nicht zum Einlenken bereit ist.
    Bin selber auch nicht der Power-Programmierer, vermute aber, dass das ein größeres Projekt werden würde. Den Aufwand müssten wohl die bisherigen Entwickler am ehesten einschätzen können.
    Vielleicht wäre dann auch vorher mal eine kleine Umfrage sinnvoll um herauszufinden, wieviele der der MV-Nutzerinnen (bzw. der Forums-Leserinnen) bereit wären, solch einen distributed-crawler zu installieren und laufen zu lassen. (Ich wäre sofort dabei.)



  • Re: [Wenn ARTE die zentralen Crawler von MediathekView sperrt](dann sollten wir alle Crawlen - alle können sie nicht sperren.)

    Habt Ihr tatsächlich vor, eine DDoS-Attacke gegen arte zu fahren?
    Ihr könnt nicht ernsthaft vorhaben, die Entwickler und Moderatoren von MV zu kriminalisieren?
    Schraubt Eure “Ich will alles für lau haben Mentalität” auf ein erträgliches Maß zurück!
    SteffenF


  • Globaler Moderator

    Nur mal so, hier kann JEDER mitlesen!

    Gruß



  • @iks-jott Genau das habe ich hier und bei anderen Problemen auch schon r gedacht, wenn wieder einmal ein Post völlig übers Ziel hinausgeschossen ist (z.B. mit den ORF-Problemen). Bitte Mit-User lasst eure Gehirne eingeschaltet. SteffenF hat hundertprozentig recht, ich würde es sogar noch viel krasser ausdrücken. Zudem ist Arte ja noch da, nur nicht so megakomfortabel wie mit dem unerreichten MV.


  • Administrator

    Ruhig blut. Wir haben auch schon Ideen wie man das lösen könnte aber erstmal abwarten ob und was Arte uns antwortet.

    Um der allg. Arte Diskussion etwas einhalt zu gebieten 🔒


Log in to reply
 

97
Online

3.4k
Users

2.7k
Topics

16.9k
Posts