Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • Users
  • Groups
Skins
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (No Skin)
  • No Skin
Collapse
MediathekView Logo

MediathekView-Forum

  1. Home
  2. Ideen, Anregungen, Verbesserungen
  3. Wenn ARTE die zentralen Crawler von MediathekView sperrt, dann sollten wir alle Crawlen - alle können sie nicht sperren.

Wenn ARTE die zentralen Crawler von MediathekView sperrt, dann sollten wir alle Crawlen - alle können sie nicht sperren.

Scheduled Pinned Locked Moved Ideen, Anregungen, Verbesserungen
6 Posts 6 Posters 1.4k Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • M Offline
    M Offline
    MarcusK
    wrote on last edited by
    #1

    Mediatheken der Fernseh-Sender können einige, wenige IPs von fix installierten Crawlern sperren, aber nicht verteilte Crawler einer großen Kunden-Anzahl. Also müssen viele/alle die Mediatheken durchforsten. Man kann zentrale Crawler daran erkennen, daß sie regelmäßig die gesamte Site durchsuchen. Man kann aber nicht alle aussperren, die ab und zu einen Teil der Site durchsuchen - sonst müßte man alle Benutzer aussperren.

    Würden wir noch weitere, zusätzliche Crawler und Server mit neuen, fixen IP-Adressen installieren, dann suchen diese jede (2.) Stunde die gesamte Mediathek ab, würden erkannt und auch gesperrt. Das ist leider keine Lösung.

    Die Suche muß über möglichst viele IP Adressen verteilt und möglichst unregelmäßig erfolgen. Von uns MediathekView-Nutzern.

    public, distributed Crawling:

    Dafür gäbe es viele unterschiedliche Möglichkeiten, ich greife einige heraus:

    • jeder MediathekView Benutzer scannt einen Teil einer Mediathek, wer MediathekView nutzt, trägt auch bei. Crawlen ist Teil des MedathekView Clients.
    • Interessierte “Unterstützer” installieren ein Programm, das unregelmäßig Mediatheken oder Abschnitte von Mediatheken “crawlt”. Es sollten möglichst viele teilnehmen, damit IP-Adressen nur unregelmäßig scannen und nicht “auffallen”.
    • Echte Fans und Power-Unterstützer könnten einen Raspberry Pi verwenden, eine vorkonfigurierte Speicherkarte herunterladen und zum Power-Crawler werden, aber schön unregelmäßig.

    Es werden nur Rohdaten “ge-crawlt” und zu den etablierten, zentralen Crawlern übertragen, diese bauen die Listen zusammen, wie gehabt.

    Idee: BOINC, bekannt von SETI@home, schneidet Rechenaufgaben in Teile, Teilnehmer laden die Rechenaufgaben ohne Verpflichtung, die Ergebnisse werden validiert (am Einfachsten mehrmals berechnet und verglichen) und abgespeichert. Das ist berühmt!

    In unserem Fall geht es nicht um Rechenleistung, sondern um Netzwerk-Suchen und um weit verteilte IP-Adressen. Für den Einzelnen sollten kaum Aufwände entstehen, die Datenmengen sind ein Klax im Vergleich zu einem Video-Stream.

    • Unsere vielen einzelnen Crawler suchen Abschnitte einer Mediathek ab und senden die Roh-Daten an die Mediathek-Crawler. Die Mediathek-Crawler validieren, überprüfen auf Duplikate, erstellen die Mediatheks-Liste zusammen - wie bisher.*
    • Die zentralen Crawler teilen die einzelnen Mediatheken in kleinere, “unauffälligere” Abschnitte und weisen den verteilten Crawlern Aufgaben zu.
    • Die verteilten Crawler werden mit den Such-Pfaden und den Roh-Filtern beauftragt, um in den Mediatheken navigieren und extrahieren zu können.
    • Die zentralen Crawler plausibilitäts-prüfen die eingesammelten Ergebnisse und fügen sie als Rohdaten in die bestehenden Datenstrukturen ein. Die endgültige Auswertung wäre dann wie bisher.
    • Die verteilten Crawler müssen automatisch mit den neuesten Such-Pfaden und Filtern upgedated werden.

    Wir sollten jetzt in unserer Arte-Not eine Diskussion beginnen:

    • Verzichten wir auf ARTE? - Bitte nicht!!!
    • Kann man den aktuellen, aufwendig optimierten Crawler mit vernünftigem Aufwand erweitern?
    • Wären die Mediathek-Nutzer bereit, an den genutzten Ergebnissen mitzuarbeiten?

    Liebe Entwickler, ich bin in den letzten 20 Jahren eher Java-scheu und habe mir Euren Source-Code nicht durchgelesen. Ich kann Euren Aufwand nicht abschätzen. Aber ARTE wäre einige Mühe wert!

    Marcus

    Jo GrotheJ 1 Reply Last reply
    • Jo GrotheJ Offline
      Jo GrotheJ Offline
      Jo Grothe
      replied to MarcusK on last edited by
      #2

      @MarcusK
      Finde, das sind grundsätzlich gute Ideen, sofern arte nicht zum Einlenken bereit ist.
      Bin selber auch nicht der Power-Programmierer, vermute aber, dass das ein größeres Projekt werden würde. Den Aufwand müssten wohl die bisherigen Entwickler am ehesten einschätzen können.
      Vielleicht wäre dann auch vorher mal eine kleine Umfrage sinnvoll um herauszufinden, wieviele der der MV-Nutzerinnen (bzw. der Forums-Leserinnen) bereit wären, solch einen distributed-crawler zu installieren und laufen zu lassen. (Ich wäre sofort dabei.)

      1 Reply Last reply
      • S Offline
        S Offline
        SteffenF
        wrote on last edited by
        #3

        Re: [Wenn ARTE die zentralen Crawler von MediathekView sperrt](dann sollten wir alle Crawlen - alle können sie nicht sperren.)

        Habt Ihr tatsächlich vor, eine DDoS-Attacke gegen arte zu fahren?
        Ihr könnt nicht ernsthaft vorhaben, die Entwickler und Moderatoren von MV zu kriminalisieren?
        Schraubt Eure “Ich will alles für lau haben Mentalität” auf ein erträgliches Maß zurück!
        SteffenF

        1 Reply Last reply
        • iks-jottI Offline
          iks-jottI Offline
          iks-jott Globaler Moderator
          wrote on last edited by
          #4

          Nur mal so, hier kann JEDER mitlesen!

          Gruß

          Auch ein Maulwurfn findet mal ein Huhn!

          S 1 Reply Last reply
          • S Offline
            S Offline
            sunrise
            replied to iks-jott on last edited by
            #5

            @iks-jott Genau das habe ich hier und bei anderen Problemen auch schon r gedacht, wenn wieder einmal ein Post völlig übers Ziel hinausgeschossen ist (z.B. mit den ORF-Problemen). Bitte Mit-User lasst eure Gehirne eingeschaltet. SteffenF hat hundertprozentig recht, ich würde es sogar noch viel krasser ausdrücken. Zudem ist Arte ja noch da, nur nicht so megakomfortabel wie mit dem unerreichten MV.

            1 Reply Last reply
            • Nicklas2751N Offline
              Nicklas2751N Offline
              Nicklas2751 Administrator
              wrote on last edited by
              #6

              Ruhig blut. Wir haben auch schon Ideen wie man das lösen könnte aber erstmal abwarten ob und was Arte uns antwortet.

              Um der allg. Arte Diskussion etwas einhalt zu gebieten :locked:

              MediathekView Entwickler | Bugs?: Anleitung Fehler melden | Fehlende Sendungen?: Fehlende Sendung melden

              1 Reply Last reply

              50

              Online

              6.7k

              Users

              6.2k

              Topics

              39.4k

              Posts
              • Login

              • Don't have an account? Register

              • Login or register to search.
              • First post
                Last post
              0
              • Categories
              • Recent
              • Tags
              • Popular
              • Users
              • Groups