Crawlerzeitplan & BR-Blockade



  • Irgendwie verstehe ich da was noch nicht, evtl. kann mir da einer auf die Sprünge helfen.

    Ich werf MV meist nur so alle 3-4 Tage an, wenn ich Nachts nochmal an den PC komme und habe mich schon etwas gewundert, dass ich vom BR nichts Neues mehr finde und heute habe ich dann gemerkt dass meine Liste ja nur bis Mai geht beim BR (der Rest ist wunderbar).
    Nach dem Nachlesen im Forum ist dann halt nur noch diese Unklarheit geblieben.
    Der BR blockt einen der Crawler. ok.
    Die Crawlerzeiten sind bekannt. auch ok.
    Aber, kann es sein, dass Crawler 2, der ist den der BR blockt?
    Falls ja, ist das imho ungeschickt, da er der Erster und auch der Letzte Crawler eines jeden Tages ist.
    Somit wird es nach 23:15/30 bis früh 6:15/30 recht schwierig Sendungen des BR in den Download zu stellen. Oder verstehe ich da was falsch?

    Bei all den Leuten hier die sich sicherlich besser auskennen als ich habe ich Hoffnung, dass mir einer erklären kann was ich tun könnte oder ob ich einfach nur etwas falsch mache.
    (Außer dass ich halt früher an den PC müsste - das lässt mein Arbeitgeber mit dem Arbeitsende nicht zu).

    MfG
    Ciannicay



  • Hallo Ciannicay,

    das gleiche hatte ich auch schon mal überlegt, aber die Frage ist halt, was da Ursache und was Wirkung ist. Mit anderen Worten: Vielleicht ist der erste Crawler vielleicht gerade deshalb geblockt, weil er der erste ist. Denn der erste Lauf morgens ist wohl (viel?) ausführlicher als die weiteren. Und wenn das der Grund für die Blockade ist, wäre es kontraproduktiv, die Aufgaben/Zeit der beiden Crawler zu tauschen. Im schlimmsten Fall wird der zweite Crawler auch noch blockiert und dann gibts gar nichts mehr vom BR.

    Also da lieber nichts daran rütteln.

    Ich hatte neulich vorgeschlagen Filmlisten der beiden Crawl-Server [zu] mergen, was sogar noch mehr brächte, als nur ein Tausch der Server. Das wurde von den Entwicklern zwar noch 🙂 nicht aufgegriffen, aber TheSasch hat dort etwas über Hintergründe der Blockade geschrieben.

    herbivore



  • Hallo herbivore!

    Danke. Aus Deiner Antwort schließe ich nämlich, dass ich wohl nichts falsch mache, sondern einfach nur Pech habe.

    Ich hab noch ein wenig weiter gegrübelt:
    Die Idee nach dem 23Uhr lauf noch einen vom “richtigen , kompletten” Crawler einzutüten, also 0:00 Uhr, würde dann vermutlich auch bereits die große Datenmenge bedeuten und die Gefahr einer Sperrung mit sich bringen, oder?

    Wie sieht es denn mit der Filmliste im Archiv aus, ist da ggf gesichert (oder Sicherstellbar?) dass die von Crawler3 kommt?

    Dann muss ich halt abends manuell aus dem Archiv updaten, aber nachdem ich eh nur alle paar Tage MV anwerfe bin ich Schmerzfrei wenn “meine” Liste etwas älter ist, solange sie nur komplett ist.

    Ich hab auch gelesen, dass man ggf selber crawlen könnte, aber da hab ich noch nicht genug Infos drüber gefunden (hat einer zufällig nen Link parat, sonst such ich halt weiter)

    Habe auch schon was über die Bestrebungen das Crawlern generell neu zu designen gelesen. Bin gespannt was dabei rauskommt.
    Spontan denke ich da in die Richtung des verteilten crawlens ala BOINC crunching: Jeder der MV-Client bekommt vom Filmlisten-Server ein kleines Aufgabenpaket, das er crawlen und zurückmelden soll. Aber was weiß ich denn ob so etwas realisierbar und gewünscht wäre.

    MfG
    Ciannicay



  • Hallo Ciannicay,

    zu 1. Ich vermute eher, dass die Art des Laufs durch Kommandozeilenparameter bestimmt wird. Ein zusätzlicher normaler Lauf eine Stunde nach 23 Uhr könnte also durchaus möglich sein, ohne die Gefahr einer Blockade über die Maßen zu erhöhen. Entscheiden müss(t)en das aber die @Entwicker.

    zu 2. Die Archivdateien sind immer von 14:51. Das spricht dafür, dass dort die geraden, also die in deinem Sinne richtigen Listen archiviert werden. Eine 100%ige Garantie gibt es eh nicht. Neulich haben bestimmte Sendungen des ZDF genau in den geraden Listen gefehlt und waren nur in den ungeraden drin. Ich hatte im Stillen zwar gedacht, dass der Merge-Vorschlag das Problem vermieden hätte, aber ich will die Entwickler auch nicht nerven, indem ich den Vorschlag dauernd wiederhole. Auch hier hab ich den Thread weniger wegen des Vorschlags, als eher wegen der enthaltenen weitergehenden Informationen verlinkt.

    zu 3. Selber komplett durch die Mediatheken crawlen halte ich für keine gute Idee, auch wenn es machbar wäre, denn die Crawler sind ja open source. Aber wenn das zur Alternative erklärt würde und viele Leute das machen würden, würde das die Mediatheken aus meiner Sicht unnötig und unangemessen belasten.

    zu 4. Klar, so ein verteiltes (Peer-)Crawlen hätte seine Vorteile. Insbesondere könnte es nicht blockiert werden. Allerdings dürfte es technisch durchaus anspruchsvoll sein; insbesondere das Ganze robust und manipulationssicher hinzubekommen. Und es birgt auch Risiken für die einzelnen Nutzer.

    herbivore



  • @herbivore sagte: zu 2. Die Archivdateien sind immer von 14:51. Das spricht dafür, dass dort die geraden, also die in deinem Sinne richtigen Listen archiviert werden.

    Als ich das vor einigen Wochen (finde den Thread nicht mehr) stichprobenartig getestet hatte, war das so.

    @herbivore sagte: Neulich haben bestimmte Sendungen des ZDF genau in den geraden Listen gefehlt und waren nur in den ungeraden drin.

    Da ging es aber weder um Archivlisten, noch um den BR…

    @herbivore sagte: zu 3. Selber komplett durch die Mediatheken crawlen halte ich für keine gute Idee, auch wenn es machbar wäre

    Fürwahr, in MV 3 und älter war diese Crawling-Option sogar im Client enthalten. Wegen ungeduldigen Nutzern, die nicht ein paar Stunden warten konnten, bis eine Sendung vom offiziellen Crawler gefunden wurde, musste dieses Feature entfernt werden.



  • Danke für Eure Informationen.
    Dann werde ich auf die Archiv-Dateien Zugriff nehmen, wenn ich wieder BR-freie Daten haben sollte. Nachdem das von meiner Seite aus nur ab und an passiert, sollte der Archiv-Server das überleben 😉

    Danke auch für den ganzen Input, das hat mir sehr geholfen die Puzzleteile in meinem Kopf zu einem Bild zusammen fügen zu können.

    MfG
    Ciannicay



  • @herbivore sagte in Crawlerzeitplan & BR-Blockade:

    Ich hatte neulich vorgeschlagen Filmlisten der beiden Crawl-Server [zu] mergen, was sogar noch mehr brächte, als nur ein Tausch der Server. Das wurde von den Entwicklern zwar noch 🙂 nicht aufgegriffen, aber TheSasch hat dort etwas über Hintergründe der Blockade geschrieben.

    herbivore

    früher war es auch schon so, dass die Filmlisten der Crawler vor dem Upload gemergt wurden, so gab es nicht das Problem, dass man je nach Ladezeit der Filmliste immer wieder die gleichen Filme als “neu” bekam. Vielleicht ist das ja wieder mal möglich


 

99
Online

2.5k
Benutzer

2.1k
Themen

12.4k
Beiträge