ZDF-Crawler findet seit längerem Sendungen nur lückenhaft
-
Hallo @DaDirnbocher,
die kurze Antwort ist, nein, man muss keineswegs irgendwelche Klimzüge machen. Ich verwende den Workaround die ganze Zeit und Lücken sind mir wie gesagt bisher keine aufgefallen. Im konkreten Fall vermutlich, weil ich The Team auf Arte gesehen habe, aber sonst guck ich viel vom ZDF und wenns mehr als Einzelfälle wären, hätte mir das auffallen müssen.
Für eine substanziellere Antworte werde ich mir mal alle Listen anschauen, die ich importiert habe. Die hab ich alle noch.
herbivore
-
Hallo an alle,
ich hatte ja zugesagt, dass ich mich melde, wenn ich eine Filmliste finde, die die 3. Episode von “The Team II” enthält.
In dieser Nacht habe ich bis jetzt jede neue Filmliste per MV geladen (23:15h, 05:19h, 07:16h) keine enthielt die 3. Episode.
Ich habe mir allerdings noch 20 zufällige Filmlisten zurück bis zum Sendetermin von https://verteiler.mediathekviewweb.de/ heruntergeladen und nach der Folge gesucht. Die neueste Liste, die Episode 3 enthielt, war diejenige vom 21/11/2018, 14:14h. Dort fehlte dann allerdings die 1. und 2. Folge der Serie.
Na ja, ich habe mir nun anhand der alten Filmliste die Info-Datei gebastelt und durch Anpassung der Versionsnummer in der URL eine gültige Film-URL bekommen.
Ich hoffe, ich habe damit einen Beitrag zur Lösung des Problems geleistet.
-
Hallo @herbivore,
Danke für Deine umfangreiche Darstellung. Sie bestätigt mich darin, dass bei diesem Workaround für mich persönlich Aufwand und Nutzen in keinem rationalem Verhältnis stehen.
Statt einfach das Programm zu starten und nach kurzem Warten mit der Suche loszulegen, müsste ich nun vorher jedes Mal noch zweimal klicken, einen Haken setzen und dann das Laden der Liste initiieren.
Im Ergebnis hätte ich wohl oft Sendungen in der Liste, zu denen mehrere Einträge bestehen. Da müsste ich dann noch in einem zusätzlichen Arbeitsschritt (der zugegebenermaßen nicht lange dauert) eine Auswahl treffen, bevor ich an den Download gehen kann. Und trotz all der Mühe könnte es immer noch passieren - wie in diesem Beispiel -, dass keiner der in MV angebotenen Einträge funktioniert und ich dann genau das machen müsste, was ich auch ohne all den vorherigen Aufwand erledigen könnte: Die URL selbst zu konstruieren oder ein anderes Programm dazu zu verwenden.
Ich glaube Dir, dass dieser Fall hier eher eine Ausnahme darstellt und Deine Methode sicherlich häufig zielführend ist. Aber “häufig” ist mir zu wenig für den Aufwand. Vor allem, wo ich davon ausgehe, dass das Problem mit den Lücken beim ZDF bald behoben ist.
Benem
–
P.S.:So, jetzt habe ich widersprochen, was in diesem Forum anscheinend inakzeptabel ist. Aber vielleicht ist es auch die Tatsache, dass ich höflich war, die provoziert. Oder kann es eine verhältnismäßig saubere Orthographie sein?
Ihr könnt mich jetzt jedenfalls wieder mit negativen Bewertungen bedenken. Das ist ja auch besonders mutig und konstruktiv, sich so mit den Argumenten von jemandem auseinanderzusetzen, der auf einen Fehler aufmerksam macht und um (Ab)hilfe bittet. Wieso sollte man was tippen, wenn man auch einfach per Klick destruktiv sein kann? Ist ja auch so schön anonym hier… Keiner sieht, von wem man warum abgewertet wurde. Shoot the messenger!
Hineingegangen bin ich in diese Diskussion mit einem “Ansehen” von 10 und bin nun bei null. Und da ist sicherlich noch nicht Schluss, weil ich den Trollen nun auch noch den Spiegel vor das Gesicht halte.
Hoffentlich ist das anderen Leuten, die sich einbringen wollen, eine Lehre: Lest in diesem Forum, man kann was lernen. Aber verschwendet keine Zeit mit aktivem Engagement. Das lohnt nicht. Irgendeinem wird schon irgendetwas nicht gefallen und euch abwerten. Und wenn ihr nicht erkennt, woran das liegt: Euer Problem!
Vielleicht schreibe ich noch etwas Generelleres dazu, aber wahrscheinlich werde ich aus Angst vor Kritik wohl vorher gesperrt. Ich wüsste nur zu gern, ob es die Leute waren, die sich hier ansonsten recht freundlich gegeben haben - oder ob in dem Thread Leute rumrandalieren, die ansonsten nichts zur Diskussion beigetragen haben, aber die ihnen eingeräumten Rechte gnadenlos missbrauchen.
Schade. War vor Jahren mal eine richtig gute Community hier.
-
Hallo @pidoubleyou,
vorweg: Danke für Deine Zeit und Mühe, die Du hier in dieses tolle Projekt steckst, und auch für die Freundlichkeit, mit der Du Fragen beantwortest (ich wüsste zu gern, wie Du es in dieser toxischen Umgebung aushältst…)
Aber darum soll es nicht gehen. Ich möchte noch einen letzten Beitrag zur Problemlösung leisten:
Bei meinen Testläufen werden diese Einträge korrekt gefunden, in den Logs des Crawlers ist aktuell auch nichts auffälliges zu finden.
Das finde ich interessant. Ich habe jetzt die Nacht durchgearbeitet und nebenbei alle Filmlisten von 23:15h bis 09:15h per MV geladen. In keiner war der 3. Teil von “The Team II” oder Episode 10 von “Greyzone”. Da scheinen die Testläufe folglich das Crawlerverhalten nicht korrekt wiederzugeben…
Während des Herunterladens alter Filmlisten, in denen ich nach den fehlenden Sendungen gesucht habe, fand ich in https://verteiler.mediathekviewweb.de/ etwas, das da sicherlich nicht hingehört. Vielleicht ist das ja ein Hinweis auf die Fehlerquelle: Im Verzeichnis “dl/” liegt ein kompletter Download des 3. Teils von “The Team” - als mp4. Falls da nicht ein Mensch seine Privatdownloads öffentlich lagert, besteht möglicherweise ein Zusammenhang zu dem Fehlen des entsprechenden Beitrags in der Filmliste. Nur so eine Idee…
Ich habe einen Screenshot vom Verzeichnis gemacht, will allerdings nicht noch mehr auf die Datei aufmerksam machen. Falls Du das Bild brauchst, weil die Datei verschwunden ist (aus rechtlichen Gründen sicherlich sinnvoll), melde Dich.
Eine ähnliche “smoking gun” habe ich für die 10. Episode von “Greyzone” auf dem Server leider nicht gefunden.
Und noch ein “minor bug” (sollte ich eigentlich nicht machen, das kostet Ansehen!): Die Info-txt zur 2. Episode von “The Team II” (aus der ich die Info-Datei zur Folge 3 gebaut habe) enthält unter “Größe [MB]:” die Angabe “1 von 2226”. Normalerweise fehlt das "1 von ". Wobei ich gar nicht weiß, ob das Deine Baustelle ist…
Benem
-
Hallo @Benem,
es ist natürlich deine Entscheidung, ob du den Workaround nutzen willst oder nicht. Ich fahre gut damit und werden ihn weiterhin nutzen. In erster Linie, um fälschlich als neu angezeigte Einträge zu vermeiden. Der Gewinn, nicht immer und immer wieder die gleichen Einträge durchsehen zu müssen, übersteigt für mich bei weitem den Aufwand.
Dass es durch den Workaround mehrfache Einträge geben kann, stört mich nicht und ich merke davon in der Regel nicht mal was, weil ich fast immer den Haken bei “nur Neue” gesetzt habe und die veralteten mehrfachen Einträge gerade nicht neu sind. Ehrlich gesagt waren mir mehrfache Einträge bisher noch gar nicht aufgefallen.
Beim ZDF kann es dir auch mit einer aktuellen Liste passieren, dass die Versionsnummer veraltet ist, das ist kein Effekt des Workarounds. Und die Lösung ist normalerweise trivial: einfach die Versionsnummer um eins erhöhen. Mit Workaround hat man diese Option immer. Ohne Workaround fehlt der Eintrag - darum geht es ja in diesem Thread - ganz und es geht erst die nicht triviale Suche in einer passenden Filmliste los. Das ist in meinen Augen vermeidbarer und lästiger Aufwand.
Im Grunde ist es so: Für alle in der aktuellen Liste vorhandenen Einträge ist der Workaround mindestens genauso gut wie einfach die aktuelle Liste zu laden; in Bezug auf die fälschlich als neu angezeigten sogar besser. Für alle in der aktuellen Liste fehlenden Einträge ist der Workaround besser.
Es gibt aus meiner Sicht und nach meiner Erfahrung durch den Workaround keine Nachteile, außerdem den zusätzlichen zwei Klicks. Alles ist mindestens genauso gut wie die aktuelle Liste zu laden. Aber in Bezug auf (deutlich) weniger fälschlich als neu angezeigte Einträge und weniger fehlende Einträge gibt es klare Vorteile.
Trotzdem bleibt es dabei: Es ist deine Entscheidung.
herbivore
PS: Ich habe dich nicht abgewertet, habe überhaupt noch niemanden abgewertet und werde das auch zukünftig nicht tun. Ich sehe das wie du, dass Abwertungen eher Frust erzeugen, als eine sinnvolle Steuerungswirkung zu entfalten.
Wenn man negative Bewertungen deaktivieren könnte, würde das dem Forum sicher gut tun. Mindestens solle aber für alle Benutzer sichtbar sein, wer einen Beitrag abgewertet hat.
Davon unabhängig finde ich, dass der Ton im Forum, von einzelnen Ausrutscher und manchmal auch einzelnen Themen abgesehen, insgesamt viel freundlicher und konstruktiver geworden ist. Früher war es mal so, wie du sagst, aber insgesamt ist es spürbar besser geworden, was mich sehr freut.
-
Hallo @DaDirnbocher,
jetzt noch wie versprochen die lange Antwort auf deine Frage. Das Ergebnis meiner Untersuchungen ist:
Auch der Workaround kann natürlich nicht zaubern. Aber er ist in Bezug auf die verfügbaren Einträge nie schlechter als nur die aktuelle Liste zu verwenden.
Wenn in den verwendeten Listen die gesuchte Url nie enthalten war/ist, dann hat man eben auch ohne Workaround das Nachsehen. Und das war bei den Listen, die ich verwendet habe, tatsächlich der Fall (siehe unten). Die 6er Url war in keiner der Listen, die ich verwendet habe, enthalten.
Das bedeutet aber nun nicht, dass mal alle je veröffentlichten Listen importieren müsste. Gab es überhaupt je eine Liste mit einer 6er Url? Vielleicht nicht (oder zumindest nur ganz kurz) und dann würde man einem Phantom nachjagen. Ich kann nur nochmal sagen, dass mir keine (verbliebenen) Lücken aufgefallen sind.
Umgekehrt spricht nämlich alles dafür, dass wäre in mindestens einer der geladenen Listen die 6er Url enthalten gewesen, sie unter Verwendung des Workaround immer noch vorhanden wäre. Denn die anderen in den Listen jemals aufgetauchten Urls sind auch alle noch drin. Und eine zu niedrige Versionsnummer beim ZDF kann man m.E. sowieso nicht wirklich als echte Lücke betrachten, so einfach, wie man das beheben kann.
Untersucht habe ich alle meine Listen von Anfang (20180607) bis Ende (20190116). Eingefügt habe ich nur den relevanten Bereich. Davor und danach steht immer <nicht gefunden>. Die meisten Listen sind von vormittags zwischen 6 und 10 Uhr. Die genaue Uhrzeit könnte ich nachliefern, glaube aber, dass braucht es nicht.
…
Filmliste-akt.20181207: <nicht gefunden>
Filmliste-akt.20181206: <nicht gefunden>
Filmliste-akt.20181205: <nicht gefunden>
Filmliste-akt.20181204: gefunden mit Versionsnummer 5
Filmliste-akt.20181203: gefunden mit Versionsnummer 5
Filmliste-akt.20181202: gefunden mit Versionsnummer 5
Filmliste-akt.20181201: gefunden mit Versionsnummer 5
Filmliste-akt.20181130: gefunden mit Versionsnummer 5
Filmliste-akt.20181129: gefunden mit Versionsnummer 5
Filmliste-akt.20181128: gefunden mit Versionsnummer 5
Filmliste-akt.20181127: gefunden mit Versionsnummer 5
Filmliste-akt.20181126: gefunden mit Versionsnummer 5
Filmliste-akt.20181125: gefunden mit Versionsnummer 5
Filmliste-akt.20181124: gefunden mit Versionsnummer 5
Filmliste-akt.20181123: gefunden mit Versionsnummer 5
Filmliste-akt.20181122: gefunden mit Versionsnummer 5
Filmliste-akt.20181121: gefunden mit Versionsnummer 5
Filmliste-akt.20181120: gefunden mit Versionsnummer 5
Filmliste-akt.20181119: gefunden mit Versionsnummer 5
Filmliste-akt.20181118: gefunden mit Versionsnummer 5
Filmliste-akt.20181117: gefunden mit Versionsnummer 5
Filmliste-akt.20181116: <nicht gefunden>
Filmliste-akt.20181115: gefunden mit Versionsnummer 5
Filmliste-akt.20181114: gefunden mit Versionsnummer 4
Filmliste-akt.20181113: gefunden mit Versionsnummer 4
Filmliste-akt.20181112: gefunden mit Versionsnummer 4
Filmliste-akt.20181111: gefunden mit Versionsnummer 4
Filmliste-akt.20181110: gefunden mit Versionsnummer 3
Filmliste-akt.20181109: gefunden mit Versionsnummer 3
Filmliste-akt.20181108: gefunden mit Versionsnummer 3
Filmliste-akt.20181107: gefunden mit Versionsnummer 3
Filmliste-akt.20181106: gefunden mit Versionsnummer 3
Filmliste-akt.20181105: gefunden mit Versionsnummer 3
Filmliste-akt.20181104: gefunden mit Versionsnummer 3
Filmliste-akt.20181103: gefunden mit Versionsnummer 3
Filmliste-akt.20181102: gefunden mit Versionsnummer 3
Filmliste-akt.20181101: gefunden mit Versionsnummer 3
Filmliste-akt.20181031: gefunden mit Versionsnummer 3
Filmliste-akt.20181030: gefunden mit Versionsnummer 3
Filmliste-akt.20181029: gefunden mit Versionsnummer 3
Filmliste-akt.20181028: gefunden mit Versionsnummer 3
Filmliste-akt.20181027: gefunden mit Versionsnummer 3
Filmliste-akt.20181026: gefunden mit Versionsnummer 3
Filmliste-akt.20181025: gefunden mit Versionsnummer 3
Filmliste-akt.20181024: gefunden mit Versionsnummer 3
Filmliste-akt.20181023: gefunden mit Versionsnummer 3
Filmliste-akt.20181022: gefunden mit Versionsnummer 3 (1496k_p13v14)
Filmliste-akt.20181021: gefunden mit Versionsnummer 3 (1496k_p13v14)
Filmliste-akt.20181020: gefunden mit Versionsnummer 3 (1496k_p13v14)
Filmliste-akt.20181019: <nicht gefunden>
Filmliste-akt.20181018: <nicht gefunden>
Filmliste-akt.20181017: <nicht gefunden>
…herbivore
-
@herbivore sagte in ZDF-Crawler findet seit längerem Sendungen nur lückenhaft:
Davon unabhängig finde ich, dass der Ton im Forum, von einzelnen Ausrutscher und manchmal auch einzelnen Themen abgesehen, insgesamt viel freundlicher und konstruktiver geworden ist. Früher war es mal so, wie du sagst, aber insgesamt ist es spürbar besser geworden, was mich sehr freut.
Dem kann ich nur beipflichten, und zwar jedem einzelnen Wort. Ja, gelegentlich verlasse ich auch mal eine Diskussion, weil ich glaube, daß man fruchtlosem Streit ruhig mal aus dem Weg gehen kann. Aber ich würde mir auch wünschen, daß der Anteil derer, die mit einer positiven Einstellung hier posten, sich noch drastisch erhöht. Aber @herbivore hat recht, das Klima hat sich schon sehr verbessert. Und das hat auch den nützlichen Informationsgehalt hier deutlich verbessert.
Und letzteres ist, glaube ich, sehr wichtig. Für den Einsteiger braucht es ein paar Momente, bis sie lernen, daß dieses Projekt von ganz spezieller Natur ist - von Freiwilligen erzeugt und am Laufen gehalten, permanent einem sehr beweglichen Ziel hinterherhastend, mit einer anspruchsvollen Architektur, die sich - wie man hier immer wieder lesen kann - dem unbedarften Anwender nicht unbedingt gleich erschließt. Und dann hat man eben auch immer wieder mit einer nicht wirklich nachvollziehbaren Anspruchshaltung bestimmter Anwender zu tun. Dazu kommt dann noch ganz am Rande die Erfahrung, daß die Sender auch nicht unbedingt mit Enthusiasmus auf dieses Projekt reagieren …
-
Ich mache mir die Sache mittlerweile viel leichter. (Finde ich.) Dank meiner lahmen Leitung kommt es relativ oft vor, daß ein ausgewählter Download, wenn er dann starten soll, nichts mehr findet. Ich habe es auch gelegentlich erlebt, daß mitten im Download die Datei plötzlich verschwindet. Dann hole ich mir die URL, setze die Versionsnummer um eins höher und übergebe das Problem an Wget, meinen traditionellen Download-Terrier für alles, das eine URL hat. Es ist auch schon vorgekommen, daß ich die Versionsnummer nochmal um 1 oder 2 erhöhen muß, aber so habe ich diese Eigenart der ZDF-Mediathek noch immer umschiffen können. Insbesondere klappt das auch mit dem Vervollständigen eines abgebrochenen Downloads.
(Ich bin da übrigens einem Phänomen auf der Spur, das ich hier mal beschreiben möchte, das ich aber noch nicht vollständig analysiert habe: Gelegentlich wird nach Unterbrechungen eine Downloaddatei länger als sie sein sollte. Die läßt sich dann meist nur bis zu einem bestimmten Punkt abspielen. Bei näherer Betrachtung - die ich noch genauer machen muß - scheint es so, als hätte MV versucht, die Datei anzustückeln, bekommt aber vom Server nicht den teilweisen Download, sondern die ganze Datei von Anfang an, stückelt das Stück aber so an als gehöre es dorthin. Der Verdacht wäre dann, daß einzelne Server den teilweisen Download nicht unterstützen, das aber nicht richtig kommunizieren. Ich werde auch mal zusehen, bei welchen Servern das passiert. Das kann aber dauern, denn es kommt gottseidank nicht so sehr oft vor.)
-
Die Diskussion hier läuft etwas aus dem Ruder.
Wegen zweier Serien bei denen mal etwas gefehlt hat direkt von einem generellen Problem beim ZDF crawler auszugehen finde ich seltsam. Alle Sendungen wird ein Crawler niemals finden, dafür ändern die Sender viel zu viel und es gibt zu viele Sendungen bei denen die Daten in der Mediathek nicht stimmen oder wichtige Informationen fehlen.
Der ZDF Crawler bedient sicht der ZDF API, wenn dort ein Film nicht auftaucht wurde dort Murks gemacht, und wenn er aber auftaucht und nicht in der Filmliste landet Fehlt meist einfach eine wichtige Information. An einem Konkreten Beispiel kann man dann mal gucken warum, wie hier auch geschehen, aber deshalb ist nicht gleich der ganze Sender “lückenhaft”.
Die Diskussion um mögliche Workarounds mit Ratespielchen und ähnlichen könnt ihr gerne in einem direkten Chat weiter führen, hier bläht das aber nur den Thread unnötig weiter auf.
Sollte mal wieder eine Sendung fehlen: Anleitung - Fehlende Sendung melden beachten da: Nicht beachtung der Anleitung
-
@Benem sagte in ZDF-Crawler findet seit längerem Sendungen nur lückenhaft:
Während des Herunterladens alter Filmlisten, in denen ich nach den fehlenden Sendungen gesucht habe, fand ich in https://verteiler.mediathekviewweb.de/ etwas, das da sicherlich nicht hingehört. Vielleicht ist das ja ein Hinweis auf die Fehlerquelle: Im Verzeichnis “dl/” liegt ein kompletter Download des 3. Teils von “The Team” - als mp4. Falls da nicht ein Mensch seine Privatdownloads öffentlich lagert, besteht möglicherweise ein Zusammenhang zu dem Fehlen des entsprechenden Beitrags in der Filmliste. Nur so eine Idee…
Das war weder die Fehlerquelle noch waren darin Privatdownloads Aber um das Projekt nicht zu gefährden (daran habe ich tatsächlich schlicht nicht gedacht), habe ich das mal entfernt. Ich danke dir für den Fingerzeig