Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden
-
@herbivore sagte: Es gibt (unter den nicht-neuen Einträgen) massenhaft Video-Urls, die nicht funktionieren.
Kannst du mal 3 Beispiele aufführen, die mit nicht mehr gültiger Video-URL länger als 2 Tage in der Filmliste bleiben?
-
Hallo styroll,
ich hab von meiner Filmliste von heute morgen einfach mal zufällig 1% der Urls ausgewählt (nur Urls, die mit .mp4 enden). Von den 2223 urls waren (von den geogeblockten vom ORF abgesehen) 28 broken (getestet mit wget --spider). Gut ein paar davon sind vermutlich wirklich in der Zwischenzeit abgelaufen, aber mir sind schon vorher mehrfach tote Links aufgefallen und zwar vor allem bei relativ alten Sendungen des SWR und bei vielen Sendungen von Arte, die älter als 7 Tage sind, aber eben trotzdem auch lange danach noch in der Liste. Auch in meiner aktuellen Stichprobe taucht SWR und ARTE relativ häufig auf, so dass ich davon ausgehe, dass hier echte Fälle, über die wir reden, enthalten sind.
Hier die Liste:
http://rbprogressivedl-a.akamaihd.net/clips/035/035382/035382_00133664_video_540p.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160207_taiwank10g_sd_avc.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160212_church14e_sd_avc.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160506_remote_sd_avc.mp4
http://tv-download.dw.de/dwtv_video/flv/fit/fit20160303_schlafmittel_sd_sor.mp4
http://tv-download.dw.de/dwtv_video/flv/jd/jd20160821_duterte17g_sd_sor.mp4
http://tv-download.dw.de/dwtv_video/flv/jd/jd20160910_syria19f_sd_sor.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/063000/063600/063605-006-A_EQ_0_VOA_03522128_MP4-1500_AMM-PTWEB_uiQwEy60s.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/074000/074500/074577-000-A_EQ_0_VOF_03628933_MP4-1500_AMM-PTWEB_wmrrStriR.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/076000/076200/076282-010-A_EQ_0_VOF_03562746_MP4-1500_AMM-PTWEB_vVG3LSJu7.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/080000/080000/080051-000-B_EQ_0_VF-STF_03635096_MP4-1500_AMM-PTWEB_wvoZXybyA.mp4
https://cdn-storage.br.de/geo/b7/2018-05/02/148b10bc4e0111e8a0b0984be10adece_C.mp4
https://media.tagesschau.de/video/2018/0528/TV-20180528-1046-3401.webl.h264.mp4
https://media.tagesschau.de/video/2018/0529/TV-20180529-0132-5601.webl.h264.mp4
https://mediandr-a.akamaihd.net/progressive/2015/0912/TV-20150912-1426-2842.hq.mp4
https://mediandr-a.akamaihd.net/progressive/2018/0304/TV-20180304-1902-3200.hq.mp4
https://pdodswr-a.akamaihd.net/swr/das-erste/buffet/guteidee/942508.l.mp4
https://pdodswr-a.akamaihd.net/swr/das-erste/buffet/hallobuffet/941811.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/flutlicht/940779.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/made-in-suedwest/859117.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/mal-ehrlich/20180517/1024326.l.mp4
https://pdodswr-a.akamaihd.net/swr/swraktuell/rp/tv/einzelbeitraege/2017/05/13/939061.l.mp4
https://pdodswr-a.akamaihd.net/swr/swraktuell/rp/tv/einzelbeitraege/2017/05/23/941240.l.mp4
https://rbbmediapmdp-a.akamaihd.net/content/06/8e/068e5d9c-a8d1-4c9e-bade-8064bfbea88f/509b2799-86d8-48ad-8d93-2c3bc5e977f0_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/45/57/45572829-552c-47ce-b62b-fef5f8b02bc6/755dd072-b6cd-437e-bc87-07608afa3e93_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/57/b9/57b9f9c2-21ce-449a-9f9e-933331313ddb/56e2c851-2b9a-4eea-b948-3d1d65f49ac1_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/c1/a9/c1a99a12-5d33-4d9b-81a0-815330bfa9f2/342b3dc1-e42f-48be-b70e-b4743aca166c_1800k.mp4
https://rodlzdf-a.akamaihd.net/none/zdf/18/05/180508_everest_kuz/2/180508_everest_kuz_2328k_p35v13.mp4Sorry, dass ich das gerade nicht vertiefen kann. Zu einem späteren Zeitpunkt kann ich gerne eine genauere Analyse machen.
herbivore
-
@herbivore sagte: Hier die Liste:
Danke, aber so bringt das nichts. Ich brauche – neben der Video-URL – auch die URL der Webpage zu einer Sendung, damit man sehen kann, was los ist und um welche Sendung es sich überhaupt handelt…
Und wie gesagt, 3 Beispiele genügen, am besten von ARTE.
-
Hallo styroll,
ich fand die Urls der Videos eindeutiger. Die Urls der Webseiten der Sendung bekommt man ja über die Filmliste raus.
Ich hab mal zu drei Urls von Arte und einer vom SWR die Webseiten rausgesucht:
https://www.arte.tv/de/videos/063605-006-A/unbekanntes-arabien/
https://www.arte.tv/fr/videos/074577-000-A/quand-les-impressionnistes-decouvrent-le-japon/
https://www.arte.tv/fr/videos/076282-010-A/jardins-d-ici-et-d-ailleurs/
http://www.ardmediathek.de/tv/made-in-Südwest/So-tickt-der-Schwarzwald-Die-Kuckucksu/SWR-Fernsehen/Video?bcastId=2499530&documentId=35065818Der zweite Arte-Link geht z.B. zu einer Sendung, die laut Webseite nur bis 1.6. online war, aber eben trotzdem noch in der Filmliste von heute morgen steht.
Bei meinen üblichen Filtern kommt es immer wieder mal vor, dass auf einen Schlag bestimmt 100 solche alten/abgelaufenen Arte-Links als neu angezeigt werden.
herbivore
-
Aktuell funktioniert der Crawler wie folgt:
- Die Mediatheken werden durchsucht und die gefundenen Filme werden aufgenommen
- Import der Filmliste des letzten Nachtlaufs (spezieller Lauf, der länger läuft und mehr Seiten durchsucht als tagsüber):
Dabei wird zunächst geprüft, ob der zu importierende Film bereits durch den Suchlauf im ersten Schritt gefunden wurde. Wenn dies nicht der Fall ist und das Video noch existiert, dann wird der Film in die neue Filmliste aufgenommen. Existiert das Video nicht mehr, fällt er raus.
Wenn die Filmliste also viele ungültige URLs enthält, dann sind diese entweder “gerade erst” aus den Mediatheken entfernt worden (was ich mir bei der beschriebenen Menge kaum vorstellen kann) oder wir haben aktuell ein Problem bei der beschriebenen Prüfung. Wir prüfen das mal.
-
Grundsätzlich ist für eine spätere Version allerdings eh angedacht die Filmliste durch eine Serverseitige DB + API zu ersetzen wobei die DB Einträge erst vollständig raus wirft wenn sie in einem gewissen Zeitraum X mal nicht erfolgreich abgerufen worden konnten und nur solange an die clients nicht raus gibt bis die URL wieder “online” war bei einer überprüfung. Das ist aber aktuell noch Zukunftsmusik da wir momentan mit anderen wichtigereren Themen genug zu tun haben.
Zur Erinnerung MV ist ein OpenSource Projekt, jeder kann sich beteiligen.
-
Hallo zusammen,
danke für die Rückmeldungen. Ich schließe eine Mitarbeit am Open Source Projekt auf Code-Ebene auch nicht grundsätzlich aus, scheue mich aber noch, weil mir eure ganze Erfahrung mit dem Projekt fehlt. Daher möchte ich mich langsam annähern, indem ich erst mal Vorschläge mache und Feedback aus Nutzersicht gebe.
Ich habe mal geguckt, was für Sendungen, die ein Datum haben, das älter ist als neun Tage ist, heute als neu angezeigt werden.
Da gibt es z.B. “Abendschau vom 10.05.2018” und “Brandenburg aktuell vom 09.05.2018”, die beide schon lange abgelaufen sind (“Der gewünschte Beitrag ist nicht mehr verfügbar.”)
http://www.ardmediathek.de/tv/Abendschau/Abendschau-vom-10-05-2018/rbb-Fernsehen/Video?bcastId=3822076&documentId=52312100
http://www.ardmediathek.de/tv/Brandenburg-aktuell/Brandenburg-aktuell-vom-09-05-2018/rbb-Fernsehen/Video?bcastId=3822126&documentId=52289240und deren Video-Links erwartungsgemäß broken sind (wget --spider).
https://rbbmediapmdp-a.akamaihd.net/content/b4/70/b47062a1-0d9a-42b5-aa89-909facfb00a5/7185633c-a056-46e7-ac83-615367ef4c60_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/5e/8e/5e8e10d8-f511-46bf-a859-2ac65c597287/d338654e-7d8b-4bc0-a164-4f06e4586df0_1800k.mp4Generell ist der RBB neben SWR und ARTE einer der Sender, von der immer wieder mal größere Mengen fälschlich als neu markierte Sendungen in der Filmliste auftauchen (auch hier durchaus mal 100 auf einmal).
Auf der anderen Seite tauchen (hauptsächlich vom ZDF) Sendungen mit ziemlich altem Datum als neu auf, deren Video-Links tatsächlich funktionieren, z.B. “Stralsund - Tödliches Versprechen” gelistet per 13.9.2016, obwohl es sich vermutlich um die Wiederholung vom Di 05.06., 20:15 - 21:45 auf ZDFneo handelt.
Deshalb kann man auch nicht einfach eine Grenze für den Zeitraum setzen, ohne erwünschte Einträge auszuschließen.
Solche Einträge sehe ich auch nicht fälschlich als neu markiert an, denn wenn eine Erstsendung lange genug zurückliegt, kann durchaus Interesse an ein Wiederholung bestehen. Es ist dann also gut, wenn sie als neu markiert ist. (Auch wenn es natürlich schön wäre, wenn der Eintrag dann unter dem Datum der Wiederholung gelistet wäre, aber das ist Kosmetik, solange es keine oder zumindest nicht viele fälschlich als neu markierte Sendungen gib.)
Falls ihr meinen Eingangsvorschlag nicht aufgreifen wollte, hoffe ich mit diesen Informationen zumindest genug Input zu liefern, dass ihr fälschlich als neu erkannte abgelaufene Sendungen identifizieren und aus der Filmliste heraushalten könnt.
Dann bleiben aber immer noch die nicht abgelaufenen Sendungen, die fälschlich als neu erkannt werden, weil sie - obwohl durchgängig online - kurzzeitig aus der Filmliste geflogen und dann wieder neu aufgenommen wurden.
Trotzdem ist jede fälschlich als neu erkannte Sendung, die ihr eliminieren könnt, egal auf welche Weise, eine Entlastung und ein Schritt in die richtige Richtung.
Ich hoffe, ich konnte meinen Beitrag leisten. Wenn ihr dazu weitere Beispiele braucht, kann ich diese gerne liefern.
herbivore
-
Hallo zusammen,
seit ein paar Tagen benutze ich den oben vorgeschlagenen Workaround, die Filmliste immer nur zu erweitern. Obwohl ich gefühlt den Eindruck hatte, dass sich die Zahl der fälschlich neuen Einträge etwas reduziert hat, kam es heute wieder schlimm und es gab massenhaft fälschlich(?) neue Einträge, heute ganz überwiegend vom BR, z.B. auf einen Schlag alle BR-Abendschau-Sendungen zwischen 28.5. und 8.6., also der letzten 14 Tage.
Da mich die BR-Abendschau nicht interessiert, weiß ich leider nicht, ob die Sendungen bereits an ihrem jeweiligen Sendetag gefunden wurden und jetzt wirklich fälschlich als neu auftauchen oder ob sie aus unbekannten Gründen tatsächlich erst heute auf einen Schlag gefunden wurde.
Ob das eine oder das andere hat natürlich große Auswirkungen auf die Frage, welche Maßnahmen zur Verstetigung der Filmliste geeignet sind. Könnt ihr bitte versuchen, etwas Licht ins Dunkel bringen?
Und bei der Gelegenheit gleich auch noch: Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
herbivore
-
@herbivore sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
kam es heute wieder schlimm und es gab massenhaft fälschlich(?) neue Einträge
Das hängt mit einer aktuellen Störung der Server zusammen, ist aber schon an @alex addressiert, siehe hier.
Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
Dazu hat doch @Nicklas2751 zwei Einträge vorher etwas geschrieben
-
@herbivore sagte: Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
Meine Vermutung war ja, dass die erste Aussage von @pidoubleyou zutrifft, es scheint jedoch die zweite zu sein, d.h. das Entfernen depublizierter Sendungen klappt generell nicht mehr zuverlässig:
@pidoubleyou sagte: Wenn die Filmliste also viele ungültige URLs enthält, dann sind diese entweder “gerade erst” aus den Mediatheken entfernt worden (was ich mir bei der beschriebenen Menge kaum vorstellen kann) oder wir haben aktuell ein Problem bei der beschriebenen Prüfung. Wir prüfen das mal.
-
@styroll sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Meine Vermutung war ja, dass die erste Aussage von @pidoubleyou zutrifft, es scheint jedoch die zweite zu sein, d.h. das Entfernen depublizierter Sendungen klappt generell nicht mehr zuverlässig:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
-
@mvsfsvm sagte: Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Das hat auch niemand behauptet…
Mir ging es um einen anderen Aspekt, auf den sich dann auch @pidoubleyou bezogen hast…
-
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Ist das wirklich so? Oder sind es nicht eher nur ein paar Filme, die als neu erscheinen?
Vielleicht sollten wir erst einmal den Begriff NEU erklären. Das ist eine Funktion innerhalb der MV Anwendung und kommt durch direkten Vergleich der heruntergeladenen alten und neuen Filmliste zustande. Es gibt mehrere Ursachen dafür, dass so eine neue Sendung erkannt wird
- Die Sendung wurde mal irgendwann nicht mehr beim Sender gefunden und später erneut gefunden.
- Die alte Filmliste ist nicht komplett. Früher musste man bis 10:30 Uhr warten, bevor ein kompletter Suchlauf über alle Sender enthalten waren. Keine Ahnung, ob das heute noch so ist.
- Die Sender basteln an ihrer eigenen Mediathek herum. Eventuell verändern sich sehr viele Parameter, wie der Speicherort, der Name der Sendung oder das Thema. Da wird es für eine einfache Software schwierig, das Böse vom Guten zu trennen. Vorzugsweise erscheinen einige Sendungen dann erneut oder doppelt ohne das Risiko, dass eine Sendung fälschlicherweise wieder gelöscht wird.
Falls einzelne Sendungen fast täglich wieder erscheinen, würde sich ein eigener Beitrag lohnen, um hier bessere Kriterien zu finden. Mir ist beispielsweise recht häufig die Sendung “Sitzung ZDF-Fernsehrat” aufgefallen, aber da es sich nur um einige wenige Einträge handelt, hat mich das bisher nicht gestört.
-
@menchensued sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Ist das wirklich so? Oder sind es nicht eher nur ein paar Filme, die als neu erscheinen?
Massenhaft war vielleicht etwas übertrieben, aber alle paar Tage (genauer kann ich das jetzt nicht sagen) sind das schon mehr als ein paar Filme. Zum Teil, aber nicht immer, sind es hauptsächlich Sendungen eines Senders. Beim letzten Mal waren es die vom HR.
Vielleicht sollten wir erst einmal den Begriff NEU erklären. Das ist eine Funktion innerhalb der MV Anwendung und kommt durch direkten Vergleich der heruntergeladenen alten und neuen Filmliste zustande. Es gibt mehrere Ursachen dafür, dass so eine neue Sendung erkannt wird
- Die Sendung wurde mal irgendwann nicht mehr beim Sender gefunden und später erneut gefunden.
- Die alte Filmliste ist nicht komplett. Früher musste man bis 10:30 Uhr warten, bevor ein kompletter Suchlauf über alle Sender enthalten waren. Keine Ahnung, ob das heute noch so ist.
- Die Sender basteln an ihrer eigenen Mediathek herum. Eventuell verändern sich sehr viele Parameter, wie der Speicherort, der Name der Sendung oder das Thema. Da wird es für eine einfache Software schwierig, das Böse vom Guten zu trennen. Vorzugsweise erscheinen einige Sendungen dann erneut oder doppelt ohne das Risiko, dass eine Sendung fälschlicherweise wieder gelöscht wird.
1 und 2 können es eher nicht sein, da ich immer nur manuell lade und u. a. genau deshalb die alte Filmliste nur erweitern lasse.
Falls einzelne Sendungen fast täglich wieder erscheinen, würde sich ein eigener Beitrag lohnen, um hier bessere Kriterien zu finden. Mir ist beispielsweise recht häufig die Sendung “Sitzung ZDF-Fernsehrat” aufgefallen, aber da es sich nur um einige wenige Einträge handelt, hat mich das bisher nicht gestört.
Es sind mir da schon immer wieder einzelne Sendung aufgefallen, die da immer wieder mal als neu auftauchen, warum auch immer. Konkret etwas nennen kann ich jetzt aber nichts. So etwas fällt mir beim Durchsehen der Liste auf und die Einzelheiten sind schnell wieder vergessen.
-
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Beim letzten Mal waren es die vom HR.
Ja, BR und HR hatten Probleme.
-
Hallo zusammen,
es freut mich, dass etwas Bewegung in die Sache gekommen ist. Deshalb möchte ich zur Unterstützung auch weiter aktuelle Beispiele liefern.
Heute waren (diesmal ohne meine üblichen Filter, sondern nur beschränkt auf Videos mit mindestens 14 Minuten Länge) knapp über 100 Einträge von ARTE als neu markiert, obwohl sie älter als drei Wochen waren.
Die meisten waren einigermaßen gleichverteilt zwischen 2.2.2018 und 26.5.2018 (alle Stichproblen broken). Von den restlichen waren fünfzehn vom Mai 2017 (fast alle waren “28 Minuten”, alle Stichproben broken), drei vom Mai 2016 (“Jordskott”, broken) und eins vom November 2015 (Mythos Einstein, online). Also immer einigermaßen zusammenhängende Bereiche unterbrochen von größeren zeitlichen Lücken, die zum Teil genau ein Jahr groß sind.
Hier nun ein paar konkrete Beispiele:
Ich hoffe, das hilft.
herbivore
-
@herbivore sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Heute waren (diesmal ohne meine üblichen Filter, sondern nur beschränkt auf Videos mit mindestens 14 Minuten Länge) knapp über 100 Einträge von ARTE als neu markiert, obwohl sie älter als drei Wochen waren.
Die meisten waren einigermaßen gleichverteilt zwischen 2.2.2018 und 26.5.2018 (alle Stichproblen broken). Von den restlichen waren fünfzehn vom Mai 2017 (fast alle waren “28 Minuten”, alle Stichproben broken), drei vom Mai 2016 (“Jordskott”, broken) und eins vom November 2015 (Mythos Einstein, online). Also immer einigermaßen zusammenhängende Bereiche unterbrochen von größeren zeitlichen Lücken, die zum Teil genau ein Jahr groß sind.
Kann ich absolut nicht reproduzieren. ich habe hier genau eine ältere Sendung vom 22.11.15 als NEU markiert, alles andere ist 10.6.
-
Hallo vitusson,
das finde ich nicht per se verwunderlich. Wenn die Sendungen in jeder Filmliste enthalten wären (oder nie in der Filmliste wären), würden sie ja nicht (fälschlich) als neu angezeigt werden. Die fälschlich als neu angezeigten entstehen ja gerade dadurch, dass sie nur manchmal fälschlich da sind bzw. nur manchmal fälschlich nicht. Und damit natürlich in “meiner” Liste vorhanden seinen können und in “deiner” noch nicht oder nicht mehr.
Von wann die Filmliste ist, in denen die o.g. Beispiele enthalten sind, kann ich nicht ganz exakt sagen, aber doch ziemlich genau eingrenzen; meine filme.json ist von 07:03 (MESZ) und mithin dürfte die bewusste Filmliste max. eine Stunde älter sein.
Ich weiß ja nicht, ob die Filmlisten zumindest eine Zeit lang archiviert werden. Falls ja, wäre es sicher interessant, wenn jemand, der Zugriff auf das Archiv hat, schauen könnte, in welchen bzw. wie vielen Listen die genannten Beispiele enthalten sind.
Ob die Filme aktuell auch bei mir nicht mehr enthalten wären, kann ich momentan leider nicht sagen, da ich aktuell den Workaround verwende, die (lokale) Filmliste nur zu erweitern.
Ich hoffe, dass meine (neuen) Angaben reichen, um die Sache (weiter) einzugrenzen.
herbivore
-
@herbivore sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Ich weiß ja nicht, ob die Filmlisten zumindest eine Zeit lang archiviert werden
Schau mal hier, dort findest Du alle täglichen Filmlisten der letzten Jahre
-
Hallo MenchenSued,
vielen Dank für den Hinweis.
Ich hab mal aus dem Archiv die Listen vom 9. und vom 10. und zusätzlich die aktuelle Filmliste runtergeladen, also vorgestern, gestern und heute. Alle Urls aus meinem gestrigen Beitrag finden sich in der Filmliste von gestern und heute, aber nicht von vorgestern. Insofern ist also zumindest untermauert, dass diese bei mir (fälschlich) als neu angezeigt wurden.
Warum dies bei vitusson nicht der Fall war, lässt sich dadurch aber nicht genau klären. Am angegeben Ort gibt es eine Filmliste pro Tag und das sicher für die allermeisten Fälle ausreichend. Für den Unterschied zwischen vitusson und mir bräuchte man aber wohl ein Archiv der stündlichen Listen. Irgendwo habe ich z.B. gelesen, dass es mal den Fall gab, dass sich die Filmlisten der geraden und der ungeraden Stunden systematisch unterschieden haben. So etwas könnte z.B. der Grund für den Unterschied zwischen vitusson und mir sein.
Aber es geht hier ja auch nicht unbedingt, um diesen Unterschied, sondern eher um die Frage, warum die oben genannten Videos am 10. wieder in (fälschlich) in der Liste aufgetaucht sind. Ich hoffe, das könnt ihr klären und die Ursache beheben.
herbivore