Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden
-
Workaround: Listen manuell laden lassen und jedesmal die Option “alte Filmliste nicht löschen, nur erweitern” setzen
-
Hallo mvsfsvm,
danke für die Rückmeldung. Das habe ich zwischenzeitlich sogar mal so gemacht. Zugegeben nur kurz. Allerdings wächst die Liste dann tendenziell ins Unermessliche. Klar, man kann dann nach einiger Zeit den Haken einmal weglassen, um wieder nur die aktuellen Einträge zu haben. Doch in den Tagen danach hat man bestimmt wieder eine Weile fälschlich neue Einträge. Wenn man das Pech hat, den Haken an dem Tag wegzulassen, an dem Serverstörungen auftreten, sogar sehr viele.
Deshalb zielte mein Vorschlag auch darauf, das Problem an der Wurzel zu packen. Und ohne Änderung im Client und ohne manuelle Aktionen im Client zu wirken und damit allen Nutzen zugutezukommen.
Insofern würde ich mich weiterhin freuen, wenn der Vorschlag zumindest erwogen wird.
herbivore
-
@herbivore sagte: Mein Vorschlag wäre, jede Url, die gefunden wurde, für eine gewisse Zeit in der Filmliste zu belassen, selbst wenn sie bei folgenden Crawler-Läufen (vorerst) nicht mehr gefunden wird. […] Deshalb zielte mein Vorschlag auch darauf, das Problem an der Wurzel zu packen. Und ohne Änderung im Client und ohne manuelle Aktionen im Client zu wirken und damit allen Nutzen zugutezukommen.
Das wäre dann wieder ein Nachteil für alle anderen User, die wie in einem Lexikon nur einzelne Begriffe nachschlagen wollen, aber nicht Buchstabe zum Buchstabe im Alphabet das ganze Lexikon durchlesen wollen…
Übersetzt: Es gibt auch User, die suchen schlicht bloss nach einer Sendung oder nach einem Thema, und wenn sie die entsprechende Sendung gefunden haben, soll deren Video-URL auch funktionieren…
@herbivore sagte: Insofern würde ich mich weiterhin freuen, wenn der Vorschlag zumindest erwogen wird.
Solche Ideen und Wünsche wurden schon des öfteren in der Vergangenheit geäussert. Solange die Sender ihre Sendungen nicht konsequent nach immer dem gleichen Muster publizieren, ist es schwierig eine Lösung zu finden, die alle User glücklich macht…
-
Hallo styroll,
@styroll sagte: Es gibt auch User, die suchen schlicht bloss nach einer Sendung oder nach einem Thema, und wenn sie die entsprechende Sendung gefunden haben, soll deren Video-URL auch funktionieren…
Das ist aber schon jetzt nicht der Fall. Es gibt (unter den nicht-neuen Einträgen) massenhaft Video-Urls, die nicht funktionieren. Durch meinen Vorschlag kämen zugegeben ein paar nicht funktionierende Links hinzu. Allerdings gäbe es auch mehr funktionierende, nämlich genau die, die nur fälschlich gerade nicht in der Liste sind. Insofern würden sich die Vor- und Nachteile für die von dir genannte Benutzergruppe wohl die Waage halten. Aber alle Benutzer, die wie ich viel die Neue-Checkbox benutzen, würden profitieren.
Bliebe als Gegenargument noch der Aufwand. Doch der scheint mir recht überschaubar. Das Ganze könnte bei Bedarf sogar als von der bestehenden Crawler-Implementierung vollständig getrennter Post-Processing-Schritt implementiert werden. Erhöht also die Komplexität des eigentlichen Crawlers überhaupt nicht.
herbivore
-
@herbivore sagte: Es gibt (unter den nicht-neuen Einträgen) massenhaft Video-Urls, die nicht funktionieren.
Kannst du mal 3 Beispiele aufführen, die mit nicht mehr gültiger Video-URL länger als 2 Tage in der Filmliste bleiben?
-
Hallo styroll,
ich hab von meiner Filmliste von heute morgen einfach mal zufällig 1% der Urls ausgewählt (nur Urls, die mit .mp4 enden). Von den 2223 urls waren (von den geogeblockten vom ORF abgesehen) 28 broken (getestet mit wget --spider). Gut ein paar davon sind vermutlich wirklich in der Zwischenzeit abgelaufen, aber mir sind schon vorher mehrfach tote Links aufgefallen und zwar vor allem bei relativ alten Sendungen des SWR und bei vielen Sendungen von Arte, die älter als 7 Tage sind, aber eben trotzdem auch lange danach noch in der Liste. Auch in meiner aktuellen Stichprobe taucht SWR und ARTE relativ häufig auf, so dass ich davon ausgehe, dass hier echte Fälle, über die wir reden, enthalten sind.
Hier die Liste:
http://rbprogressivedl-a.akamaihd.net/clips/035/035382/035382_00133664_video_540p.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160207_taiwank10g_sd_avc.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160212_church14e_sd_avc.mp4
http://tv-download.dw.com/dwtv_video/flv/jd/jd20160506_remote_sd_avc.mp4
http://tv-download.dw.de/dwtv_video/flv/fit/fit20160303_schlafmittel_sd_sor.mp4
http://tv-download.dw.de/dwtv_video/flv/jd/jd20160821_duterte17g_sd_sor.mp4
http://tv-download.dw.de/dwtv_video/flv/jd/jd20160910_syria19f_sd_sor.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/063000/063600/063605-006-A_EQ_0_VOA_03522128_MP4-1500_AMM-PTWEB_uiQwEy60s.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/074000/074500/074577-000-A_EQ_0_VOF_03628933_MP4-1500_AMM-PTWEB_wmrrStriR.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/076000/076200/076282-010-A_EQ_0_VOF_03562746_MP4-1500_AMM-PTWEB_vVG3LSJu7.mp4
https://arteptweb-a.akamaihd.net/am/ptweb/080000/080000/080051-000-B_EQ_0_VF-STF_03635096_MP4-1500_AMM-PTWEB_wvoZXybyA.mp4
https://cdn-storage.br.de/geo/b7/2018-05/02/148b10bc4e0111e8a0b0984be10adece_C.mp4
https://media.tagesschau.de/video/2018/0528/TV-20180528-1046-3401.webl.h264.mp4
https://media.tagesschau.de/video/2018/0529/TV-20180529-0132-5601.webl.h264.mp4
https://mediandr-a.akamaihd.net/progressive/2015/0912/TV-20150912-1426-2842.hq.mp4
https://mediandr-a.akamaihd.net/progressive/2018/0304/TV-20180304-1902-3200.hq.mp4
https://pdodswr-a.akamaihd.net/swr/das-erste/buffet/guteidee/942508.l.mp4
https://pdodswr-a.akamaihd.net/swr/das-erste/buffet/hallobuffet/941811.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/flutlicht/940779.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/made-in-suedwest/859117.l.mp4
https://pdodswr-a.akamaihd.net/swr/swr-fernsehen/mal-ehrlich/20180517/1024326.l.mp4
https://pdodswr-a.akamaihd.net/swr/swraktuell/rp/tv/einzelbeitraege/2017/05/13/939061.l.mp4
https://pdodswr-a.akamaihd.net/swr/swraktuell/rp/tv/einzelbeitraege/2017/05/23/941240.l.mp4
https://rbbmediapmdp-a.akamaihd.net/content/06/8e/068e5d9c-a8d1-4c9e-bade-8064bfbea88f/509b2799-86d8-48ad-8d93-2c3bc5e977f0_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/45/57/45572829-552c-47ce-b62b-fef5f8b02bc6/755dd072-b6cd-437e-bc87-07608afa3e93_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/57/b9/57b9f9c2-21ce-449a-9f9e-933331313ddb/56e2c851-2b9a-4eea-b948-3d1d65f49ac1_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/c1/a9/c1a99a12-5d33-4d9b-81a0-815330bfa9f2/342b3dc1-e42f-48be-b70e-b4743aca166c_1800k.mp4
https://rodlzdf-a.akamaihd.net/none/zdf/18/05/180508_everest_kuz/2/180508_everest_kuz_2328k_p35v13.mp4Sorry, dass ich das gerade nicht vertiefen kann. Zu einem späteren Zeitpunkt kann ich gerne eine genauere Analyse machen.
herbivore
-
@herbivore sagte: Hier die Liste:
Danke, aber so bringt das nichts. Ich brauche – neben der Video-URL – auch die URL der Webpage zu einer Sendung, damit man sehen kann, was los ist und um welche Sendung es sich überhaupt handelt…
Und wie gesagt, 3 Beispiele genügen, am besten von ARTE.
-
Hallo styroll,
ich fand die Urls der Videos eindeutiger. Die Urls der Webseiten der Sendung bekommt man ja über die Filmliste raus.
Ich hab mal zu drei Urls von Arte und einer vom SWR die Webseiten rausgesucht:
https://www.arte.tv/de/videos/063605-006-A/unbekanntes-arabien/
https://www.arte.tv/fr/videos/074577-000-A/quand-les-impressionnistes-decouvrent-le-japon/
https://www.arte.tv/fr/videos/076282-010-A/jardins-d-ici-et-d-ailleurs/
http://www.ardmediathek.de/tv/made-in-Südwest/So-tickt-der-Schwarzwald-Die-Kuckucksu/SWR-Fernsehen/Video?bcastId=2499530&documentId=35065818Der zweite Arte-Link geht z.B. zu einer Sendung, die laut Webseite nur bis 1.6. online war, aber eben trotzdem noch in der Filmliste von heute morgen steht.
Bei meinen üblichen Filtern kommt es immer wieder mal vor, dass auf einen Schlag bestimmt 100 solche alten/abgelaufenen Arte-Links als neu angezeigt werden.
herbivore
-
Aktuell funktioniert der Crawler wie folgt:
- Die Mediatheken werden durchsucht und die gefundenen Filme werden aufgenommen
- Import der Filmliste des letzten Nachtlaufs (spezieller Lauf, der länger läuft und mehr Seiten durchsucht als tagsüber):
Dabei wird zunächst geprüft, ob der zu importierende Film bereits durch den Suchlauf im ersten Schritt gefunden wurde. Wenn dies nicht der Fall ist und das Video noch existiert, dann wird der Film in die neue Filmliste aufgenommen. Existiert das Video nicht mehr, fällt er raus.
Wenn die Filmliste also viele ungültige URLs enthält, dann sind diese entweder “gerade erst” aus den Mediatheken entfernt worden (was ich mir bei der beschriebenen Menge kaum vorstellen kann) oder wir haben aktuell ein Problem bei der beschriebenen Prüfung. Wir prüfen das mal.
-
Grundsätzlich ist für eine spätere Version allerdings eh angedacht die Filmliste durch eine Serverseitige DB + API zu ersetzen wobei die DB Einträge erst vollständig raus wirft wenn sie in einem gewissen Zeitraum X mal nicht erfolgreich abgerufen worden konnten und nur solange an die clients nicht raus gibt bis die URL wieder “online” war bei einer überprüfung. Das ist aber aktuell noch Zukunftsmusik da wir momentan mit anderen wichtigereren Themen genug zu tun haben.
Zur Erinnerung MV ist ein OpenSource Projekt, jeder kann sich beteiligen.
-
Hallo zusammen,
danke für die Rückmeldungen. Ich schließe eine Mitarbeit am Open Source Projekt auf Code-Ebene auch nicht grundsätzlich aus, scheue mich aber noch, weil mir eure ganze Erfahrung mit dem Projekt fehlt. Daher möchte ich mich langsam annähern, indem ich erst mal Vorschläge mache und Feedback aus Nutzersicht gebe.
Ich habe mal geguckt, was für Sendungen, die ein Datum haben, das älter ist als neun Tage ist, heute als neu angezeigt werden.
Da gibt es z.B. “Abendschau vom 10.05.2018” und “Brandenburg aktuell vom 09.05.2018”, die beide schon lange abgelaufen sind (“Der gewünschte Beitrag ist nicht mehr verfügbar.”)
http://www.ardmediathek.de/tv/Abendschau/Abendschau-vom-10-05-2018/rbb-Fernsehen/Video?bcastId=3822076&documentId=52312100
http://www.ardmediathek.de/tv/Brandenburg-aktuell/Brandenburg-aktuell-vom-09-05-2018/rbb-Fernsehen/Video?bcastId=3822126&documentId=52289240und deren Video-Links erwartungsgemäß broken sind (wget --spider).
https://rbbmediapmdp-a.akamaihd.net/content/b4/70/b47062a1-0d9a-42b5-aa89-909facfb00a5/7185633c-a056-46e7-ac83-615367ef4c60_1800k.mp4
https://rbbmediapmdp-a.akamaihd.net/content/5e/8e/5e8e10d8-f511-46bf-a859-2ac65c597287/d338654e-7d8b-4bc0-a164-4f06e4586df0_1800k.mp4Generell ist der RBB neben SWR und ARTE einer der Sender, von der immer wieder mal größere Mengen fälschlich als neu markierte Sendungen in der Filmliste auftauchen (auch hier durchaus mal 100 auf einmal).
Auf der anderen Seite tauchen (hauptsächlich vom ZDF) Sendungen mit ziemlich altem Datum als neu auf, deren Video-Links tatsächlich funktionieren, z.B. “Stralsund - Tödliches Versprechen” gelistet per 13.9.2016, obwohl es sich vermutlich um die Wiederholung vom Di 05.06., 20:15 - 21:45 auf ZDFneo handelt.
Deshalb kann man auch nicht einfach eine Grenze für den Zeitraum setzen, ohne erwünschte Einträge auszuschließen.
Solche Einträge sehe ich auch nicht fälschlich als neu markiert an, denn wenn eine Erstsendung lange genug zurückliegt, kann durchaus Interesse an ein Wiederholung bestehen. Es ist dann also gut, wenn sie als neu markiert ist. (Auch wenn es natürlich schön wäre, wenn der Eintrag dann unter dem Datum der Wiederholung gelistet wäre, aber das ist Kosmetik, solange es keine oder zumindest nicht viele fälschlich als neu markierte Sendungen gib.)
Falls ihr meinen Eingangsvorschlag nicht aufgreifen wollte, hoffe ich mit diesen Informationen zumindest genug Input zu liefern, dass ihr fälschlich als neu erkannte abgelaufene Sendungen identifizieren und aus der Filmliste heraushalten könnt.
Dann bleiben aber immer noch die nicht abgelaufenen Sendungen, die fälschlich als neu erkannt werden, weil sie - obwohl durchgängig online - kurzzeitig aus der Filmliste geflogen und dann wieder neu aufgenommen wurden.
Trotzdem ist jede fälschlich als neu erkannte Sendung, die ihr eliminieren könnt, egal auf welche Weise, eine Entlastung und ein Schritt in die richtige Richtung.
Ich hoffe, ich konnte meinen Beitrag leisten. Wenn ihr dazu weitere Beispiele braucht, kann ich diese gerne liefern.
herbivore
-
Hallo zusammen,
seit ein paar Tagen benutze ich den oben vorgeschlagenen Workaround, die Filmliste immer nur zu erweitern. Obwohl ich gefühlt den Eindruck hatte, dass sich die Zahl der fälschlich neuen Einträge etwas reduziert hat, kam es heute wieder schlimm und es gab massenhaft fälschlich(?) neue Einträge, heute ganz überwiegend vom BR, z.B. auf einen Schlag alle BR-Abendschau-Sendungen zwischen 28.5. und 8.6., also der letzten 14 Tage.
Da mich die BR-Abendschau nicht interessiert, weiß ich leider nicht, ob die Sendungen bereits an ihrem jeweiligen Sendetag gefunden wurden und jetzt wirklich fälschlich als neu auftauchen oder ob sie aus unbekannten Gründen tatsächlich erst heute auf einen Schlag gefunden wurde.
Ob das eine oder das andere hat natürlich große Auswirkungen auf die Frage, welche Maßnahmen zur Verstetigung der Filmliste geeignet sind. Könnt ihr bitte versuchen, etwas Licht ins Dunkel bringen?
Und bei der Gelegenheit gleich auch noch: Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
herbivore
-
@herbivore sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
kam es heute wieder schlimm und es gab massenhaft fälschlich(?) neue Einträge
Das hängt mit einer aktuellen Störung der Server zusammen, ist aber schon an @alex addressiert, siehe hier.
Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
Dazu hat doch @Nicklas2751 zwei Einträge vorher etwas geschrieben
-
@herbivore sagte: Habt ihr zu meinen obigen Beispielen schon irgendwelche Erkenntnisse gewinnen können?
Meine Vermutung war ja, dass die erste Aussage von @pidoubleyou zutrifft, es scheint jedoch die zweite zu sein, d.h. das Entfernen depublizierter Sendungen klappt generell nicht mehr zuverlässig:
@pidoubleyou sagte: Wenn die Filmliste also viele ungültige URLs enthält, dann sind diese entweder “gerade erst” aus den Mediatheken entfernt worden (was ich mir bei der beschriebenen Menge kaum vorstellen kann) oder wir haben aktuell ein Problem bei der beschriebenen Prüfung. Wir prüfen das mal.
-
@styroll sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Meine Vermutung war ja, dass die erste Aussage von @pidoubleyou zutrifft, es scheint jedoch die zweite zu sein, d.h. das Entfernen depublizierter Sendungen klappt generell nicht mehr zuverlässig:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
-
@mvsfsvm sagte: Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Das hat auch niemand behauptet…
Mir ging es um einen anderen Aspekt, auf den sich dann auch @pidoubleyou bezogen hast…
-
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Ist das wirklich so? Oder sind es nicht eher nur ein paar Filme, die als neu erscheinen?
Vielleicht sollten wir erst einmal den Begriff NEU erklären. Das ist eine Funktion innerhalb der MV Anwendung und kommt durch direkten Vergleich der heruntergeladenen alten und neuen Filmliste zustande. Es gibt mehrere Ursachen dafür, dass so eine neue Sendung erkannt wird
- Die Sendung wurde mal irgendwann nicht mehr beim Sender gefunden und später erneut gefunden.
- Die alte Filmliste ist nicht komplett. Früher musste man bis 10:30 Uhr warten, bevor ein kompletter Suchlauf über alle Sender enthalten waren. Keine Ahnung, ob das heute noch so ist.
- Die Sender basteln an ihrer eigenen Mediathek herum. Eventuell verändern sich sehr viele Parameter, wie der Speicherort, der Name der Sendung oder das Thema. Da wird es für eine einfache Software schwierig, das Böse vom Guten zu trennen. Vorzugsweise erscheinen einige Sendungen dann erneut oder doppelt ohne das Risiko, dass eine Sendung fälschlicherweise wieder gelöscht wird.
Falls einzelne Sendungen fast täglich wieder erscheinen, würde sich ein eigener Beitrag lohnen, um hier bessere Kriterien zu finden. Mir ist beispielsweise recht häufig die Sendung “Sitzung ZDF-Fernsehrat” aufgefallen, aber da es sich nur um einige wenige Einträge handelt, hat mich das bisher nicht gestört.
-
@menchensued sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Das allein sollte aber nicht dazu führen, dass diese Sendungen massenhaft als neu auftauchen.
Ist das wirklich so? Oder sind es nicht eher nur ein paar Filme, die als neu erscheinen?
Massenhaft war vielleicht etwas übertrieben, aber alle paar Tage (genauer kann ich das jetzt nicht sagen) sind das schon mehr als ein paar Filme. Zum Teil, aber nicht immer, sind es hauptsächlich Sendungen eines Senders. Beim letzten Mal waren es die vom HR.
Vielleicht sollten wir erst einmal den Begriff NEU erklären. Das ist eine Funktion innerhalb der MV Anwendung und kommt durch direkten Vergleich der heruntergeladenen alten und neuen Filmliste zustande. Es gibt mehrere Ursachen dafür, dass so eine neue Sendung erkannt wird
- Die Sendung wurde mal irgendwann nicht mehr beim Sender gefunden und später erneut gefunden.
- Die alte Filmliste ist nicht komplett. Früher musste man bis 10:30 Uhr warten, bevor ein kompletter Suchlauf über alle Sender enthalten waren. Keine Ahnung, ob das heute noch so ist.
- Die Sender basteln an ihrer eigenen Mediathek herum. Eventuell verändern sich sehr viele Parameter, wie der Speicherort, der Name der Sendung oder das Thema. Da wird es für eine einfache Software schwierig, das Böse vom Guten zu trennen. Vorzugsweise erscheinen einige Sendungen dann erneut oder doppelt ohne das Risiko, dass eine Sendung fälschlicherweise wieder gelöscht wird.
1 und 2 können es eher nicht sein, da ich immer nur manuell lade und u. a. genau deshalb die alte Filmliste nur erweitern lasse.
Falls einzelne Sendungen fast täglich wieder erscheinen, würde sich ein eigener Beitrag lohnen, um hier bessere Kriterien zu finden. Mir ist beispielsweise recht häufig die Sendung “Sitzung ZDF-Fernsehrat” aufgefallen, aber da es sich nur um einige wenige Einträge handelt, hat mich das bisher nicht gestört.
Es sind mir da schon immer wieder einzelne Sendung aufgefallen, die da immer wieder mal als neu auftauchen, warum auch immer. Konkret etwas nennen kann ich jetzt aber nichts. So etwas fällt mir beim Durchsehen der Liste auf und die Einzelheiten sind schnell wieder vergessen.
-
@mvsfsvm sagte in Filmliste verstetigen, damit keine Filme fälschlich als neu angezeigt werden:
Beim letzten Mal waren es die vom HR.
Ja, BR und HR hatten Probleme.
-
Hallo zusammen,
es freut mich, dass etwas Bewegung in die Sache gekommen ist. Deshalb möchte ich zur Unterstützung auch weiter aktuelle Beispiele liefern.
Heute waren (diesmal ohne meine üblichen Filter, sondern nur beschränkt auf Videos mit mindestens 14 Minuten Länge) knapp über 100 Einträge von ARTE als neu markiert, obwohl sie älter als drei Wochen waren.
Die meisten waren einigermaßen gleichverteilt zwischen 2.2.2018 und 26.5.2018 (alle Stichproblen broken). Von den restlichen waren fünfzehn vom Mai 2017 (fast alle waren “28 Minuten”, alle Stichproben broken), drei vom Mai 2016 (“Jordskott”, broken) und eins vom November 2015 (Mythos Einstein, online). Also immer einigermaßen zusammenhängende Bereiche unterbrochen von größeren zeitlichen Lücken, die zum Teil genau ein Jahr groß sind.
Hier nun ein paar konkrete Beispiele:
Ich hoffe, das hilft.
herbivore