Wie kann der Download bereits vorhandener Wiederholungs-Sendungen unterdrückt werden?
-
Das öffentlich rechtliche Fernsehen lebt vom ständigen Wiederholen bereits gesendeter Beiträge. Das ist (hier) aber nicht das Problem:
Wie kann man verhindern, das bereits vor längerer Zeit gesendete Beiträge erneut heruntergeladen werden, obwohl dies bereits erfolgt war? Das passiert Schubweise, z.B. wurde gestern 40GB von Elefant, Tiger und Co. heruntergeladen, alle waren aber bereits Mitte 2017 heruntergeladen worden.
Ja, ich kenne die “Mediensammlung”. Die hilft aber leider dabei nicht. Gibt es eine andere Möglichkeit, das MV-“Gedächtnis” zu nutzen, um unnütze Downloads zu vermeiden? -
@msdd Das macht MV bereits wichtig ist dafür die Datei “history.txt” in der die bereits erfolgten Downloads gespeichert werden. Zur Erkennung ob eine Sendung bereits heruntergeladen wurde werden verschiedene Parameter überprüft. Dabei kann es vorkommen, dass sich genug “geändert” hat so, dass es als neue Sendung angesehen und somit erneut herunter geladen wird.
-
Danke für die schnelle Antwort! (ist schon bemerkenswert, mit welcher Performance hier Support geleistet wird, da kann sich manch anderer bezahlte Service mal ein Beispiel nehmen).
Nun hilft mir die Antwort aber leider nicht wirklich weiter: An der Sendung hat sich definitiv nix geändert, ausser dem Speicherort. Dies kann man an Hand der .txt Dateien gut nachprüfen, z.B.:# diff Elefant,_Tiger_\&_Co-Folge_437__Ndugu_ist_wieder_da\!_0713428965_20170420_161000.txt Elefant,_Tiger_\&_Co-Folge_437_Ndugu_ist_wieder_da\!_20170420_161000.txt 15c15 < https://pdvideosdaserste-a.akamaihd.net/int/2017/04/19/38aae00d-55fc-4ee3-ba7f-5e225eec5ab1/960-1.mp4 --- > http://pd-videos.daserste.de/int/2017/04/19/38aae00d-55fc-4ee3-ba7f-5e225eec5ab1/960-1.mp4
Ich könnte mir vorstellen, dass es kein allzu großer Aufwand ist, diesen zu ignorieren, wenn der Dateiname ansonsten vollkommen identisch ist.
Oder? -
Dieser Beitrag wurde gelöscht! -
@msdd
Nur so als Tip, drei “```” bringen dir hier die Code-Formartierungdiff FOOBAR1 FOOBAR2
Ein Klick auf das Fragezeichen rechts oben im Editor neben “Verfassen” erklärt noch mehr
-
@msdd sagte in Wie kann der Download bereits vorhandener Wiederholungs-Sendungen unterdrückt werden?:
Nun hilft mir die Antwort aber leider nicht wirklich weiter: An der Sendung hat sich definitiv nix geändert, ausser dem Speicherort. Dies kann man an Hand der .txt Dateien gut nachprüfen, z.B.:
# diff Elefant,_Tiger_\&_Co-Folge_437__Ndugu_ist_wieder_da\!_0713428965_20170420_161000.txt Elefant,_Tiger_\&_Co-Folge_437_Ndugu_ist_wieder_da\!_20170420_161000.txt 15c15 < https://pdvideosdaserste-a.akamaihd.net/int/2017/04/19/38aae00d-55fc-4ee3-ba7f-5e225eec5ab1/960-1.mp4 --- > http://pd-videos.daserste.de/int/2017/04/19/38aae00d-55fc-4ee3-ba7f-5e225eec5ab1/960-1.mp4
Ich könnte mir vorstellen, dass es kein allzu großer Aufwand ist, diesen zu ignorieren, wenn der Dateiname ansonsten vollkommen identisch ist.
Oder?Hab das mal für dich bearbeitet.
-
@alex: Danke für’s aufhübschen!
Leider hilft das aber auch nicht, meine Frage zu beantworten:frowning_face: .
Heute Nacht hat es wieder etliche doppelte Downloads im Rahmen von Abos gegeben, die dann anschliessend manuell erkannt (!) und gelöscht werden müssen. In vielen Fällen war der einzigste Unterschied das Protokoll: einmal http und einmal https:
1_1521963306374_Nordtour-Der_Fischereihafen_in_Buesum_0637278829_20180324_180000.txt
0_1521963306374_Nordtour-Der_Fischereihafen_in_Buesum_0769676566_20180324_180000.txtDie md5sums der heruntergeladenen Videodateien ist identisch:
Nordtour-Der_Fischereihafen_in_Buesum_0637278829_20180324_180000.mp4:
ccd64b78835baa6b8dc675efa26d103aNordtour-Der_Fischereihafen_in_Buesum_0769676566_20180324_180000.mp4:
ccd64b78835baa6b8dc675efa26d103aEs wäre schön und nützlich zu wissen, wie man diese unnötige Bandbreiten- und Plattenplatz-Verschwendung vermeiden könnte (ganz zu Schweigen von dem Aufwand, diese Dubletten zu suchen und zu finden)!
-
@msdd sagte: Heute Nacht hat es wieder etliche doppelte Downloads im Rahmen von Abos gegeben, die dann anschliessend manuell erkannt (!) und gelöscht werden müssen.
Das ist ja ganz schlimm (!)…
Deine 2 Beispiele zeigen, dass die Duplikate-Erkennung nicht funktioniert, da sich die URL geändert hat.
Bei Beispiel 2 ist offensichtlich, dass es sich um die gleiche Sendung handelt (die Frage ist, wie viele solche Sendungen mit http statt https in der Video-URL es beim NDR noch gibt).
Beim Beispiel 1 ist die URL offensichtlich anders, nur der Titel der Sendung ist gleich (de facto liegt die ältere Sendung noch auf dem “alten” Server). Leider publizieren Sender auch immer wieder Sendungen mit gleichen (nichtssagenden) Titeln, hinter welchen aber letztlich verschiedene Beiträge (Videos) – erkennbar an einer anderen Video-URL – stecken.In der Vergangenheit wurden immer wieder Veränderungen an der Logik der Duplikateerkennung vorgenommen, mit fraglichem Erfolg, da sich die Websites der Sender fast schneller ändern, als sich eine Anpassung auswirken konnte. Zudem bezieht sich die Logik der Duplikateerkennung – meines Wissens nach – global auf alle Sender. Nötig wäre jedoch eine aufwändige Anpassung für jeden Sender einzeln.
Letztlich müssen das die Entwickler entscheiden, was an Anpassungen Sinn macht.
-
Man kann ja vielleicht ganz simpel anfangen: Haben zwei Video-Dateien identische Dateinamen (und die Dateinamen sind ja durch die numerischen Zusaetz sicher eindeutig, z.B. die 1521963306374 wird wohl kaum noch bei einer Datei anderen Inhaltes vorkommen, oder?) sollten sie nicht Doppelt automatisch heruntergeladen werden, egal wo sie liegen. Damit wuerde man schon viel erreichen und der dazu erforderliche Programmieraufwand wird wohl nicht sehr umfangreich sein)
Aber vielleicht liege ich ja da auch total falsch… -
@msdd Das hört sich für mich nach KI an und allzu “intelligenten” Systemen sollte man erst mal nicht trauen. Gerade bei Serien oder periodischen Sendungen könnte es leicht zur Unterdrückung von Folgen führen, wenn der Dateiname identisch, der Pfad jedoch anders ist. Beispiel
…/2018/02/13/Tagesschau.mp4 und
…/2018/02/14/Tagesschau.mp4Und diese KI lässt sich leider nicht ausgiebig testen und stabilisieren, da die ÖR nichts besseres mit unseren Gebühren zu tun haben, als ständig an ihren Softwaresystemen zu ändern. Man sollte doch meinen, wenn das Backend mal steht, müsste man nicht regelmäßig die ganze Struktur umkrempeln. Aber das Geld ist wohl da und muss ausgegeben werden, sonst gibt es in der nächsten Runde weniger.
-
@msdd @MenchenSued Also KI ist das nicht aber wir sind an dem Thema dran mit der neuen angestrebten Architektur wird auch eine neue Erkennnung kommen welche wir auch viel einfacher und besser vorher testen können. Nur perfekt wird sie nie sein einfach schon weil wenn duplikate an zu wenig Eigenschaften festgemacht werden fehlen Sendungen die falsch erkannt wurden und wenn an zu vielen dann sind Sendungen doppelt.
Also einfach mal Abwarten die Problematik ist uns schon lange bekannt und wir sind drann aber wir können nunmal nicht zaubern.