Erkennung doppelter Beiträge
-
Ich benutze Mediathekview und ein eigenes Programm, um Medien zu abonnieren und zu verwalten. Wie andere Nutzer habe ich das Problem der Erkennung von doppelten Beiträgen. Ich würde gern näheres über die Metadaten erfahren, um diese eventuell zum Sortieren verwenden zu können.
Meine Fragen beziehen sich auf den Ursprung von “timestamp”, “filmlisteTimestamp” und die “id”. Worauf beziehen sich die beiden timestamp Attribute? Wann ändern sie sich? Wann wird eine ID vergeben? Identifiziert diese ein Medium, einen Sendetermin? Ab welchem Punkt wird für einen Film, eine Episode eine neue ID vergeben? Neuer Sendetermin, neuer Kanal, leicht geänderter Name oder Beschreibung?
Danke im Voraus für euer Feedback
-
@Konstrukteur ich kann dir nur zur ID etwas sagen: die wird nämlich individuell angelegt - vermutlich damit das Programm die Übersicht über die Filme behält. Wenn du zwei Computer hast, wird die ID auf den beiden Geräten unterschiedlich sein.
In der Filmliste von heute, 9:34 ist z.B. “10 vor 10” von SRF gestern abend:
1322769 auf dem MacBook
1326532 auf dem iMacDie ID eignet sich also nicht als Referenz für einen Film.
Die ID ist auch bei “doppelten Einträgen” jeweils unterschiedlich.
-
@mac-christian Danke dir für dein Feedback. Du meinst den Hash am Ende der heruntergeladenen Datei? Der müsste laut online Beschreibung in der Hilfe ein Hash der URL sein. Keine Ahnung ob mit oder ohne Protokoll… Der Unterschied könnte bei dir eventuell auch daran liegen, dass du einmal ‘HD’, und ein anderes mal ‘normal’ oder ‘low’ abgerufen hast? Da jede Version jeweils eine eigene URL hat, entstehen unterschiedliche Hashs.
Leider habe ich keine Ahnung, was fuer ein Verfahren verwendet wird, um den Hash zu erzeugen. SHA1, SHA256 oder MD5 erzeugen alphanumerische Hashs. Hier könnte es allerhöchstens sein, dass nur die Zahlen genommen werden. Numerische Hashs könnte man mit CRC32 oder FNV1a_32 erstellen. Ich würde gern wissen, welche Funktion verwendet wird, um den Hash zu erzeugen, da ich doppelte Dateien habe, mit der URL aber ohne den Hash und Dateien ohne URL, aber mit Hash. Wenn ich wüsste, welcher Hash verwendet wird, könnte ich schon mal einen Teil meiner doppelten Dateien identifizieren.
Ich würde ausserdem gern erfahren, für was der Timestamp steht? Letzter Drehtag, Schnitt, Premiere, erstes mal gesendet, erstes mal in einer Mediathek, letztes mal in der Mediathek??? Wenn man wenigstens den Timestamp zuordnen könnte, hätte ich noch einen Angriffspunkt zur Identifikation.
Die ID der Medien müsste ne Art UUID sein wie z.B.:
SG2S8Zg3ismgMWlinYGwtTqNfdW3LTS0QXUEQpExajk=
-
@Konstrukteur sagte in Erkennung doppelter Beiträge:
Du meinst den Hash am Ende der heruntergeladenen Datei?
Nein, ich meine die ID, oder auch “Film-Nummer”.
Wie du aus dem Bild sehen kannst, wird die Film-Nr. / ID wohl bei jedem Öffnen des Programms neu generiert, auch wenn es die gleiche Filmliste ist (ist mir bisher auch nicht aufgefallen).
-
@Konstrukteur md5 wird benutzt.
-
@mac-christian Ja genau, das ist die Filmnummer, die vom Client bei jedem Laden der Liste neu vergeben wird. Das Backend hat dann ne eigene. Ich danke dir!
-
@Georg-J Vieeeeelen Dank!!! Damit kann ich mal versuchen weiter zu kommen und einen Teil meiner Dopplungen zu identifizieren. Wünsch dir einen schönen Tag!
-
@Konstrukteur eine eindeutige Identifikation eines Films/Episode gibt es leider in MediathekView nicht - sonst könnten wir doppelte Beiträge selbst auch besser erkennen.
der Hash, der mittels %z in den Dateinamen integriert werden kann, ist ein Hash der Download-Url, Details zur Erzeugung siehe Code
Die Url kann sich verändern, wenn der Sender die Auflösungen ändern, eine Sendung erneut online stellt oder beim ZDF auch manchmal ohne erkennbaren Grund. Deshalb tauchen in MediathekView-Sendungen manchmal in der Downloadliste auf, obwohl sie schon heruntergeladen wurden.der Timestamp, der mittels %D/%d in den Dateinamen integriert werden kann, bezieht sich auf das Sendedatum. MediathekView ermittelt dieses aus den Infos der Mediatheken. Im Regelfall ist es der Zeitpunkt der (Erst-)Ausstrahlung der Sendung, bei nur online verfügbaren Beiträgen der Zeitpunkt der Online-Stellung. Ob ein Sender bei einer erneuten Bereitstellung in der Mediathek das alte Erstausstrahlungsdatum benutzt oder ein neues, ist nicht vorhersagbar.
-
@pidoubleyou Super! Danke dir recht herzlich für die Informationen. Mal schauen, ob ich damit der Situation hier Herr werde ;0)
-
@pidoubleyou Der Hinweis auf den SourceCode war Gold wert. Jetzt kann ich den Hash nachbilden und die bei mir doppelten Dateien ohne Hash mit denen mit Hash abgleichen! Vielen Dank!