Eigene Duplikat-Erkennung via Regex (Title-Normalization)
-
Die Duplikat-Erkennung scheitert oft an variierenden Schreibweisen (Präfixe, Jahreszahlen). Es wäre hilfreich, eigene Regex-Regeln (pro Filter) zu definieren, die den Titel vor dem Abgleich bereinigen.
Zum Beispiel:
- Der Irre Iwan
- Tatort: Der Irre Iwan
- Der Irre Iwan (2020)
Beispiel-Regex:
((?i)^Tatort:\s*)|(\s*\(\d{4}\)$)
würde alle obigen Sendungen zuDer Irre Iwan
normalisieren.
Einfach erst alles wild herunterladen und danach (mit externem Tool) aufräumen ist natürlich eine Option - aber auch Resourcenverschwendung.
-
Welche der drei Versionen soll dann runtergeladen werden?
In dem Beispiel mit dem irren Iwan haben die 3 Versionen jeweils in der höchsten Auflösung eine Filegröße von ca. 2300 MB bis ca. 3200 MB.
-
Spontan fallen mir drei Optionen ein:
- man legt in den Settings eine Priorität fest: größte Size, höchste Bitrate, ARD vor MDR oder ähnlich
- der User Entscheidet Fall für Fall
- random
@dolebo sagte in Eigene Duplikat-Erkennung via Regex (Title-Normalization):
der User Entscheidet Fall für Fall
Zumindest diese Option hat man jetzt schon, in dem man Downloads nicht sofort starten läßt und via Download-Tab entscheidet, was runtergeladen werden soll und was nicht.