Eigene Duplikat-Erkennung via Regex (Title-Normalization)
Ideen, Anregungen, Verbesserungen
2
Beiträge
2
Kommentatoren
38
Aufrufe
1
Watching
-
Die Duplikat-Erkennung scheitert oft an variierenden Schreibweisen (Präfixe, Jahreszahlen). Es wäre hilfreich, eigene Regex-Regeln (pro Filter) zu definieren, die den Titel vor dem Abgleich bereinigen.
Zum Beispiel:
- Der Irre Iwan
- Tatort: Der Irre Iwan
- Der Irre Iwan (2020)
Beispiel-Regex:
((?i)^Tatort:\s*)|(\s*\(\d{4}\)$)
würde alle obigen Sendungen zuDer Irre Iwan
normalisieren.
Einfach erst alles wild herunterladen und danach (mit externem Tool) aufräumen ist natürlich eine Option - aber auch Resourcenverschwendung.
-
Welche der drei Versionen soll dann runtergeladen werden?
In dem Beispiel mit dem irren Iwan haben die 3 Versionen jeweils in der höchsten Auflösung eine Filegröße von ca. 2300 MB bis ca. 3200 MB.