Filmliste als XML exportieren
-
Hallo liebes Forum,
für meine BA möchte ich gerne einige Formate aus der ARD Mediathek analysieren. Dafür brauche ich als erstes eine Übersicht über alle Reportagen zwischen den Jahren 2014 und 2018. Da die ARD Website m.K.n. meine speziellen Ansprüche an einen Filter nicht unterstützt, war meine Idee die Filmliste von Mediathekview zu nutzen. Das Programm selbst bietet mir auch nicht direkt die Filter, die ich brauche, also habe ich überlegt, die Filmliste zu exportieren und z.B. mit Libre Office Calc zu filtern. Allerdings sehe ich gerade keine Möglichkeit, die Filmliste als XML (o.ä.) zu exportieren.
Habt ihr Ideen, wie ich die Filmliste umwandeln könnte oder kennt ihr einen anderen Weg, wie ich besser die Inhalte Filtern könnte?
Vielen Dank.
-
Die Filmliste liegt in MV als JSON vor. Das ist keine 2-dimensionale Datenstruktur, die man in ein Calc einspielen könnte. Da müsste man selektiv exportieren/umwandeln, was zu programmieren wäre…
Zweitens ist die Filmliste (bei mir) 555 Megabyte groß und hat über 800.000 Einträge. Da dürfte Calc schwer ans Limit kommen.Ein paar Beispiele für Abfragen wären hilfreich, damit man sieht, worauf du hinaus willst - vielleicht kann es MV ja doch via Regex oder Lucene?
-
Danke für deine Antwort. Ich möchte mir zum Beispiel gerne alle Beiträge vom MDR zwischen 2014 und 2018, mit einer Länge zwischen 20 und 90 Minuten, aus den Rubriken XYZ (die kenne ich leider noch nicht genau bzw. recherchiere ich gerade, aber z. B. die Reportage-Formate) auflisten lassen.
Aus der Liste will ich dann aus jedem Jahr beispielhafte Beitrage aussuchen und analysieren. -
Dir ist schon bewusst, dass das 10 Jahre her ist? Da dürften selbst eigenproduzierte Reportagen längst wieder depubliziert sein, siehe Lizenzregelungen im Rundfunkstaatsvertrag. MV bildet schließlich nur das ab, was aktuell verfügbar ist und nicht das, was mal war.
Wenn überhaupt werden sich so alte einzelne Beiträge nur analysieren lassen, wenn sie von den Sendern vergessen wurden rauszunehmen oder aktuell erneut ausgestrahlt werden, aber das Datum der damaligen Erstaustrahlung tragen.
Eben beschriebenes bildet den Normalfall ab. Es gäbe noch das Archiv von MV, mit dem man ab 2015 lediglich auf Metaebene was analysieren könnte. Die Beiträge herunterladen geht damit nicht mehr, weil sonst hätten die Sender das ja aktuell im Angebot (siehe erster Absatz).
-
@tvRR sagte: Die Filmliste liegt in MV als JSON vor.
Ja, aber die JSON-Datei lässt sich via “Datei/Export/Lesbare Filmliste…” in eine CSV-Datei exportieren, welche anderswo eingelesen werden kann (Excel brauchte dazu auf meinem Gerät etwa eine Minute, auch wenn ich dann mit einer solchen Datei wohl eher nicht weiterarbeiten möchte).
-
Bei einer exportierten Liste muss man sich bewusst sein, dass nicht alle Felder ausgefüllt werden. Sollte der Text identisch mit dem Text in der vorherigen Zeile sein, wird er weg gelassen, um Platz zu sparen.
Beim Datum muss man auch aufpassen, denn alte Sendungen werden nicht aktiv gesucht und Wiederholungen haben nicht immer das Datum der Erstsendung. Für eine fundierte Analyse scheint mir MediathekView daher nicht geeignet.
-
Mit der modernen Suche aka Lucene ist man in der Lage, die vorhandene Filmliste nach den versch. kriterien und Jahresbereich einzugrenzen. Damit kann die gewünschte Eingrenzung IMHO durchaus jetzt schon vorgenommen werden. Es fehlt jedoch der Export der Ergebnisse.
Ich bin mir nur nicht sicher was mit den Ergebnissen angefangen werden soll.
Ansonsten könnte man mit ein wenig Java Kenntnis sich auch eine eigene Konvertierung programmieren, das Lesen der Filmliste wird über eine Klasse realisiert die recht leicht handhabbar ist und dann ist einem export keine Grenze gesetzt.