Fehlerhafte URLs in der Filmliste
-
Es scheint neuerdings Konstrukte auf den Webseiten der Sender zu geben, über die der Crawler stolpert - aufgefallen ist dies bisher beim Sender “SR”.
Beispiel: die Sendung “Dirmingen von oben” vom 29.5.2019. Hier findet sich in der Filmliste dann als Download-URL:
http://mediastorage01.sr-online.de/<?= (substr(strtolower(SR3/SR3_VI/SR3_TUeW_Dirmingen_M.mp4),-3) == “mp4” ? “Video/”.SR3/SR3_VI/SR3_TUeW_Dirmingen_.“L.mp4” : “Audio/”.SR3/SR3_VI/SR3_TUeW_Dirmingen_M.mp4) ?>
Anscheinend handelt es sich um ein Stück Code zum Erstellen der URL; meine Expertise reicht leider nicht aus, um festzustellen, ob dieser Fehler bereits auf seiten des Webservers des Senders passiert, d.h. die Berechnung bereits auf dem Webserver hätte passieren müssen und nur eine “normale” URL hätte ausgeliefert werden sollen, oder ob der Crawler hier ein Konstrukt, das sonst ein Browser auswerten würde, nicht nachvollziehen konnte.
Gibt es hier jemanden, der beurteilen kann, ob das Problem crawlerseitig behoben werden kann?
Vielen Dank im Voraus!
-
Hallo @RealAndy,
für mich sieht das wie ein typisches PHP-Fragment aus; demnach wäre der Fehler seitens des SR-Servers zu suchen.
Da ich aber nicht weiß, wie der Crawler arbeitet bzw. wie die Download-URLs zustandekommen, kann ich leider auch nicht ausschließen, dass der Fehler dort liegt.
-
Insgesamt weisen derzeit ca. 1200 URLs in der Filmliste diesen Fehler auf, ausnahmslos URLs von Filmen des SR ab März 2019. Ob der Fehler beim Sender liegt oder erst vom Crawler erzeugt wird, kann ich auch nicht beurteilen.
Jedoch ist es mir gelungen, fehlerhafte in gültige URLs umzuwandeln. Für den oben von RealAndy als Beispiel genannten Film “Dirmingen von oben” lautet eine abspielbare URL:
http://mediastorage01.sr-online.de/Video/SR3/SR3_VI/SR3_TUeW_Dirmingen_L.mp4
Dies funktioniert nach gleichem Muster auch für andere SR-Filme mit fehlerhafter URL.Evtl. für Linux-Nutzer interessant: Ab sofort und solange die Fehler in der Filmliste bestehen, stelle ich meinen alternativen Client, das Shellskript MediaTerm, zum Download in einer provisorischen neuen Version 7.5-sr zur Verfügung, die die Konvertierung der fehlerhaften URLs automatisch vornimmt.
-
Die URL stehen so schon im Quelltext der Filmseiten beim SR. Also müßte man wahrscheinlich den Crawler anpassen das der brauchbare URL daraus macht.
MediaTerm benutze ich immer noch täglich. Schneller und ressourcenschonender geht nicht und das ganze JAVA-Geraffel und “Hilfe, nur noch für Mac!einself!” lassen mich kalt solange ich eine Filmliste bekomme