ORF - Das könnte Sie auch interessieren
-
Zum Schmunzeln:
Das könnte Sie auch interessieren
So betitelt der ORF seit heute seine Sendungen - zumindest in der Mediathek.
Was früher identisch war (Thema = Titel) heißt jetzt so.
Also: wieder mal was Neues aus Austria -
Leider blicke ich selber nicht durch: mal sind alles Beträge ohne Ländercode dabei, oder es ist nur die früher “Signation” genannte.
-
Ich hab mal beim ORF bei diversen Sendungen mit dem Titel “Das könnte Sie auch interessieren.” auf dem Weblink geklickt. Nach dem Video (auch nach den Video-Hinweisen für Geoblocking oder Altersbeschränkung erst ab 20:00 Uhr abrufbar) wird dort eine Seite geschaltet mit eben diesem Titel. Scheinbar greift sich der Crawler das.
Wenn ich nach diesem Satz und ORF filtere erhalte ich 683 Treffer
-
Das Problem ist, dass der Crawler “nur” nach der Klasse .description-title im Seitenquelltext sucht und das erste Vorkommen dafür sind jetzt die Video-Empfehlungen, die eh standardmäßig ausgeblendet sind und erst am Ende des gesamten Videos (!) per JavaScript eingeblendet werden. Das weiß der Crawler aber nicht und extrahiert jetzt die falschen Informationen und ordnet sie dann falsch zu.
https://github.com/mediathekview/MServer/blob/master/src/main/java/mServer/crawler/sender/orf/tasks/OrfFilmDetailTask.java :35 -> hier liegt der Hund begraben
Die neue CSS-Klasse lautet .video-title und befindet sich innerhalb der video_wrapper. Vielleicht wäre es sinnvoll, das in Zukunft direkt auf den Video-Container einzuschränken und dort nach Elementen mit Überschriften zu suchen. Dann wäre man nicht so an den Klassennamen gebunden und könnte das Problem vermeiden. Ich weiß allerdings nicht, ob sich das so explizit einschränken lässt. Ist jetzt nur ein spontaner Gedankengang von mir
-
Danke für den Hinweis. Auf Github hat bereits gestern Abend jemand einen Issue angelegt, deshalb habe ich bereits gestern einen PR mit einem Fix erstellt.
@Manuel danke für den Hinweis. Ich habe den Fix ein bisschen anders gemacht, siehe Github-Ticket
https://github.com/mediathekview/MServer/issues/556 -
@pidoubleyou Alles klar, perfekt! Danke