Space Vampire
Senior HTML'ler
Ich versuche den Textinhalt bestimmter Elemente auf einer externen Website auszulesen. Das folgende Script macht das eigentlich auch präzise. Leider zerschießt es die Umlaute. Die URL und die ID im Beispiel sind valide. Können also zur Anschauung verwendet werden.
Die ausgabe ergibt
*RACER-TB* Tröpfli KLORINDE
Ich habs auch schon über die DOM Arguments versucht. Kommt genau das Gleiche bei raus.
Nun wäre es eine Lösung, das vor der Ausgabe zeichenspezifisch zu bereinigen. Allerdings habe ich keine Ahnung, ob sich das Problem auf Umlaute beschrenkt.
Kann man das Problem vielleicht so anfassen, dass es gar nicht erst entsteht?
PHP:
$dom = new DomDocument;
$dom->validateOnParse = true;
@$dom->loadHTMLFile('https://www.geocaching.com/track/details.aspx?id=7911901');
$data = $dom->getElementById('ctl00_ContentBody_lbHeading');
echo $data->textContent;
Die ausgabe ergibt
*RACER-TB* Tröpfli KLORINDE
Ich habs auch schon über die DOM Arguments versucht. Kommt genau das Gleiche bei raus.
Nun wäre es eine Lösung, das vor der Ausgabe zeichenspezifisch zu bereinigen. Allerdings habe ich keine Ahnung, ob sich das Problem auf Umlaute beschrenkt.
Kann man das Problem vielleicht so anfassen, dass es gar nicht erst entsteht?