ich möchte Aktienkurse beobachten, dazu möchte ich unterschiedliche Webseite abfragen und deren Informationen verarbeiten und speichern. Tools zum herunterladen der Webseite (wget) und zum abspeichern in Textdatei/Datenbank sind bekannt. Was mir fehlt ist das "Zwischenstück" zum parsen des Webseiteninhaltes.
Auf allen Webseiten steht Informationen die der Aktie zuzuordnen sind, Wert für z.B. Nr., Unternehmen, Markt, Brache, Vortag, Aktuell. Dem Tool möchte ich die html Datei geben und das dazupassende Schema, und das Tool sollte mir die Information aufbereitet, z.B. in einer cvs oder xml format ausgeben.
Vereinfachtes Beispiel:
Webseite:
Code: Alles auswählen
<html><body>
Text menu, etc. vieles was man nicht braucht.
Jetzt kommt die interessante Tabelle:
<table>
Hier stehen unwichtige sachen...
<tr><td>Aktiennr</td><td>brauch ich nicht</td><td>Aktuell</td>
</tr>
<tr><td>123</td><td>text...</td><td>42.24</td>
</tr>
<table>
<body></html>
Code: Alles auswählen
Suche -> "<tr><td>Aktiennr</td><td>brauch ich nicht</td><td>Aktuell</td>
</tr>"
Parse -> <tr><td>{Aktiennr}</td><td>{*}</td><td>{Kurs}</td></tr>
Code: Alles auswählen
<Aktiennr>123</Aktiennr><Kurs>42.24</Kurs>