reinen Text aus HTML-File extrahieren

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
MultiCash
Beiträge: 45
Registriert: 17.01.2004 16:43:14

reinen Text aus HTML-File extrahieren

Beitrag von MultiCash » 05.12.2005 19:38:29

Hallo,

wie kann ich von einer Webseite nur den Text extrahieren ohne HTML-Code?
Bin leider Nichtprogrammierer,
Gruss
MC

harre
Beiträge: 65
Registriert: 22.11.2004 18:50:51
Wohnort: München

Beitrag von harre » 05.12.2005 20:06:15

Servus,

es gibt z.B. die Pakete

html2text
unhtml

ich selber habe sie nicht angesehen, aber vielleicht nützen sie dir was...

Gruß
Harre

Benutzeravatar
Joghurt
Beiträge: 5244
Registriert: 30.01.2003 15:27:31
Wohnort: Hamburg
Kontaktdaten:

Beitrag von Joghurt » 05.12.2005 20:20:20

Die dump-Funktion von lynx ist auch nützlich:

Code: Alles auswählen

lynx -dump http://URL

Antworten