URL mit awk extrahieren

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
azerty
Beiträge: 965
Registriert: 15.02.2007 20:18:17

URL mit awk extrahieren

Beitrag von azerty » 10.12.2009 07:30:00

Hallo

Wie in einem anderen Thread angekündigt möchte ich nun meine Lesezeichen-Verwaltung auf reinen Text ohne jegliche Auszeichnungssprache wie HTML umstellen. Dazu müssen allerdings auch die alten Firefox-Lesezeichen aus einer HTML ausgelesen und auf das wesentliche, nämlich reinen Text, reduziert werden.

Dies habe ich mit

Code: Alles auswählen

 echo "`cat bookmarks.html`" | grep -o 'http://[^"]*' 
soweit erfolgreich gemacht. (Ist korrekt oder? Zumindest bekomme ich bei mir eine ellenlange List, die ich allerdings nicht im Detail kontrollieren kann.)

Jedoch speichert der Firefox in der bookmarks.html nicht nur Lesezeichen-URLs sondern auch die URLs der Favicons. Wie kann ich die Ausgabe (des oben genannten Befehls) nun aller Favicon-URLs bereinigen?

Alle Favicon-URLs haben enthalten ein "favicon.ico", das müsste sich irgendwie filtern lassen, habt ihr da Vorschläge wie ich das bewerkstelligen könnte?

Feedback und Hilfe sind willkommen!
.

Benutzeravatar
towo
Beiträge: 4552
Registriert: 27.02.2007 19:49:44
Lizenz eigener Beiträge: GNU Free Documentation License

Re: URL mit awk extrahieren

Beitrag von towo » 10.12.2009 07:45:00

Code: Alles auswählen

grep -o 'http://[^"]*' bookmarks.html | grep -v favicon
So vielleicht?

Benutzeravatar
Duff
Beiträge: 6321
Registriert: 22.03.2005 14:36:03
Wohnort: /home/duff

Re: URL mit awk extrahieren

Beitrag von Duff » 10.12.2009 07:52:55

Morgen,

was genau willst du denn aus der Datei noch ermitteln?
Kannst du mir vielleich mal ein Beispiel posten. Bei mir steht beim ICON immer nur data:image/png.

Code: Alles auswählen

sed -e '/http:/!d;s/^.*http:\/\/\([^"]*\)".*/\1/g' /etc/iceweasel/profile/bookmarks.html
[edit]
Ups, habe die Frage wohl falsch verstanden.
Sorry.
[/edit]
Oh, yeah!

azerty
Beiträge: 965
Registriert: 15.02.2007 20:18:17

Re: URL mit awk extrahieren

Beitrag von azerty » 10.12.2009 08:00:08

towo hat geschrieben:

Code: Alles auswählen

grep -o 'http://[^"]*' bookmarks.html | grep -v favicon
So vielleicht?
Passt genau! Danke euch für eure Hilfe!
.

Benutzeravatar
Meillo
Moderator
Beiträge: 9279
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: URL mit awk extrahieren

Beitrag von Meillo » 10.12.2009 10:36:32

urlview ist für sowas ein nettes Programm. In dessen Manpage findet sich auch eine ziemlich vollständige (extended) RegExp zum Matchen:

Code: Alles auswählen

(((http|https|ftp|gopher)|mailto):(//)?[^ <>"\t]*|(www|ftp)[0-9]?\.[-a-z0-9.]+)[^ .,;\t\n\r<">\):]?[^, <>"\t]*[^ .,;\t\n\r<">\):]
Use ed once in a while!

Benutzeravatar
Duff
Beiträge: 6321
Registriert: 22.03.2005 14:36:03
Wohnort: /home/duff

Re: URL mit awk extrahieren

Beitrag von Duff » 10.12.2009 12:52:49

Meillo hat geschrieben:urlview ist für sowas ein nettes Programm. In dessen Manpage findet sich auch eine ziemlich vollständige (extended) RegExp zum Matchen:

Code: Alles auswählen

(((http|https|ftp|gopher)|mailto):(//)?[^ <>"\t]*|(www|ftp)[0-9]?\.[-a-z0-9.]+)[^ .,;\t\n\r<">\):]?[^, <>"\t]*[^ .,;\t\n\r<">\):]
Sieht ja wild aus ;-)
Zuletzt geändert von Meillo am 10.12.2009 16:02:28, insgesamt 1-mal geändert.
Grund: Überzähliges Tag entfernt.
Oh, yeah!

Antworten