website laden

Einrichten des lokalen Netzes, Verbindung zu anderen Computern und Diensten.
Antworten
latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

website laden

Beitrag von latenite » 28.01.2008 15:09:14

Hallo Leute,


ich habe da eine Seite mit nützlichen man-pages entdeckt und wollte die mal lokal speichern.

http://linux.die.net/man/

leider hatte ich weder mit "httrack" noch mit "wget" glück.

wget liefert diese ausgabe:

Code: Alles auswählen

wget -r http://linux.die.net/man/
--15:05:40--  http://linux.die.net/man/
           => `linux.die.net/man/index.html'
Auflösen des Hostnamen »linux.die.net«.... 209.151.236.22
Verbindungsaufbau zu linux.die.net|209.151.236.22|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: nicht spezifiziert [text/html]

    [ <=>                                 ] 4.208         --.--K/s             

15:05:40 (719.63 KB/s) - »linux.die.net/man/index.html« gespeichert [4208]

Lade »robots.txt«; bitte Fehler ignorieren.
--15:05:40--  http://linux.die.net/robots.txt
           => `linux.die.net/robots.txt'
Verbindungsaufbau zu linux.die.net|209.151.236.22|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 637 [text/plain]

100%[====================================>] 637           --.--K/s             

15:05:41 (977.46 KB/s) - »linux.die.net/robots.txt« gespeichert [637/637]


BEENDET --15:05:41--
Geholt: 4.845 Bytes in 2 Dateien
was kann man da machen wenn man die seite lokal haben will (ich will das auf dem weg zu uni im Zug lesen)

Benutzeravatar
LeoLinux
Beiträge: 408
Registriert: 24.11.2005 17:58:47
Wohnort: Frankfurt Am Main

SpiderZilla

Beitrag von LeoLinux » 28.01.2008 15:13:06


Benutzeravatar
Duff
Beiträge: 6321
Registriert: 22.03.2005 14:36:03
Wohnort: /home/duff

Re: SpiderZilla

Beitrag von Duff » 28.01.2008 16:07:55

LeoLinux hat geschrieben:http://www.erweiterungen.de/detail/SpiderZilla/

Grüße,

Leander
Eine interessante Erweiterung.
Und dass ganze funktioniert?
Oh, yeah!

Benutzeravatar
LeoLinux
Beiträge: 408
Registriert: 24.11.2005 17:58:47
Wohnort: Frankfurt Am Main

Beitrag von LeoLinux » 28.01.2008 16:10:25

Für mich hats perfekt funktioniert ....man braucht etwas bis man das Ding so konfiguriert hat wie man das gerne hätte, aber einmal durchschaut, tuts das perfekt für solche Dinge.

MFG

latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

Beitrag von latenite » 28.01.2008 19:19:14

das plugin gibts leider nur fuer firefox 1.5 ich hab aber 2.0
ausserdem nutzt das doch auch httrack...und ich bezweifle das das dann geht wenn aus der kommandozeile nicht geht.

Uberhaupt...hat jemand ne gute idee wie man diese .pho Seiten rekusiv laden kann? das httrack und wegt geht ja scheinbar nur bei .html?!! :roll:

Benutzeravatar
devilx
Beiträge: 734
Registriert: 26.08.2003 22:57:20
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Filderstadt
Kontaktdaten:

Beitrag von devilx » 28.01.2008 19:26:18

Hm, warum solltest du unnoetig Traffic im Internet produzieren wollen, wenn du diese Manualpages auch auf deinem Debian System per apt-get install <paketname>-doc haben kannst? Oder habe ich irgendwelche Sonder-Pages auf der Seite uebersehen, welche es nicht im APT-Repository gibt, fuer Software die du warscheinlich keine zwei mal im Leben brauchen wirst? ;-)
When you smile, the world smiles with you :)
When you fart, you stand alone :(
... a place full of dorkness

latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

Beitrag von latenite » 28.01.2008 19:30:13

die manpages dort sind detailiert und ausser dem geht es mir um das verfahren...es gibt ja noch mher seiten die man spiegel will...bei denn es aber nicht geht.

wie kann ich denn das plugin unter firefox 2.0 installiern? :roll:

Benutzeravatar
LeoLinux
Beiträge: 408
Registriert: 24.11.2005 17:58:47
Wohnort: Frankfurt Am Main

Beitrag von LeoLinux » 28.01.2008 19:32:33

;-) das geht !!!
;-) ich nutze es ebenfalls mit Firefox 2.0.

https://addons.mozilla.org/de/firefox/addon/1616

P.S. ich ... bestimmt schon tausendmal gehört ... , aber gibst du deine Anliegen auch ma in Google ein bevor du postest??

http://www.cul.de/data/freex52005pr.pdf
^^ solltest du des Lesens mächtig sein ist das hier noch ne schöne Anleitung für wget. SpiderZilla ist aber cooler ... kann man feiner tunen.

MFG, Leander
Zuletzt geändert von LeoLinux am 28.01.2008 23:25:54, insgesamt 1-mal geändert.

Benutzeravatar
duese
Beiträge: 651
Registriert: 12.07.2006 15:27:20
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Beitrag von duese » 28.01.2008 20:06:13

latenite hat geschrieben:das plugin gibts leider nur fuer firefox 1.5 ich hab aber 2.0
Bei manchen Erweiterungen kann man die Kompatibilitätsprüfung aushebeln. Man braucht dazu die Erweiterung "MR Tech Local Install" [1].

Gruß,
Thomas

[1]: https://addons.mozilla.org/de/firefox/addon/421

Benutzeravatar
LeoLinux
Beiträge: 408
Registriert: 24.11.2005 17:58:47
Wohnort: Frankfurt Am Main

Beitrag von LeoLinux » 28.01.2008 23:23:35

Hats hingehauen, oder sitzt du noch immer im Dunkeln?

MFG,

Leander

latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

Beitrag von latenite » 29.01.2008 20:05:58

ok frag mich nicht wie ich das gemacht habe.aber es lauft...und funktioniert bestens.

also danke an den tip mit dem plugin.


nun aber noch eine frage: Wenn das plugin httrack nutzt, warum kann ich dann mit httrack in der konsole nichts downloaden...mit dem plugin aber schon? Welche "abgefahrenen" Parameter werden denn da an httrack uebergeben??
weis das jenmand?

latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

Beitrag von latenite » 30.01.2008 00:19:33

ging doch nicht!!! aarg! :oops:

Bitte verscuht doch mal oben genannte site du laden! wenn ihr das mit spiderzilla hinbekommt dann sagt mal bitte wie...bei mir ist ab dem alphabetardner alles leer.

Benutzeravatar
LeoLinux
Beiträge: 408
Registriert: 24.11.2005 17:58:47
Wohnort: Frankfurt Am Main

Beitrag von LeoLinux » 30.01.2008 20:40:37

ist lange her, das ich das mit SpiderZilla gemacht habe, aber ich musste auch ne ganze Weile herumprobieren bis ich die einzelnen vielen, aber geilen und über aus nützlichen Funktionen verstanden habe.

schau doch einfach mal auf die Homepage des Pugins, oder google mal nach passenden Einstellungen.


MfG,

Leander

qgirl
Beiträge: 224
Registriert: 14.08.2005 09:04:50
Lizenz eigener Beiträge: MIT Lizenz

Beitrag von qgirl » 30.01.2008 21:07:34

Bzgl. der angegebenen Seite könntest du noch folgendes probieren:
http://linux.die.net/sitemap.xml.gz
downloaden und entpacken, dann

Code: Alles auswählen

cat sitemap.xml | grep "<loc>http://linux.die.net/man" | sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' > wgetdata.txt
wget -xi wgetdata.txt
Gruss
qgirl

latenite
Beiträge: 688
Registriert: 14.05.2007 01:04:23

Beitrag von latenite » 31.01.2008 14:28:21

Hallo qgirl,

Leider hat deine (fuer mich leider unverstaendliche) Zeile nichts gemacht. Vielleciht ist das zu viel, aber kannst du die einzelnen Sachen mal kurz erlaeutern?

Zur Zeit weis ich nur das:

1. das "|" piped
2 das > in ne datei schreibt
3. cat nen datei inhalt auswirft

leider fehlt der gesammte Rest an wissen um zu verstehen was da vor sich geht?! Koenntest du's bitte kurz erklaeren?

Danke und Gruss

latenite

qgirl
Beiträge: 224
Registriert: 14.08.2005 09:04:50
Lizenz eigener Beiträge: MIT Lizenz

Beitrag von qgirl » 01.02.2008 16:35:29

Im ersten Schritt wird die URL-Liste generiert:

Code: Alles auswählen

cat sitemap.xml | grep "<loc>http://linux.die.net/man" | sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' > wgetdata.txt 
  • cat sitemap.xml -> Ausgabe der Datei
    grep "<loc>http://linux.die.net/man" -> alle Zeilen ausgeben, die "<loc>http://linux.die.net/man" enthalten
    sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' -> die XML-Tags ("<loc>") entfernen
    > wgetdata.txt -> das Ergebnis in die Datei "wgetdata.txt" scheiben
Nun sollte die Datei "wgetdata.txt" nur noch eine Liste mit URLs enthalten.

Diese Liste kann man dann im 2ten Schritt an wget übergeben:

Code: Alles auswählen

wget -xi wgetdata.txt
Wurde die Datei "wgetdata.txt" bei dir angelegt?
War sie leer?

Gruss
qgirl

Antworten