website laden

latenite · Beitrag von **latenite** » 28.01.2008 15:09:14

Hallo Leute,

ich habe da eine Seite mit nützlichen man-pages entdeckt und wollte die mal lokal speichern.

http://linux.die.net/man/

leider hatte ich weder mit "httrack" noch mit "wget" glück.

wget liefert diese ausgabe:

Code: Alles auswählen

wget -r http://linux.die.net/man/
--15:05:40--  http://linux.die.net/man/
           => `linux.die.net/man/index.html'
Auflösen des Hostnamen »linux.die.net«.... 209.151.236.22
Verbindungsaufbau zu linux.die.net|209.151.236.22|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: nicht spezifiziert [text/html]

    [ <=>                                 ] 4.208         --.--K/s             

15:05:40 (719.63 KB/s) - »linux.die.net/man/index.html« gespeichert [4208]

Lade »robots.txt«; bitte Fehler ignorieren.
--15:05:40--  http://linux.die.net/robots.txt
           => `linux.die.net/robots.txt'
Verbindungsaufbau zu linux.die.net|209.151.236.22|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 637 [text/plain]

100%[====================================>] 637           --.--K/s             

15:05:41 (977.46 KB/s) - »linux.die.net/robots.txt« gespeichert [637/637]


BEENDET --15:05:41--
Geholt: 4.845 Bytes in 2 Dateien

was kann man da machen wenn man die seite lokal haben will (ich will das auf dem weg zu uni im Zug lesen)

LeoLinux · Beitrag von **LeoLinux** » 28.01.2008 15:13:06

http://www.erweiterungen.de/detail/SpiderZilla/

Grüße,

Leander

Duff · Beitrag von **Duff** » 28.01.2008 16:07:55

LeoLinux hat geschrieben:http://www.erweiterungen.de/detail/SpiderZilla/

Grüße,

Leander

Eine interessante Erweiterung.
Und dass ganze funktioniert?

LeoLinux · Beitrag von **LeoLinux** » 28.01.2008 16:10:25

Für mich hats perfekt funktioniert ....man braucht etwas bis man das Ding so konfiguriert hat wie man das gerne hätte, aber einmal durchschaut, tuts das perfekt für solche Dinge.

MFG

latenite · Beitrag von **latenite** » 28.01.2008 19:19:14

das plugin gibts leider nur fuer firefox 1.5 ich hab aber 2.0
ausserdem nutzt das doch auch httrack...und ich bezweifle das das dann geht wenn aus der kommandozeile nicht geht.

Uberhaupt...hat jemand ne gute idee wie man diese .pho Seiten rekusiv laden kann? das httrack und wegt geht ja scheinbar nur bei .html?!!

devilx · Beitrag von **devilx** » 28.01.2008 19:26:18

Hm, warum solltest du unnoetig Traffic im Internet produzieren wollen, wenn du diese Manualpages auch auf deinem Debian System per apt-get install <paketname>-doc haben kannst? Oder habe ich irgendwelche Sonder-Pages auf der Seite uebersehen, welche es nicht im APT-Repository gibt, fuer Software die du warscheinlich keine zwei mal im Leben brauchen wirst?

latenite · Beitrag von **latenite** » 28.01.2008 19:30:13

die manpages dort sind detailiert und ausser dem geht es mir um das verfahren...es gibt ja noch mher seiten die man spiegel will...bei denn es aber nicht geht.

wie kann ich denn das plugin unter firefox 2.0 installiern?

LeoLinux · Beitrag von **LeoLinux** » 28.01.2008 19:32:33

;-) das geht !!!
;-) ich nutze es ebenfalls mit Firefox 2.0.

https://addons.mozilla.org/de/firefox/addon/1616

P.S. ich ... bestimmt schon tausendmal gehört ... , aber gibst du deine Anliegen auch ma in Google ein bevor du postest??

http://www.cul.de/data/freex52005pr.pdf
^^ solltest du des Lesens mächtig sein ist das hier noch ne schöne Anleitung für wget. SpiderZilla ist aber cooler ... kann man feiner tunen.

MFG, Leander

duese · Beitrag von **duese** » 28.01.2008 20:06:13

latenite hat geschrieben:das plugin gibts leider nur fuer firefox 1.5 ich hab aber 2.0

Bei manchen Erweiterungen kann man die Kompatibilitätsprüfung aushebeln. Man braucht dazu die Erweiterung "MR Tech Local Install" [1].

Gruß,
Thomas

[1]: https://addons.mozilla.org/de/firefox/addon/421

LeoLinux · Beitrag von **LeoLinux** » 28.01.2008 23:23:35

Hats hingehauen, oder sitzt du noch immer im Dunkeln?

MFG,

Leander

latenite · Beitrag von **latenite** » 29.01.2008 20:05:58

ok frag mich nicht wie ich das gemacht habe.aber es lauft...und funktioniert bestens.

also danke an den tip mit dem plugin.

nun aber noch eine frage: Wenn das plugin httrack nutzt, warum kann ich dann mit httrack in der konsole nichts downloaden...mit dem plugin aber schon? Welche "abgefahrenen" Parameter werden denn da an httrack uebergeben??
weis das jenmand?

latenite · Beitrag von **latenite** » 30.01.2008 00:19:33

ging doch nicht!!! aarg!

Bitte verscuht doch mal oben genannte site du laden! wenn ihr das mit spiderzilla hinbekommt dann sagt mal bitte wie...bei mir ist ab dem alphabetardner alles leer.

LeoLinux · Beitrag von **LeoLinux** » 30.01.2008 20:40:37

ist lange her, das ich das mit SpiderZilla gemacht habe, aber ich musste auch ne ganze Weile herumprobieren bis ich die einzelnen vielen, aber geilen und über aus nützlichen Funktionen verstanden habe.

schau doch einfach mal auf die Homepage des Pugins, oder google mal nach passenden Einstellungen.

MfG,

Leander

qgirl · Beitrag von **qgirl** » 30.01.2008 21:07:34

Bzgl. der angegebenen Seite könntest du noch folgendes probieren:
http://linux.die.net/sitemap.xml.gz
downloaden und entpacken, dann

Code: Alles auswählen

cat sitemap.xml | grep "<loc>http://linux.die.net/man" | sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' > wgetdata.txt
wget -xi wgetdata.txt

Gruss
qgirl

latenite · Beitrag von **latenite** » 31.01.2008 14:28:21

Hallo qgirl,

Leider hat deine (fuer mich leider unverstaendliche) Zeile nichts gemacht. Vielleciht ist das zu viel, aber kannst du die einzelnen Sachen mal kurz erlaeutern?

Zur Zeit weis ich nur das:

1. das "|" piped
2 das > in ne datei schreibt
3. cat nen datei inhalt auswirft

leider fehlt der gesammte Rest an wissen um zu verstehen was da vor sich geht?! Koenntest du's bitte kurz erklaeren?

Danke und Gruss

latenite

qgirl · Beitrag von **qgirl** » 01.02.2008 16:35:29

Im ersten Schritt wird die URL-Liste generiert:

Code: Alles auswählen

cat sitemap.xml | grep "<loc>http://linux.die.net/man" | sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' > wgetdata.txt

cat sitemap.xml -> Ausgabe der Datei
grep "<loc>http://linux.die.net/man" -> alle Zeilen ausgeben, die "<loc>http://linux.die.net/man" enthalten
sed -e 's/.*<loc>//g' -e 's/<\/loc>//g' -> die XML-Tags ("<loc>") entfernen
> wgetdata.txt -> das Ergebnis in die Datei "wgetdata.txt" scheiben

Nun sollte die Datei "wgetdata.txt" nur noch eine Liste mit URLs enthalten.

Diese Liste kann man dann im 2ten Schritt an wget übergeben:

Code: Alles auswählen

wget -xi wgetdata.txt

Wurde die Datei "wgetdata.txt" bei dir angelegt?
War sie leer?

Gruss
qgirl

debianforum.de

website laden

website laden

SpiderZilla

Re: SpiderZilla