Hilfe: Linux bleibt hängen

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Hilfe: Linux bleibt hängen

Beitrag von the_isz » 17.11.2003 17:04:04

Hallo zusammen,

Zuerst mal: Ich bin noch ein ziemlicher Linux Noob, also bitte nachfragen, wenn ich irgendwelche wichtigen Angaben vergessen sollte.

Mein system:

AMD Barton 2500+
Asus A7N8X Deluxe
GeForce4 Ti-4200

Debian/ GNU Linux (installiert von der Knoppix 3.3 CD)
mit Kernel Version 2.4.22-xfs und
XFree Version 4.3.0 und
graphischer Oberfläche KDE

Zum Problem:

Ich arbeite ganz normal unter Linux oder mache einfach gar nichts (PC läuft z.B. auch, wenn ich an der Uni bin, da er als SSH Server fungiert, falls ich was zu Hause vergesse) und plötzlich friert das gesamte System ein.
Nichts geht mehr: Die Maus bewegt sich nicht mehr, Tastatureingaben werden völlig ignoriert und ein Ping über das Netzwerk ist ergebnislos (SSH geht selbstverständlich auch nicht). Auf dem Bildschirm ändert sich - sofern er denn zum Zeitpunkt des Einfrierens an ist (-> APM) - nichts.

Ich habe sämtliche mir bekannten Systemlogs (in /var/log) durchgelesen aber teilweise ist minutenlang vor dem Einfrieren kein Eintrag mehr vorhanden. Ich finde keinen Eintrag, der auch nur annähernd auf einen Fehler hinweisen würde.

Meine Frage:

Hat irgend jemand eine Ahnung wo ich anfangen könnte nach dem Fehler zu suchen, bzw. ist das sonst schon jemandem passiert? Sowas kann doch nicht normal sein unter Linux, oder doch?

Ich hoffe auf Eure Hilfe,

Timo[/b][/u]

Benutzeravatar
startx
Beiträge: 3165
Registriert: 07.12.2002 19:29:48
Wohnort: london

Beitrag von startx » 17.11.2003 17:17:24

vielleicht solltest du mal mit "memtest" den speicher testen.
auch möglich das apm der übeltäter ist.
sind nur vermutungen ...

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 17.11.2003 21:10:48

Danke ertsmal für den schnellen Tip.

Dass es am APM liegt glaube ich nicht, da das Einfrieren erst seit kurzem auftritt und an den Einstellungen des APM habe ich nichts geändert.

memtest habe ich mal laufen lassen: Soweit ich das sehe, werden alle Tests bestanden. Was mich allerdings irritiert, ist folgende Ausgabe:

Testing 267382784 bytes at 0x40152000 (4088 bytes lost to page alignment).

Wenn ich mich nicht ganz täusche, sind das doch ungefähr 255 MB, oder nicht? Ich habe aber 512 MB... Kann das mit meinem Board zusammenhängen (NForce2, 2*256 MB Dual Channel RAM)?

Viele Grüße,

Timo

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 17.11.2003 22:06:40

Kerneloptionen "acpi=off noapic nolapic" verwenden. Ist ein buggy BIOS, das aber den "Es läuft unter Windows Test" bestanden hat.

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 18.11.2003 00:00:55

pdreker hat geschrieben:Kerneloptionen "acpi=off noapic nolapic" verwenden. Ist ein buggy BIOS, das aber den "Es läuft unter Windows Test" bestanden hat.

Patrick
OK, das werde ich wohl mal ausprobieren. Die Kerneloptionen werden doch in der /etc/lilo.conf eingetragen? Naja, ich werd's wohl herausfinden...

Ich sag Euch dann Bescheid.

Timo

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 18.11.2003 00:25:27

OK, hab die entsprechenden Änderungen in der lilo.conf vorgenommen. Die Ausgabe ist nun

Code: Alles auswählen

Nov 18 00:12:48 Discworld kernel: Kernel command line: BOOT_IMAGE=Linux ro root=303 acpi=off noapic nolapic hda=scsi hdb=scsi hdc=scsi hdd=scsi hde=scsi hdf
=scsi hdg=scsi hdh=scsi apm=power-off nomce
und scheint auch so kommentarlos akzeptiert zu werden. Allerdings erscheinen etwas später die folgenden Ausgaben:

Code: Alles auswählen

Nov 18 00:12:48 Discworld kernel: Found and enabled local APIC!
...
Nov 18 00:12:48 Discworld kernel: Using local APIC timer interrupts.
Nov 18 00:12:48 Discworld kernel: calibrating APIC timer ...
Nov 18 00:12:48 Discworld kernel: ..... CPU clock speed is 1837.5408 MHz.
Nov 18 00:12:48 Discworld kernel: ..... host bus clock speed is 334.0982 MHz.
Hat das was zu bedeuten? Weil "nolapic" steht ja doch wahrscheinlich für "no local apic", oder sehe ich das falsch? Was bedeutet eigentlich"apic"?

Ach so und wo ich grad schon so schön aus dem kernel log zitiere: Die folgende Ausgabe bekomme ich in total unregelmäßigen Abständen nicht nur im kernel log zu sehen, sondern auch mal in einer Konsole:

Code: Alles auswählen

spurious 8259A interrupt: IRQ7.
Ist das was Schlimmes?

Danke schon mal wieder an alle die mir so schnell helfen! Die Linux Community ist halt doch die beste.

Timo

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 18.11.2003 05:52:05

Die spurious interrupt warning ist harmlos (such 'mal hier im Forum, da habe ich das irgendwo schonmal ausführlich erklärt.

Ich habe im Prinzip genau Deine Hardware, und hatte auch exakt das Problem... Ich habe es dadurch gefixed, dass ich halt die Kommandozeilenoption wie oben angegeben habe, den Kernel komplett ohne irgendwelchen APIC Code übersetzt habe und im BIOS den APIC Mode auf "disabled" gestellt habe. Theoretisch sollte die Kommandozeilenoption reichen, aber scheinbar ist das nicht der Fall. IIRC war der Kernelrecompile der entscheidende Trick (unter General Options das ganze APIC Geraffel deaktivieren).

Die APIC ist der Advanced Programmable Interrupt Controller. Damit hat man dann z.B. knapp 30 Interrupts statt deren 15 zur Verfügung, und das IRQ Routing funktioniert anders. Ich habe hier allerdings keine negativen Erfahrungen ohne gemacht (im Gegenteil, jetzt läuft die Kiste stabil... Ich war schon kurz davor das Board wieder zu verticken...). Normalerweise ist die APIC nur bei SMP Konfigs erforderlich, damit die beiden CPUs sich die Interrupts teilen können...

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 18.11.2003 08:01:37

Ich habe das APIC im BIOS abgestellt. Leider bleiben die Messages über den aktivierten local APIC bestehen.
Ergo werde ich mir wohl sobald ich Zeit habe (wahrscheinlich am WE) einen neuen Kernel backen müssen. Ich hab jetzt schon kein Bock auf das neu comiplieren meiner Grafiktreiber (*nerv*).

Erstmal vielen Dank für die schnelle Hilfe. Ich berichte dann, sobald ich mir nen neuen Kernel gebacken habe.

Gruß,

Timo

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 18.11.2003 16:58:37

Noch eine Anmerkung (falls das was bedeutet):

Linux ist schon wieder hängen geblieben. Schon wenige Minuten nachdem ich ihn hochgefahren hatte...

Was ich aber anmerken wollte: Wenn mein Monitor durch APM ausgeschaltet worden ist und ich meine Maus bewege, wird er wieder angeschaltet obwohl sich Linux ansonsten kein Stück mehr muckst.

Vielleicht hilft das ja bei der Problemanalyse...

Timo

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 18.11.2003 19:10:41

Das Problem muss nicht analysiert werde, es ist bereits bekannt. Die Kiste ist hinterher einfach tot und nur der Reset Button hilft.

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

McH
Beiträge: 18
Registriert: 29.04.2002 23:03:02
Wohnort: Irschndwo in Sachsen

hatte ich auch das problem

Beitrag von McH » 19.11.2003 13:58:17

nach nem halben jahr rumdoktoren habe ich herausgefunden das an der refreshzeit des speicherinhalts im ram liegt.
im bios musste mal nach der cas leatency (oder so) suchen und das mal etwas runter stellen - villeicht von 2 auf 2.5
villeicht hilft das
mch

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Re: hatte ich auch das problem

Beitrag von the_isz » 19.11.2003 18:43:11

McH hat geschrieben:nach nem halben jahr rumdoktoren habe ich herausgefunden das an der refreshzeit des speicherinhalts im ram liegt.
im bios musste mal nach der cas leatency (oder so) suchen und das mal etwas runter stellen - villeicht von 2 auf 2.5
villeicht hilft das
mch
Werd ich auf jeden Fall mal probieren, besonders, da mein frisch gebackener Kernel (ohne ACPI compiliert - ich hoffe das entspricht dem APIC im Bios?) trotzdem beim Hochfahren dieselben Ausgaben wie oben ausspuckt!

Damit habe ich jetzt APIC als Kernel Option, im BIOS und im Kernel Setup eines neuen Kernel deaktiviert und mein blöder Kernel findet das immer noch!

@pdreker
Hab ich irgend etwas falsch gemacht? Oder glaubst Du vielleicht auch, dass es an den refresh Zeiten vom Speicher liegen könnte?

Ich teste das auf jeden Fall jetzt mal und sag dann Bescheid.

Grüße,

Timo

Benutzeravatar
spiffi
Beiträge: 1128
Registriert: 09.08.2003 19:02:27

Beitrag von spiffi » 19.11.2003 18:52:45

Ääähm, APIC ungleich ACPI.
ACPI -> Advanced Configuration and Power Interface
APIC -> Advanced Programmable Interrupt Controller
Zu beiden gibt es Build-Optionen in der Kernel-Konfiguration, aber die beiden haben trotz des ähnlich klingenden Namens nichts miteinander zu tun.

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 19.11.2003 21:50:03

und die müssen *beide* deaktiviert werden, damit das Board läuft. Dieses Problem hat nichts mit dem RAM zu tun, das ist nur zufällig das gleiche System.

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 19.11.2003 22:33:30

OK, dann geh' ich wohl mal wieder backen... *dum di dumm*...

Danke nochmal für die Hilfe!

Timo

Benutzeravatar
the_isz
Beiträge: 101
Registriert: 17.11.2003 16:50:27

Beitrag von the_isz » 20.11.2003 21:17:54

So, ich bin fertig mit dem Backen. Duftet das nicht lecker?

Ich hab's so weit hinbekommen (beim 2. Anlauf... der erste ist leider nichts geworden) und beim Hochstarten wird auch kein "local APIC" mehr angezigt.

Die Testphase beginnt...

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 21.11.2003 04:14:10

Ich konnte meine Kiste damals immer sehr zuverlässig zum Absturz bringen, indem ich schnell Daten durch die Netzwerkkarte gepumpt habe. Daten über das 100MBit/s LAN zu meinem kleinen Server mit voller Bandbreite, und der Rechner stürzte innerhalb von 3 oder 4 Minuten ab...

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

Benutzeravatar
Natas12
Beiträge: 1751
Registriert: 12.04.2002 20:59:12

Beitrag von Natas12 » 21.11.2003 09:22:04

ein tipp am rande: mir ist es ebenfalls mal passiert, dass der rechner einfach eingefroren ist und NICHTS mehr ging - gar nichts mehr. ich wäre fast verzweifelt. nach langer fehlersuche stellte sich heraus, dass mein brenner defekt war. als ich das flachband- und stromkabel vom laufwerk trennte funktionierte alles wie vorher... kurios, das... (brenner war übrigens dahin).
"In den reichen Ländern hat die Freiheit gesiegt - mit all den schrecklichen Folgen, die das für die anderen mit sich bringt und noch bringen wird. Die Demokratie ist auf andere Epochen verschoben." (L. Canfora)

Benutzeravatar
pdreker
Beiträge: 8298
Registriert: 29.07.2002 21:53:30
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Nürnberg

Beitrag von pdreker » 21.11.2003 13:24:52

@Natas12: Hier geht es um ein bekanntes Problem, mit Boards mit NForce2 Chipsätzen, das auch mittlerweile recht gut analysiert ist (ist halt im Endeffekt ein BIOS Bug)...

Patrick
Definitely not a bot...
Jabber: pdreker@debianforum.de

Benutzeravatar
Natas12
Beiträge: 1751
Registriert: 12.04.2002 20:59:12

Beitrag von Natas12 » 21.11.2003 17:53:18

nope, nix nforce! war ein gewöhnliches via-ktXYZ board. hat sowohl windows als auch linux zum stoppen gebracht...

edit: au! jetzt hab ich's kapiert... sorry, hab mein abi auf der baumschule gemacht... :oops:
"In den reichen Ländern hat die Freiheit gesiegt - mit all den schrecklichen Folgen, die das für die anderen mit sich bringt und noch bringen wird. Die Demokratie ist auf andere Epochen verschoben." (L. Canfora)

Benutzeravatar
Picknicker
Beiträge: 654
Registriert: 25.04.2003 16:28:02
Wohnort: Saarland

Beitrag von Picknicker » 25.11.2003 09:55:58

the_isz hat geschrieben:

Code: Alles auswählen

Nov 18 00:12:48 Discworld kernel: Found and enabled local APIC!
...
Nov 18 00:12:48 Discworld kernel: Using local APIC timer interrupts.
Nov 18 00:12:48 Discworld kernel: calibrating APIC timer ...
Nov 18 00:12:48 Discworld kernel: ..... CPU clock speed is 1837.5408 MHz.
Nov 18 00:12:48 Discworld kernel: ..... host bus clock speed is 334.0982 MHz.
Moin ,, ich habe das selbe leid :) selbes Board nur der Proz ist eine Nummer stärker.

Wenn ich die nolapic dem Kernel beim booten übergebe bootet er genau zu der Stelle und meint dann die "host bus clock speed" sei 0.00 MHZ und ende ist mit booten ..

Bin gerade dabei einen neuen Kernel zu backen .. hab da aber auch wieder emense Probs :oops:

Ich bekomme einen grünen Bildschirm nachdem der Kernel 10-15 Zeilen auf den Bildschirm gezaubert hat.. kennt einer dieses Prob ?

NACHTRAG:
Problem lokalisiert, ist der Framebuffer support .. der weigert sich noch
cu
Picknicker

Antworten