Kernel Panic, Machine Check Exception

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
Iramon
Beiträge: 4
Registriert: 27.05.2008 12:20:27

Kernel Panic, Machine Check Exception

Beitrag von Iramon » 27.05.2008 12:52:25

Hallo zusammen!

Ich bin mir nicht sicher, ob das ganze hier ins Kernefragen oder doch lieber ins Hardware-Probleme-Board kommt. Also im Zweifelsfall verschieben.

Das ist mein Problem:

HARDWARE ERROR
CPU 1: Machine Check Exception: 4 Bank 1: b600000000000181
TSC 8e43566165a ADDR 52e1c0
This is not a software problem!
Run through mcelog --ascii to decode and contact your hardware vendor
Kernel panic - not syncing: Machine check

mcelog --ascii:

HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 1 1 instruction cache TSC 8e43566165a
bit57 = processor context corrupt
bit61 = error uncorrected
memory/cache error 'snoop mem transaction, instruction transaction, level 1'
STATUS b600000000000181 MCGSTATUS 4

Ich benutze Debian 4.0 Etch für AMD64 mit dem Kernel:
linux-image-2.6.18-4-amd64

Der oben beschriebene Fehler tritt willkürlich auf. Ich hatte ihn sogar schonmal mitten im Booten, aber für gewöhnlich tritt er nach 5 Minuten bis 16 Stunden auf. Ob das System dabei unter Last (z.B. mit cpuburn) oder am Idlen ist, ist dabei egal.
Ich habe bereits das System soweit es mir möglich war gecheckt und kann zu 99% sagen, dass dieser vermeindliche Hardwarefehler keiner ist. Habe den RAM diverse Male mit memtest geprüft, über Knoppix gebootet und über 24 Stunden Primzahlen berechnen lassen und auch andere Live CDs ausprobiert. Vorallem auch Ubuntu 64-bit, da der Fehler ja anscheinend nur bei 64-bit auftritt (bit 57 und 61 sind es immer). Unter Ubuntu 64-bit habe ich das System 3 Tage lang laufen lassen ohne Probleme. Der dort mitgelieferte Kernel war:
2.6.24-16-generic

Ich habe daraufhin einen neuen Kernel kompiliert, in der Hoffnung, dass damit mein Problem behoben ist, aber leider begrüßte mich auch mein neuer Kernel:
linux-2.6.25.4
mit derselben Fehlermeldung nach ca. einer Stunde... Ich habe nun leider gar keine Ideen mehr.

Zunächst: Bitte keine Kommentare wie "Nutze doch 32-Bit Distributionen" oder ähnliches. Ich würde das Problem gerne lösen und nicht umgehen.

Da der Fehler ausschließlich bei Debian auftritt, gehe ich wie gesagt nicht von einem Hardwarefehler aus.

Das System ist auf einem Software-Raid (mdadm) installiert:
md0 = RAID1: sda1 sdb1 mit je 100 MB auf /boot gemounted (sdc1, sdd1 als spares)
md1 = RAID5: sda2 sdb2 sdc2 sdc4 ist der Rest als LVM und enthält Partiotionen für swap, tmp, var, root und smdata

Ich benutze LILO als Bootloader, weil Grub bei mir Probleme mit dem Raid hatte, aber da sollte das Problem ja nicht liegen.

Die Hardware ist wie folgt:
1 x AMD Athlon64 X2 5200+ EE
1 x Asrock ALiveNF6G-DVI
1 x DDR2 Kit 2x1024 MB OCZ PC2-6400 Platinum XTC Rev 2.0
4 x Samsung HD501LJ 500 GB
1 x Samsung DVD-Rom (da hab ich das genaue Modell grad nicht gefunden)

Ich steh kurz davor den Kernel ohne Machince Check zu kompilieren, aber das kann auch keine dauerhafte Lösung sein, da ich dann in Zukunft ggf. nicht rekonstruierbare Fehler in der darauf laufenden Software haben werde.

Ich hoffe jemand von euch hat dazu eine Idee. Bin ratlos :(

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Kernel Panic, Machine Check Exception

Beitrag von rendegast » 27.05.2008 18:42:50

Was mit auffällt, es gibt eine ganze Reihe BIOS-Versionen:
1.40 1.60 1.70 1.80 1.90 2.00 2.10 2.20
(obwohl keiner der Einträge was mit diesem Problem zu tun haben scheint)
http://www.asrock.com/mb/download.asp?M ... -DVI&s=AM2
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Iramon
Beiträge: 4
Registriert: 27.05.2008 12:20:27

Re: Kernel Panic, Machine Check Exception

Beitrag von Iramon » 27.05.2008 21:02:46

Das BIOS war noch 1.40, ich habe jetzt schnell ein Update auf 2.20 gemacht. Wenn es geholfen haben sollte, werde ich euch das mitteilen, aber ich tippe mal auf nein. Solange bin ich für weitere Kommentare und Ideen dankbar :)

Iramon
Beiträge: 4
Registriert: 27.05.2008 12:20:27

Re: Kernel Panic, Machine Check Exception

Beitrag von Iramon » 27.05.2008 21:40:48

Also ich hab jetzt gleich ein neues Verhalten seit dem BIOS Update:

1. Das LAN wird mit dem alten Kernel (der standardmäßig bei der Distribution dabei war) nicht mehr gefunden. Die Fehlermeldungen kann ich leider so schnell nicht lesen und dmesg erzählt da leider nicht viel zu :/ Mit meinem neuen Kernel hingegen funktioniert es jetzt, da hatte ich vorher Probleme...

2. Der neue Kernel stürzt jetzt sehr schnell mit der angegeben MCE ab, meist schon beim Booten...

Daher kann ich nun noch nicht mal mehr auf dem System weiter entwickeln. Hoffe ihr habt noch mehr Ideen. Wenn jemand mir Schritt für Schritt helfen will per ICQ, MSN, IRC oder wie auch immer, einfach eine Forumsmessage. Wäre sehr dankbar :)

Iramon
Beiträge: 4
Registriert: 27.05.2008 12:20:27

Re: Kernel Panic, Machine Check Exception

Beitrag von Iramon » 27.05.2008 22:29:47

Ich musste nach dem Neustart alle BIOS-Einstellungen neu machen und habe nun einfach mal AM2 Boost ausgeschaltet, was den Rechner ein bisschen schneller machen soll (übertakten, wie ich grad nachgelesen habe) und zumindest bootet der Kernel nun wieder. Ich hoffe mal, dass das das Problem mit dem neuen Kernel zusammen beheben kann. Morgen / Übermorgen weiß ich mehr :)

Was ich dann allerdings immernoch nicht verstehe ist, warum der Fehler lediglich bei Debian aufgetreten ist und bei keiner anderen Distribution...

Antworten