Ich bin mir nicht sicher, ob das ganze hier ins Kernefragen oder doch lieber ins Hardware-Probleme-Board kommt. Also im Zweifelsfall verschieben.
Das ist mein Problem:
HARDWARE ERROR
CPU 1: Machine Check Exception: 4 Bank 1: b600000000000181
TSC 8e43566165a ADDR 52e1c0
This is not a software problem!
Run through mcelog --ascii to decode and contact your hardware vendor
Kernel panic - not syncing: Machine check
mcelog --ascii:
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 1 1 instruction cache TSC 8e43566165a
bit57 = processor context corrupt
bit61 = error uncorrected
memory/cache error 'snoop mem transaction, instruction transaction, level 1'
STATUS b600000000000181 MCGSTATUS 4
Ich benutze Debian 4.0 Etch für AMD64 mit dem Kernel:
linux-image-2.6.18-4-amd64
Der oben beschriebene Fehler tritt willkürlich auf. Ich hatte ihn sogar schonmal mitten im Booten, aber für gewöhnlich tritt er nach 5 Minuten bis 16 Stunden auf. Ob das System dabei unter Last (z.B. mit cpuburn) oder am Idlen ist, ist dabei egal.
Ich habe bereits das System soweit es mir möglich war gecheckt und kann zu 99% sagen, dass dieser vermeindliche Hardwarefehler keiner ist. Habe den RAM diverse Male mit memtest geprüft, über Knoppix gebootet und über 24 Stunden Primzahlen berechnen lassen und auch andere Live CDs ausprobiert. Vorallem auch Ubuntu 64-bit, da der Fehler ja anscheinend nur bei 64-bit auftritt (bit 57 und 61 sind es immer). Unter Ubuntu 64-bit habe ich das System 3 Tage lang laufen lassen ohne Probleme. Der dort mitgelieferte Kernel war:
2.6.24-16-generic
Ich habe daraufhin einen neuen Kernel kompiliert, in der Hoffnung, dass damit mein Problem behoben ist, aber leider begrüßte mich auch mein neuer Kernel:
linux-2.6.25.4
mit derselben Fehlermeldung nach ca. einer Stunde... Ich habe nun leider gar keine Ideen mehr.
Zunächst: Bitte keine Kommentare wie "Nutze doch 32-Bit Distributionen" oder ähnliches. Ich würde das Problem gerne lösen und nicht umgehen.
Da der Fehler ausschließlich bei Debian auftritt, gehe ich wie gesagt nicht von einem Hardwarefehler aus.
Das System ist auf einem Software-Raid (mdadm) installiert:
md0 = RAID1: sda1 sdb1 mit je 100 MB auf /boot gemounted (sdc1, sdd1 als spares)
md1 = RAID5: sda2 sdb2 sdc2 sdc4 ist der Rest als LVM und enthält Partiotionen für swap, tmp, var, root und smdata
Ich benutze LILO als Bootloader, weil Grub bei mir Probleme mit dem Raid hatte, aber da sollte das Problem ja nicht liegen.
Die Hardware ist wie folgt:
1 x AMD Athlon64 X2 5200+ EE
1 x Asrock ALiveNF6G-DVI
1 x DDR2 Kit 2x1024 MB OCZ PC2-6400 Platinum XTC Rev 2.0
4 x Samsung HD501LJ 500 GB
1 x Samsung DVD-Rom (da hab ich das genaue Modell grad nicht gefunden)
Ich steh kurz davor den Kernel ohne Machince Check zu kompilieren, aber das kann auch keine dauerhafte Lösung sein, da ich dann in Zukunft ggf. nicht rekonstruierbare Fehler in der darauf laufenden Software haben werde.
Ich hoffe jemand von euch hat dazu eine Idee. Bin ratlos
![traurig :(](./images/smilies/icon_sad.gif)