CPU defekt?

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
Benutzeravatar
HeikoSch
Beiträge: 6
Registriert: 09.05.2007 13:33:24

CPU defekt?

Beitrag von HeikoSch » 24.07.2007 09:12:35

Hallo Miteinander,

vor einiger Zeit habe ich ein Update von Debian Sarge auf Debian Edge vorgenommen. Bis zu diesem Zeitpunkt lief der entsprechende Server (HP ML350, 1 x Intel(R) Xeon CPU 3.20GHz , 2 GB RAM) problemlos durch.

Letzte Nacht passierte nun folgendes:

Code: Alles auswählen

Jul 24 03:25:18 localhost kernel: BUG: soft lockup detected on CPU#1! 
Jul 24 03:25:18 localhost kernel:
Jul 24 03:25:18 localhost kernel: Call Trace:
Jul 24 03:25:18 localhost kernel:  <IRQ> [<ffffffff802a3fec>] softlockup_tick+0xdb/0xed 
Jul 24 03:25:18 localhost kernel:  [<ffffffff802881df>] update_process_times+0x42/0x68 
Jul 24 03:25:18 localhost kernel:  [<ffffffff8026cbd8>] smp_local_timer_interrupt+0x23/0x47 
Jul 24 03:25:18 localhost kernel:  [<ffffffff8026d2cc>] smp_apic_timer_interrupt+0x41/0x47  
Jul 24 03:25:18 localhost kernel:  [<ffffffff8025904a>] apic_timer_interrupt+0x66/0x6c           
Jul 24 03:25:18 localhost kernel:  <EOI> [<ffffffff88215f26>] :xfs:xfs_bmapi+0x162e/0x1ced 
Jul 24 03:25:18 localhost kernel:  [<ffffffff882161cd>] :xfs:xfs_bmapi+0x18d5/0x1ced           
Jul 24 03:25:18 localhost kernel:  [<ffffffff8025cc4e>] thread_return+0x0/0xe7
Jul 24 03:25:18 localhost kernel:  [<ffffffff8023bae4>] lock_timer_base+0x1b/0x3c 
Jul 24 03:25:18 localhost kernel:  [<ffffffff80246f96>] try_to_del_timer_sync+0x51/0x5a 
Jul 24 03:25:18 localhost kernel:  [<ffffffff80239816>] remove_wait_queue+0x12/0x45   
Jul 24 03:25:18 localhost kernel:  [<ffffffff882533c9>] :xfs:xfs_zero_eof+0x180/0x22e   
Jul 24 03:25:18 localhost kernel:  [<ffffffff8021c6fe>] __pollwait+0x0/0xe0
Jul 24 03:25:18 localhost kernel:  [<ffffffff8025e822>] _spin_lock_bh+0x9/0x14 
Jul 24 03:25:18 localhost kernel:  [<ffffffff8020d5b1>] current_fs_time+0x3b/0x40 
Jul 24 03:25:18 localhost kernel:  [<ffffffff88254093>] :xfs:xfs_write+0x4af/0x95c
Jul 24 03:25:18 localhost kernel:  [<ffffffff8038be0e>] sock_aio_read+0x4f/0x5e
Jul 24 03:25:18 localhost kernel:  [<ffffffff802200e5>] __up_read+0x13/0x8a       
Jul 24 03:25:18 localhost kernel:  [<ffffffff882507ee>] :xfs:xfs_file_aio_write+0x69/0x6e 
Jul 24 03:25:18 localhost kernel:  [<ffffffff80215ebc>] do_sync_write+0xc7/0x104          
Jul 24 03:25:18 localhost kernel:  [<ffffffff80290381>] autoremove_wake_function+0x0/0x2e 
Jul 24 03:25:18 localhost kernel:  [<ffffffff802cf7da>] compat_core_sys_select+0x1bf/0x1d0 
Jul 24 03:25:18 localhost kernel:  [<ffffffff80214966>] vfs_write+0xce/0x174
Jul 24 03:25:18 localhost kernel:  [<ffffffff80240015>] sys_pwrite64+0x50/0x70
Jul 24 03:25:18 localhost kernel:  [<ffffffff8025b407>] sysenter_do_call+0x1b/0x67 
Jul 24 03:25:18 localhost kernel:
Interessant ist, dass der Server an sich noch lief und auch auf einen ping reagierte. Auch wurden laut syslog nach 03:25 Uhr noch einige Cron-Jobs gestartet, die aber anscheinend nicht wirklich ausgeführt wurden (zu mindestens haben die keinerlei Aktivität in ihren eigenen Logfiles vermerkt). Ein Connect per ssh o.ä. funktionierte dagegen nicht mehr. Auch waren Dienste wie samba und bind tot.

Nachdem der Server neu rebootet wurde, lief wieder alles wunderbar. Ich habe seitdem diverse Lasttests gefahren, bei dem so ziemlich alle Elemente des Systems extrem belastet wurden. Leider (!?) konnte ich keinerlei Probleme feststellen.

Für mich stellt sich nun die Frage: Softwarebug oder Hardwaredefekt? Und was viel wichtiger ist: lässt sich solch ein Ausfall vermeiden?

Ich wäre für jede Idee / jeden Denkansatz dankbar.

Heiko

Benutzeravatar
uljanow
Beiträge: 529
Registriert: 20.09.2005 21:14:00

Re: CPU defekt?

Beitrag von uljanow » 24.07.2007 11:29:04

HeikoSch hat geschrieben:Für mich stellt sich nun die Frage: Softwarebug oder Hardwaredefekt? Und was viel wichtiger ist: lässt sich solch ein Ausfall vermeiden[
Sieht aus wie ein Kernel oops, also softwareseitig. Ob sich sowas vermeiden lässt? Mit einem entsprechenden bugreport, vielleicht... :wink:

comes
Beiträge: 2702
Registriert: 11.03.2005 07:33:30
Wohnort: /dev/null
Kontaktdaten:

Beitrag von comes » 24.07.2007 11:31:50

welchen kernel? ich nehm mal an den 2.6.18er... der hat wohl nen bug in der mehrprozessor geschichte. ist im 2.6.20er gefixt wurden. das problem hatte ich auf meinem desktop auch. nur bissl blöd, wenn die debian heinis den nicht fixen
grüße, comes

Faschismus ist keine Meinung, sondern ein Verbrechen!
http://sourcewars.de

Benutzeravatar
HeikoSch
Beiträge: 6
Registriert: 09.05.2007 13:33:24

Beitrag von HeikoSch » 24.07.2007 13:31:25

Erst einmal danke für die schnellen Antworten.
comes hat geschrieben: welchen kernel? ich nehm mal an den 2.6.18er... der hat wohl nen bug in der mehrprozessor geschichte. ist im 2.6.20er
gefixt wurden. das problem hatte ich auf meinem desktop auch. nur bissl blöd, wenn die debian heinis den nicht fixen

Code: Alles auswählen

Linux version 2.6.18-4-amd64 (Debian 2.6.18.dfsg.1-12)
Das mit dem Hardware-Defekt hätte mich schon gewundert, aber möglich wäre es schon.

Für mich ist nun wichtig: wie kann ich das Problem zukünftig vermeiden? Eigenen Kernel bauen?

Natürlich würde ich auch einen Bugreport liefern. Nur dazu müsste ich das Problem eingrenzen können. Aber selbst nach mehreren Stunden Extrem-Testing ;-) hat das System nicht einmal gezuckt. Oder hat jemand eine Idee, wie ich hier am besten testen sollte?

Heiko

ahakim
Beiträge: 141
Registriert: 01.05.2007 21:14:08
Kontaktdaten:

Beitrag von ahakim » 24.07.2007 18:29:41

Gibt eine offizielle Empfehlung auf Kernel 2.6.20 und höher abzudaten. In Debian wurde der Kernel gefixt, aber besser ist es ein Kernel update zu machen. Für einen Server lohnt sich immer den Kernel selber zu bauen. Ich schmeiß alles raus was ich nicht unbedingt brauch, auch wenn es Module sind.Was nicht auf dem Computer ist, kann kein ärger machen Was braucht man z.B: Joystick auf einem Server. Wichtig ist das die Kiste sicher ist und ein bißchen mehr Performance - einkleinerer Kernel ist immer nützlich.

Antworten