vor einiger Zeit habe ich ein Update von Debian Sarge auf Debian Edge vorgenommen. Bis zu diesem Zeitpunkt lief der entsprechende Server (HP ML350, 1 x Intel(R) Xeon CPU 3.20GHz , 2 GB RAM) problemlos durch.
Letzte Nacht passierte nun folgendes:
Code: Alles auswählen
Jul 24 03:25:18 localhost kernel: BUG: soft lockup detected on CPU#1!
Jul 24 03:25:18 localhost kernel:
Jul 24 03:25:18 localhost kernel: Call Trace:
Jul 24 03:25:18 localhost kernel: <IRQ> [<ffffffff802a3fec>] softlockup_tick+0xdb/0xed
Jul 24 03:25:18 localhost kernel: [<ffffffff802881df>] update_process_times+0x42/0x68
Jul 24 03:25:18 localhost kernel: [<ffffffff8026cbd8>] smp_local_timer_interrupt+0x23/0x47
Jul 24 03:25:18 localhost kernel: [<ffffffff8026d2cc>] smp_apic_timer_interrupt+0x41/0x47
Jul 24 03:25:18 localhost kernel: [<ffffffff8025904a>] apic_timer_interrupt+0x66/0x6c
Jul 24 03:25:18 localhost kernel: <EOI> [<ffffffff88215f26>] :xfs:xfs_bmapi+0x162e/0x1ced
Jul 24 03:25:18 localhost kernel: [<ffffffff882161cd>] :xfs:xfs_bmapi+0x18d5/0x1ced
Jul 24 03:25:18 localhost kernel: [<ffffffff8025cc4e>] thread_return+0x0/0xe7
Jul 24 03:25:18 localhost kernel: [<ffffffff8023bae4>] lock_timer_base+0x1b/0x3c
Jul 24 03:25:18 localhost kernel: [<ffffffff80246f96>] try_to_del_timer_sync+0x51/0x5a
Jul 24 03:25:18 localhost kernel: [<ffffffff80239816>] remove_wait_queue+0x12/0x45
Jul 24 03:25:18 localhost kernel: [<ffffffff882533c9>] :xfs:xfs_zero_eof+0x180/0x22e
Jul 24 03:25:18 localhost kernel: [<ffffffff8021c6fe>] __pollwait+0x0/0xe0
Jul 24 03:25:18 localhost kernel: [<ffffffff8025e822>] _spin_lock_bh+0x9/0x14
Jul 24 03:25:18 localhost kernel: [<ffffffff8020d5b1>] current_fs_time+0x3b/0x40
Jul 24 03:25:18 localhost kernel: [<ffffffff88254093>] :xfs:xfs_write+0x4af/0x95c
Jul 24 03:25:18 localhost kernel: [<ffffffff8038be0e>] sock_aio_read+0x4f/0x5e
Jul 24 03:25:18 localhost kernel: [<ffffffff802200e5>] __up_read+0x13/0x8a
Jul 24 03:25:18 localhost kernel: [<ffffffff882507ee>] :xfs:xfs_file_aio_write+0x69/0x6e
Jul 24 03:25:18 localhost kernel: [<ffffffff80215ebc>] do_sync_write+0xc7/0x104
Jul 24 03:25:18 localhost kernel: [<ffffffff80290381>] autoremove_wake_function+0x0/0x2e
Jul 24 03:25:18 localhost kernel: [<ffffffff802cf7da>] compat_core_sys_select+0x1bf/0x1d0
Jul 24 03:25:18 localhost kernel: [<ffffffff80214966>] vfs_write+0xce/0x174
Jul 24 03:25:18 localhost kernel: [<ffffffff80240015>] sys_pwrite64+0x50/0x70
Jul 24 03:25:18 localhost kernel: [<ffffffff8025b407>] sysenter_do_call+0x1b/0x67
Jul 24 03:25:18 localhost kernel:
Nachdem der Server neu rebootet wurde, lief wieder alles wunderbar. Ich habe seitdem diverse Lasttests gefahren, bei dem so ziemlich alle Elemente des Systems extrem belastet wurden. Leider (!?) konnte ich keinerlei Probleme feststellen.
Für mich stellt sich nun die Frage: Softwarebug oder Hardwaredefekt? Und was viel wichtiger ist: lässt sich solch ein Ausfall vermeiden?
Ich wäre für jede Idee / jeden Denkansatz dankbar.
Heiko