Leider belästige ich euch hier jetzt über die Feiertage mit einem Problem das auf einem Debian 9.3 (4.9.0-4-amd64 Kernel) Server auftritt. Dieser friert immer wieder ein und muss durch einen Hardreset wiederbelebt werden. Die Fehlersuche gestaltet sich jedoch etwas schwierig, da ich mit den Logs nicht viel anfangen kann. Über KDump konnte ich drei Dumps von den Crashes sichern, die habe ich mir auch angesehen, kann daraus aber keine Probleme deuten, dazu fehlt mir dann doch etwas Know-How. Da die Dumps allesamt sehr ähnlich aussehen poste ich ersteinmal nur einen.
Als erstes den Stack-Trace vom Crash:
Code: Alles auswählen
PID: 32045 TASK: ffff9da2f6dd8080 CPU: 6 COMMAND: "java"
#0 [ffffbd3614013b70] machine_kexec at ffffffffa7c51ea8
#1 [ffffbd3614013bc8] __crash_kexec at ffffffffa7d03399
#2 [ffffbd3614013c88] crash_kexec at ffffffffa7d034b8
#3 [ffffbd3614013ca0] oops_end at ffffffffa7c28973
#4 [ffffbd3614013cc0] no_context at ffffffffa7c5f451
#5 [ffffbd3614013d20] page_fault at ffffffffa8207758
[exception RIP: select_task_rq_fair+547]
RIP: ffffffffa7ca9c93 RSP: ffffbd3614013dd0 RFLAGS: 00010006
RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000004018248
RDX: 0000000000000002 RSI: ffff9da31ea80000 RDI: ffff9da2fa5e2b18
RBP: ffff9da2fa5e2b18 R8: ffffffffffffffff R9: 0000000000000044
R10: 0000000000000008 R11: 0000000000000000 R12: ffff9da2f860b001
R13: 0000000000800000 R14: ffff9da2fa5e2b00 R15: 0000000000018240
ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
#6 [ffffbd3614013e68] wake_up_new_task at ffffffffa7ca2519
#7 [ffffbd3614013eb0] _do_fork at ffffffffa7c7622d
#8 [ffffbd3614013f40] do_syscall_64 at ffffffffa7c03b1c
RIP: 00007f7aa42475e8 RSP: 00007f7a85365e80 RFLAGS: 00000202
RAX: ffffffffffffffda RBX: 00007f7a9c5301e0 RCX: 00007f7aa42475e8
RDX: 00007f7aa416e5d8 RSI: ffffffffffffffff RDI: 00007f7aa2380331
RBP: 00007f7a85365ea0 R8: 0000000000000000 R9: 0000000000000020
R10: 00007f7a8d53fa4f R11: 0000000000000202 R12: 00007f7a18003960
R13: 00007f7a180049c0 R14: 00007f7a180039f0 R15: 00007f7a18000cb0
ORIG_RAX: 000000000000003a CS: 0033 SS: 002b
Code: Alles auswählen
[1599259.458842] BUG: unable to handle kernel paging request at ffff9da322a98248
[1599259.458869] IP: [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.458895] PGD 4dab2e067
[1599259.458900] PUD 4dab32067
[1599259.458917] PMD 0
[1599259.458918]
[1599259.458934] Oops: 0000 [#1] SMP
[1599259.458951] Modules linked in: ipt_REJECT nf_reject_ipv4 dm_mod cpuid xt_multiport iptable_filter cpufreq_powersave cpufreq_userspace cpufreq_conservative intel_rapl x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel shpchp evdev intel_cstate ppdev iTCO_wdt iTCO_vendor_support intel_uncore sg lpc_ich intel_rapl_perf mxm_wmi mfd_core serio_raw parport_pc parport battery tpm_infineon video button wmi ip_tables x_tables autofs4 ext4 crc16 jbd2 fscrypto ecb mbcache btrfs raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c crc32c_generic raid0 multipath linear raid1 md_mod sd_mod crc32c_intel aesni_intel aes_x86_64 glue_helper lrw gf128mul ablk_helper ahci cryptd libahci libata ehci_pci xhci_pci
[1599259.459265] xhci_hcd ehci_hcd i2c_i801 scsi_mod i2c_smbus r8169 mii usbcore usb_common fan thermal
[1599259.459308] CPU: 6 PID: 32045 Comm: java Not tainted 4.9.0-3-amd64 #1 Debian 4.9.30-2+deb9u5
[1599259.459345] Hardware name: MSI MS-7816/H87-G43 (MS-7816), BIOS V2.14B11 06/30/2014
[1599259.459380] task: ffff9da2f6dd8080 task.stack: ffffbd3614010000
[1599259.459401] RIP: 0010:[<ffffffffa7ca9c93>] [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.459440] RSP: 0018:ffffbd3614013dd0 EFLAGS: 00010006
[1599259.459461] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000004018248
[1599259.459495] RDX: 0000000000000002 RSI: ffff9da31ea80000 RDI: ffff9da2fa5e2b18
[1599259.459530] RBP: ffff9da2fa5e2b18 R08: ffffffffffffffff R09: 0000000000000044
[1599259.459564] R10: 0000000000000008 R11: 0000000000000000 R12: ffff9da2f860b001
[1599259.459599] R13: 0000000000800000 R14: ffff9da2fa5e2b00 R15: 0000000000018240
[1599259.459634] FS: 00007f7a85367700(0000) GS:ffff9da31eb80000(0000) knlGS:0000000000000000
[1599259.459670] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[1599259.459691] CR2: ffff9da322a98248 CR3: 00000002a1437000 CR4: 00000000001406e0
[1599259.459726] Stack:
[1599259.459741] ffff9da2fa5e3e00 ffff9da2f860b3e8 0000000004000008 ffff9da200000006
[1599259.459778] ffffffffffffffff 0000000000000000 0000000800000006 0000000000000000
[1599259.459815] 0000000000018240 ffff9da2f860b0c0 000000000000006c 0000000000018240
[1599259.459852] Call Trace:
[1599259.459871] [<ffffffffa7ca2519>] ? wake_up_new_task+0x69/0x1e0
[1599259.459895] [<ffffffffa7c7622d>] ? _do_fork+0x22d/0x3f0
[1599259.459917] [<ffffffffa7c03b1c>] ? do_syscall_64+0x7c/0xf0
[1599259.459940] [<ffffffffa820642f>] ? entry_SYSCALL64_slow_path+0x25/0x25
[1599259.459963] Code: 0f 84 c8 03 00 00 8b 44 24 18 49 0f a3 46 18 ba ff ff ff ff 41 0f 92 c4 31 db eb 1d 45 85 ed 74 15 0f 1f 44 00 00 48 03 4c 24 10 <48> 8b 0c 31 48 39 c8 48 0f 47 c1 48 01 c3 83 c2 01 be 00 02 00
[1599259.460061] RIP [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.460084] RSP <ffffbd3614013dd0>
[1599259.460102] CR2: ffff9da322a98248
Ich hoffe, ihr könnt mir da weiter helfen, mit meinem Latein bin ich nun nämlich wirklich am Ende. Ich hatte auch einen Hardware-Defekt vermutet, jedoch lief ein Hardwaretest vom Hoster ohne Probleme durch...
Ich wäre euch wirklich sehr dankbar