Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
Schpammer
Beiträge: 4
Registriert: 24.12.2017 00:18:59

Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von Schpammer » 24.12.2017 00:30:12

Hallo und schon mal schöne Weihnachten an alle!

Leider belästige ich euch hier jetzt über die Feiertage mit einem Problem das auf einem Debian 9.3 (4.9.0-4-amd64 Kernel) Server auftritt. Dieser friert immer wieder ein und muss durch einen Hardreset wiederbelebt werden. Die Fehlersuche gestaltet sich jedoch etwas schwierig, da ich mit den Logs nicht viel anfangen kann. Über KDump konnte ich drei Dumps von den Crashes sichern, die habe ich mir auch angesehen, kann daraus aber keine Probleme deuten, dazu fehlt mir dann doch etwas Know-How. Da die Dumps allesamt sehr ähnlich aussehen poste ich ersteinmal nur einen.

Als erstes den Stack-Trace vom Crash:

Code: Alles auswählen

PID: 32045  TASK: ffff9da2f6dd8080  CPU: 6   COMMAND: "java"
 #0 [ffffbd3614013b70] machine_kexec at ffffffffa7c51ea8
 #1 [ffffbd3614013bc8] __crash_kexec at ffffffffa7d03399
 #2 [ffffbd3614013c88] crash_kexec at ffffffffa7d034b8
 #3 [ffffbd3614013ca0] oops_end at ffffffffa7c28973
 #4 [ffffbd3614013cc0] no_context at ffffffffa7c5f451
 #5 [ffffbd3614013d20] page_fault at ffffffffa8207758
    [exception RIP: select_task_rq_fair+547]
    RIP: ffffffffa7ca9c93  RSP: ffffbd3614013dd0  RFLAGS: 00010006
    RAX: 0000000000000000  RBX: 0000000000000000  RCX: 0000000004018248
    RDX: 0000000000000002  RSI: ffff9da31ea80000  RDI: ffff9da2fa5e2b18
    RBP: ffff9da2fa5e2b18   R8: ffffffffffffffff   R9: 0000000000000044
    R10: 0000000000000008  R11: 0000000000000000  R12: ffff9da2f860b001
    R13: 0000000000800000  R14: ffff9da2fa5e2b00  R15: 0000000000018240
    ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
 #6 [ffffbd3614013e68] wake_up_new_task at ffffffffa7ca2519
 #7 [ffffbd3614013eb0] _do_fork at ffffffffa7c7622d
 #8 [ffffbd3614013f40] do_syscall_64 at ffffffffa7c03b1c
    RIP: 00007f7aa42475e8  RSP: 00007f7a85365e80  RFLAGS: 00000202
    RAX: ffffffffffffffda  RBX: 00007f7a9c5301e0  RCX: 00007f7aa42475e8
    RDX: 00007f7aa416e5d8  RSI: ffffffffffffffff  RDI: 00007f7aa2380331
    RBP: 00007f7a85365ea0   R8: 0000000000000000   R9: 0000000000000020
    R10: 00007f7a8d53fa4f  R11: 0000000000000202  R12: 00007f7a18003960
    R13: 00007f7a180049c0  R14: 00007f7a180039f0  R15: 00007f7a18000cb0
    ORIG_RAX: 000000000000003a  CS: 0033  SS: 002b
Und nun den betreffenden Teil der System-Log (den Anfang der Log habe ich entfernt, das Ende ist das original ;)):

Code: Alles auswählen

[1599259.458842] BUG: unable to handle kernel paging request at ffff9da322a98248
[1599259.458869] IP: [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.458895] PGD 4dab2e067
[1599259.458900] PUD 4dab32067
[1599259.458917] PMD 0
[1599259.458918]
[1599259.458934] Oops: 0000 [#1] SMP
[1599259.458951] Modules linked in: ipt_REJECT nf_reject_ipv4 dm_mod cpuid xt_multiport iptable_filter cpufreq_powersave cpufreq_userspace cpufreq_conservative intel_rapl x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel shpchp evdev intel_cstate ppdev iTCO_wdt iTCO_vendor_support intel_uncore sg lpc_ich intel_rapl_perf mxm_wmi mfd_core serio_raw parport_pc parport battery tpm_infineon video button wmi ip_tables x_tables autofs4 ext4 crc16 jbd2 fscrypto ecb mbcache btrfs raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c crc32c_generic raid0 multipath linear raid1 md_mod sd_mod crc32c_intel aesni_intel aes_x86_64 glue_helper lrw gf128mul ablk_helper ahci cryptd libahci libata ehci_pci xhci_pci
[1599259.459265]  xhci_hcd ehci_hcd i2c_i801 scsi_mod i2c_smbus r8169 mii usbcore usb_common fan thermal
[1599259.459308] CPU: 6 PID: 32045 Comm: java Not tainted 4.9.0-3-amd64 #1 Debian 4.9.30-2+deb9u5
[1599259.459345] Hardware name: MSI MS-7816/H87-G43 (MS-7816), BIOS V2.14B11 06/30/2014
[1599259.459380] task: ffff9da2f6dd8080 task.stack: ffffbd3614010000
[1599259.459401] RIP: 0010:[<ffffffffa7ca9c93>]  [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.459440] RSP: 0018:ffffbd3614013dd0  EFLAGS: 00010006
[1599259.459461] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000004018248
[1599259.459495] RDX: 0000000000000002 RSI: ffff9da31ea80000 RDI: ffff9da2fa5e2b18
[1599259.459530] RBP: ffff9da2fa5e2b18 R08: ffffffffffffffff R09: 0000000000000044
[1599259.459564] R10: 0000000000000008 R11: 0000000000000000 R12: ffff9da2f860b001
[1599259.459599] R13: 0000000000800000 R14: ffff9da2fa5e2b00 R15: 0000000000018240
[1599259.459634] FS:  00007f7a85367700(0000) GS:ffff9da31eb80000(0000) knlGS:0000000000000000
[1599259.459670] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[1599259.459691] CR2: ffff9da322a98248 CR3: 00000002a1437000 CR4: 00000000001406e0
[1599259.459726] Stack:
[1599259.459741]  ffff9da2fa5e3e00 ffff9da2f860b3e8 0000000004000008 ffff9da200000006
[1599259.459778]  ffffffffffffffff 0000000000000000 0000000800000006 0000000000000000
[1599259.459815]  0000000000018240 ffff9da2f860b0c0 000000000000006c 0000000000018240
[1599259.459852] Call Trace:
[1599259.459871]  [<ffffffffa7ca2519>] ? wake_up_new_task+0x69/0x1e0
[1599259.459895]  [<ffffffffa7c7622d>] ? _do_fork+0x22d/0x3f0
[1599259.459917]  [<ffffffffa7c03b1c>] ? do_syscall_64+0x7c/0xf0
[1599259.459940]  [<ffffffffa820642f>] ? entry_SYSCALL64_slow_path+0x25/0x25
[1599259.459963] Code: 0f 84 c8 03 00 00 8b 44 24 18 49 0f a3 46 18 ba ff ff ff ff 41 0f 92 c4 31 db eb 1d 45 85 ed 74 15 0f 1f 44 00 00 48 03 4c 24 10 <48> 8b 0c 31 48 39 c8 48 0f 47 c1 48 01 c3 83 c2 01 be 00 02 00
[1599259.460061] RIP  [<ffffffffa7ca9c93>] select_task_rq_fair+0x223/0x7e0
[1599259.460084]  RSP <ffffbd3614013dd0>
[1599259.460102] CR2: ffff9da322a98248

Ich hoffe, ihr könnt mir da weiter helfen, mit meinem Latein bin ich nun nämlich wirklich am Ende. Ich hatte auch einen Hardware-Defekt vermutet, jedoch lief ein Hardwaretest vom Hoster ohne Probleme durch...
Ich wäre euch wirklich sehr dankbar :)

breakthewall
Beiträge: 507
Registriert: 30.12.2016 23:48:51

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von breakthewall » 24.12.2017 12:15:30

Frohes Fest.

Zu deinem Problem würde ich dir empfehlen, schlicht einen neuen Linux-Kernel zu nutzen.
Denn die 4.9er Reihe hatte so manche kuriose Probleme verursacht, was in nachfolgenden Versionen behoben wurde.
Wahlweise kannst einen neuen Linux-Kernel aus den Backports, oder aus den Testing/Unstable-Repositorys ziehen.

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von rendegast » 24.12.2017 12:49:21

4.9.0-3-amd64 #1 Debian 4.9.30-2+deb9u5
Gegebenenfalls ist das Meta-Paket Debianlinux-image-amd64 (stretch) nicht installiert,
das den Sprung von 4.9.0-3-amd64 auf 4.9.0-4-amd64 usw. automatisiert.


Zum Fehler selbst
BUG: unable to handle kernel paging request at ffff9da322a98248
könnte natürlich ein kernel-Fehler sein, vielleicht auch ein hardware-Fehler -> RAM testen
Debianmemtest86+

Vielleicht auch beschädigte Dateien aufgrund von Plattenfehlern ->
SMART-Log und zBsp.

Code: Alles auswählen

cd /
md5sum -c /var/lib/dpkg/info/*.md5sums  |  egrep -v "OK$"
(wobei Fehlermeldungen hier auch wieder Symptome eines RAM-Fehlers sein könnten)
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Schpammer
Beiträge: 4
Registriert: 24.12.2017 00:18:59

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von Schpammer » 25.12.2017 15:41:04

Hallo,
vielen Dank an euch beiden für die Antworten.
Ein Kernel-Upgrade würde ich gerne versuchen, da ich in dieser Hinsicht allerdings noch keine große Erfahrung habe, muss ich da ersteinmal recherchieren. Oder hast du, breakthewall, eine gute Anleitung parat? Gerne auch mit Hintergrundwissen, kann ja nie schaden ;) Und welche Version würdest du mir da ans Herz legen?

Dann zur Antwort von rendegast. Das Paket linux-image-amd64 ist installiert, muss wohl ein anderes Problem haben das den Sprung verhindert (oder ich muss ich die Kiste mal wieder neustarten?)

Der RAM wurde vom Hoster überprüft, ebenso HDDs, Netzwerkadapter, RAID Controller (Die Platten laufen im RAID 1) und CPU. Der Test lief wohl einwandfrei durch - Das besagen zumindest die Logs. Die MD5sum hat nun allerdings Probleme aufgezeigt, hier mal die Ausgabe:

Code: Alles auswählen

md5sum: /var/lib/dpkg/info/task-english.md5sums: no properly formatted MD5 checksum lines found
usr/share/vim/vim80/doc/help.txt: FAILED
md5sum: WARNING: 2 computed checksums did NOT match
usr/share/vim/vim80/doc/tags: FAILED

Noch schöne verbleibende Feiertage!

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von rendegast » 25.12.2017 16:48:46

Schpammer hat geschrieben: Die MD5sum hat nun allerdings Probleme aufgezeigt, hier mal die Ausgabe:
Diese sind hier nicht relevant, evtl auch durch alternatives/diversions erklärbar.

Das Paket linux-image-amd64 ist installiert, muss wohl ein anderes Problem haben das den Sprung verhindert (oder ich muss ich die Kiste mal wieder neustarten?)
Gegebenenfalls braucht es dazu '.... dist-upgrade'.
Vielleicht ist der neuere kernel auch schon auf dem System (
'dpkg -l | grep linux-' oder
'ls -l /boot'
), und muß nur beim Booten ausgewählt werden?
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Schpammer
Beiträge: 4
Registriert: 24.12.2017 00:18:59

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von Schpammer » 28.12.2017 01:36:44

Ja, der neue Kernel war schon auf dem System, ein Reboot hat schon gereicht um ihn zu laden. Leider ist der Server wieder abgestürzt. Schade, dass breakthewall sich nicht mehr gemeldet hat, würde mich interessieren, welchen Kernel er mir nahelegen würde.

Und die Sache mit dem Hardware-Defekt muss ich mir nochmals ansehen. Muss mir die Optionen ansehen, die ich beim Hoster habe um den RAM-Test laufen zu lassen.

Benutzeravatar
DEBIANUNDANDREAS
Beiträge: 1304
Registriert: 01.06.2013 10:37:46

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von DEBIANUNDANDREAS » 30.12.2017 19:39:13

Auch bei mir ist der Debian 9.3 Server eingefroren, ich habe da das Paket sendmail im Verdacht.
https://packages.debian.org/search?keywords=sendmail
Hier >>> https://bugs.debian.org/cgi-bin/pkgrepo ... t=unstable
hatte ich nicht passendes gefunden

argx3
Beiträge: 93
Registriert: 20.08.2012 03:12:25

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von argx3 » 01.01.2018 17:11:11

DEBIANUNDANDREAS hat geschrieben: ↑ zum Beitrag ↑
30.12.2017 19:39:13
Auch bei mir ist der Debian 9.3 Server eingefroren, ich habe da das Paket sendmail im Verdacht.
https://packages.debian.org/search?keywords=sendmail
Hier >>> https://bugs.debian.org/cgi-bin/pkgrepo ... t=unstable
hatte ich nicht passendes gefunden
Hm, immer schon bei anderen anhängen...

Wie genau kommt dein Verdacht zustande?

Und das du bei Bugs für das sendmail-Paket unter dem von dir gar nicht genutzten Debian Sid nichts findest ist auch sehr seltsam...

Schpammer
Beiträge: 4
Registriert: 24.12.2017 00:18:59

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von Schpammer » 03.01.2018 10:21:05

Bin jetzt auf Kernel 4.13.0 aus den Backports. Bisher noch kein Absturz, allerdings reagieren jetzt immer wieder Java Applikationen für kurze Zeit nicht mehr (1-5 Sekunden). … bin noch dabei andere Fehlerquellen auszuschließen.
Und das mit dem Sendmail Paket würde mich auch mal interessieren. Woher die Annahme? Kannst du mehr infos über dein System Posten?

Gunman1982
Beiträge: 923
Registriert: 09.07.2008 11:50:57
Lizenz eigener Beiträge: MIT Lizenz

Re: Server friert ein (Debian 9.3, 4.9.0-4-amd64)

Beitrag von Gunman1982 » 09.04.2018 12:21:23

Welche java version? Sun? Openjdk/jre?
Java Version?
Nutzt du was selbst geschriebenes in Java?
Wieviel RAM hat die Kiste, wieviel hast du der java runtime gegeben?
Wie ist die RAM Auslastung?

Antworten