[erledigt] Crash No.2 - Besser neu installieren oder nicht?
[erledigt] Crash No.2 - Besser neu installieren oder nicht?
Moin @ all
Nachdem ich gestern völlig problemlos Stretch aufgesetzt habe, wollte ich -so ziemlich am Ende der Arbeit- auch noch nvidia installieren. Normalerweise tue ich sowas gleich am Anfang, aber ich habs zunächst vergessen. Das nvidia-Setup ist zunächst wie gewohnt angelaufen, aber es kam dann nicht zum Ende. 10 Minuten lang tut sich gar nix, das Setup ist gestorben, die betroffenen Prozesse rühren sich nicht mehr, das Rechnerverhalten ist zeitgleich ein wenig "crazy". Aber ich konnte noch normal runterfahren. Und dann die Überraschung, Debian ist im Eimer, der Recher bootet nur in so einen Recovery-Mode mit einigen wenigen verfügbaren Befehlen. Ich habe das zum ersten mal gesehen. Er sagt mir "Festplattenfehler". Hurra dachte ich mir, gleich am ersten SSD-Tag.
Einer der Hinweise war "fsck ausführen". Ist natürlich blöd, wenn man kein System hat, um sich erst mal die man-page anzuschauen und zu wissen, was er überhaupt will. Aber letztendlich wars auch egal, nochmal neu aufsetzen wäre schnell getan, also habe ich einfach mal 'fsck /dev/sda1' gestartet. Und siehe da, er (versucht oder tut es auch) repariert haufenweise Fehler. Stretch hat danach wieder normal gestartet und beim zweiten Versuch lief das nvidia-Setup fehlerlos durch. Ich befürchte, es lag einfach daran, dass ich nach der ganzen Installation vielleicht einfach mal einen Reboot hätte machen müssen, und erst dann nvidia installieren.... habe ich aber wohl nicht dran gedacht. Den ganzen weiteren Abend habe ich dann nix ungewöhnliches bemerkt, Stretch lief völlig normal.
Ich bin jetzt allerdings total misstrauisch, welche Defekte auf der Platte vorlagen und wie die repariert wurden und ob das vielleicht auch einen Einfluss auf die reguläre Debian-Installation haben könnte. Muss ich mir darüber Gedanken machen oder kann ich einfach sagen, das waren alles nur die Sektor-Leichen des gestorbenen nvidia-Setups`und das kann man nach dem fsck getrost vergessen?
Habt Ihr einen Rat für mich oder eine etwas bessere technische Einschätzung dazu, als ich das könnte? Ich überlege tatsächlich, einfach nur zur Sicherheit Stretch neu zu installieren.... aber wenn das Quatsch ist, will ich natürlich auch nix unsinniges tun.
Nachdem ich gestern völlig problemlos Stretch aufgesetzt habe, wollte ich -so ziemlich am Ende der Arbeit- auch noch nvidia installieren. Normalerweise tue ich sowas gleich am Anfang, aber ich habs zunächst vergessen. Das nvidia-Setup ist zunächst wie gewohnt angelaufen, aber es kam dann nicht zum Ende. 10 Minuten lang tut sich gar nix, das Setup ist gestorben, die betroffenen Prozesse rühren sich nicht mehr, das Rechnerverhalten ist zeitgleich ein wenig "crazy". Aber ich konnte noch normal runterfahren. Und dann die Überraschung, Debian ist im Eimer, der Recher bootet nur in so einen Recovery-Mode mit einigen wenigen verfügbaren Befehlen. Ich habe das zum ersten mal gesehen. Er sagt mir "Festplattenfehler". Hurra dachte ich mir, gleich am ersten SSD-Tag.
Einer der Hinweise war "fsck ausführen". Ist natürlich blöd, wenn man kein System hat, um sich erst mal die man-page anzuschauen und zu wissen, was er überhaupt will. Aber letztendlich wars auch egal, nochmal neu aufsetzen wäre schnell getan, also habe ich einfach mal 'fsck /dev/sda1' gestartet. Und siehe da, er (versucht oder tut es auch) repariert haufenweise Fehler. Stretch hat danach wieder normal gestartet und beim zweiten Versuch lief das nvidia-Setup fehlerlos durch. Ich befürchte, es lag einfach daran, dass ich nach der ganzen Installation vielleicht einfach mal einen Reboot hätte machen müssen, und erst dann nvidia installieren.... habe ich aber wohl nicht dran gedacht. Den ganzen weiteren Abend habe ich dann nix ungewöhnliches bemerkt, Stretch lief völlig normal.
Ich bin jetzt allerdings total misstrauisch, welche Defekte auf der Platte vorlagen und wie die repariert wurden und ob das vielleicht auch einen Einfluss auf die reguläre Debian-Installation haben könnte. Muss ich mir darüber Gedanken machen oder kann ich einfach sagen, das waren alles nur die Sektor-Leichen des gestorbenen nvidia-Setups`und das kann man nach dem fsck getrost vergessen?
Habt Ihr einen Rat für mich oder eine etwas bessere technische Einschätzung dazu, als ich das könnte? Ich überlege tatsächlich, einfach nur zur Sicherheit Stretch neu zu installieren.... aber wenn das Quatsch ist, will ich natürlich auch nix unsinniges tun.
Zuletzt geändert von TomL am 04.02.2017 16:16:43, insgesamt 1-mal geändert.
Re: Crash No.2 - Besser neu installieren oder nicht?
Das System protokolliert Ereignisse in den log files - zu finden in /var/log.
Nach einem Crash zum Beispiel mal auswerten /var/log/messages:
oder /var/log/syslog:
Die log files sind grundsätzlichen bei allmöglichen Problemen hilfreich.
Edit: Ubuntu-Wiki gibt einen guten Überblick - https://wiki.ubuntuusers.de/Logdateien/
Nach einem Crash zum Beispiel mal auswerten /var/log/messages:
Code: Alles auswählen
sudo less /var/log/messages
Code: Alles auswählen
sudo less /var/log/syslog
Edit: Ubuntu-Wiki gibt einen guten Überblick - https://wiki.ubuntuusers.de/Logdateien/
Zuletzt geändert von simpel am 04.02.2017 11:54:18, insgesamt 1-mal geändert.
Re: Crash No.2 - Besser neu installieren oder nicht?
rsyslog gibts bei mir nicht mehr, es wird immer direkt am Anfang sofort deinstalliert. Aber das Journal enthält auch nix aussagekräftiges:
Code: Alles auswählen
# journalctl -b -p err
-- Logs begin at Fri 2017-02-03 13:33:50 CET, end at Sat 2017-02-04 11:51:10 CET. --
Feb 04 10:51:50 thomaspc kernel: alg: aead: Test 3 failed on encryption for rfc4106-gcm-aesni
Feb 04 10:51:50 thomaspc kernel: alg: hash: Test 14 failed for crc32c-intel
Feb 04 10:51:50 thomaspc kernel: alg: hash: Test 13 failed for crc32-pclmul
root@thomaspc:~
# journalctl -b 1 -p err
-- Logs begin at Fri 2017-02-03 13:33:50 CET, end at Sat 2017-02-04 11:51:10 CET. --
Feb 03 13:33:51 thomaspc kernel: alg: aead: Test 3 failed on encryption for rfc4106-gcm-aesni
Feb 03 13:33:51 thomaspc kernel: alg: hash: Test 14 failed for crc32c-intel
Feb 03 13:33:51 thomaspc kernel: alg: hash: Test 13 failed for crc32-pclmul
Feb 03 13:33:51 thomaspc kernel: r8169 0000:03:00.0: firmware: failed to load rtl_nic/rtl8168e-3.fw (-2)
root@thomaspc:~
# journalctl -b 2 -p err
-- Logs begin at Fri 2017-02-03 13:33:50 CET, end at Sat 2017-02-04 11:51:10 CET. --
Feb 03 15:28:53 thomaspc kernel: alg: aead: Test 3 failed on encryption for rfc4106-gcm-aesni
Feb 03 15:28:53 thomaspc kernel: alg: hash: Test 13 failed for crc32-pclmul
Feb 03 15:38:03 thomaspc systemd[1]: Failed to start VirtualBox Linux kernel module.
root@thomaspc:~
# journalctl -b 3 -p err
-- Logs begin at Fri 2017-02-03 13:33:50 CET, end at Sat 2017-02-04 11:51:10 CET. --
Feb 03 15:40:20 thomaspc systemd[1]: Failed to start VirtualBox Linux kernel module.
Feb 03 15:40:50 thomaspc systemd[1]: Failed to start VirtualBox Linux kernel module.
Feb 03 15:41:09 thomaspc systemd[1]: Failed to start VirtualBox Linux kernel module.
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084 (-2)
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084d (-2)
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: msvld: unable to load firmware data
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: msvld: init failed, -19
Re: Crash No.2 - Besser neu installieren oder nicht?
Wenn ich Infos in Logs suche, schränke ich die Anzeige nicht von vorneherein dermaßen ein.
Re: Crash No.2 - Besser neu installieren oder nicht?
Ich wollte damit nur ausdrücken, dass ich in den Logs nichts finden konnte, was ich mit dem Crash in Zusammenhang bringen konnte. Ich hatte natürlich mit verschiedenen Läufen gesucht, und nach dem ersten erfolgreichen Reboot auch mal mit less komplett durchgescrollt... aber ich habe eben nichts finden können.
Ich habe jetzt noch mal die Logs durchgesehen, um mich selbst zu kontrollieren, aber ich sehe da wirklich nichts auffälliges. Und so viel nachzusehen ist da ja auch nicht. Mein eigenes Desktop-Environment ist ja eigentlich erst gestern nachmittag vollständig aufgesetzt worden. Und auch heute morgen ist bisher eigentlich nix ungewöhnliches zu bemerken. Die abschließende Frage ist: Würdest Du dem Braten noch trauen...?... oder isser möglicherweise doch verbrannt?
Code: Alles auswählen
journalctl -p err
journalctl -p warning
journalctl | egrep "failed|error" -i
Ich habe jetzt noch mal die Logs durchgesehen, um mich selbst zu kontrollieren, aber ich sehe da wirklich nichts auffälliges. Und so viel nachzusehen ist da ja auch nicht. Mein eigenes Desktop-Environment ist ja eigentlich erst gestern nachmittag vollständig aufgesetzt worden. Und auch heute morgen ist bisher eigentlich nix ungewöhnliches zu bemerken. Die abschließende Frage ist: Würdest Du dem Braten noch trauen...?... oder isser möglicherweise doch verbrannt?
Re: Crash No.2 - Besser neu installieren oder nicht?
... dann also fehlerfrei !TomL hat geschrieben:... nach dem ersten erfolgreichen Reboot auch mal mit less komplett durchgescrollt... aber ich habe eben nichts finden können.
Und ob die SSD bei dem Crash etwas abbekommen hat, kannst du ja mit den Smartmontools testen.
Re: Crash No.2 - Besser neu installieren oder nicht?
Das hatte ich heute morgen als erstes gemacht:
Ich sehe da nichts beunruhigendes....
Meine Sorge betrifft auch eher weniger die SSD, dafür mehr die installierten Stretch-Files... weil ich unsicher bin, ob ich da nicht vielleicht ein paar angeschlagene Kandidaten halb K.O. auf dem Boden liegen habe..... *hmmm*
Code: Alles auswählen
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 100 100 000 Old_age Always - 0
Meine Sorge betrifft auch eher weniger die SSD, dafür mehr die installierten Stretch-Files... weil ich unsicher bin, ob ich da nicht vielleicht ein paar angeschlagene Kandidaten halb K.O. auf dem Boden liegen habe..... *hmmm*
Re: Crash No.2 - Besser neu installieren oder nicht?
Wer ein hohes Maß an Ausfallsicherheit benötigt, und dem seine Daten wertvoll sind, sollte sich mit ZFS näher befassen.
https://www.linux.com/news/getting-started-zfs-debian-8
Macht meiner Meinung nach Sinn bei mind. zwei Platten und min. 8GB RAM.
https://www.linux.com/news/getting-started-zfs-debian-8
Macht meiner Meinung nach Sinn bei mind. zwei Platten und min. 8GB RAM.
Re: Crash No.2 - Besser neu installieren oder nicht?
Das brauch ich nicht und wirklich gut gesichert ist eh alles. Ich bin einfach nur ein notorischer Bedenkenträger und mach mir häufig zuviel nen Kopp über Dinge, die es vermutlich gar nicht verdient haben, intensiver drüber nachzudenken. Ich habe mich nun entschieden, weil im Moment immer noch alles gut läuft, nix zu unternehmen und einfach auf den frühen Entwicklungsstand von Stretch zu vertrauen. Soll heissen, die nächsten Wochen wird eh wahrscheinlich 4/5 der Pakete ausgetauscht. Und wenn augenblicklich irgendwas (unbemerkt) "fratze" ist, repariert sich das vielleicht von ganz allein.simpel hat geschrieben:Wer ein hohes Maß an Ausfallsicherheit benötigt,
Trotzdem Danke für Deinen Anregungen.
Re: [erledigt] Crash No.2 - Besser neu installieren oder nic
Vielleicht nochmal Prüfung des Datenbastands?
EDIT firmware-misc-nonfree ab jessie-backports
Code: Alles auswählen
cd /
md5sum -c /var/lib/dpkg/info/*.md5sums | egrep -v "OK$"
Ist firmware-realtek nicht installiert?Feb 03 13:33:51 thomaspc kernel: r8169 0000:03:00.0: firmware: failed to load rtl_nic/rtl8168e-3.fw (-2)
Dafür gäbe es einen "nvidia-firmware-installer" von/für opensuse/rpm.Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084 (-2)
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084d (-2)
EDIT firmware-misc-nonfree ab jessie-backports
Zuletzt geändert von rendegast am 04.02.2017 21:10:51, insgesamt 1-mal geändert.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
Re: [erledigt] Crash No.2 - Besser neu installieren oder nic
Doch, natürlich. Die Log-Auszüge oben sind jeweils 1 Boot, chronologisch während der Debian-Installation. Natürlich fehlen zu Anfang alle Treiber, eben auch Realtek. Aber wie Du siehst, ist dieser Fehler im späteren Boot nicht mehr enthalten... da hatte ich es installiert.rendegast hat geschrieben:Ist firmware-realtek nicht installiert?
Da weiss ich jetzt nicht, was Du meinst. Ich habe natürlich das nividia-Paket aus dem Stretch-Repo installiert. Die selben Pakete, die ich auf diesem Rechner auch früher schon unter Jessie installiert habe:Dafür gäbe es einen "nvidia-firmware-installer" von/für opensuse/rpm.Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084 (-2)
Feb 03 18:53:33 thomaspc kernel: nouveau 0000:01:00.0: firmware: failed to load nouveau/nvd9_fuc084d (-2)
Code: Alles auswählen
apt-get install nvidia-kernel-dkms nvidia-settings nvidia-xconfig
Das ist das Ergebnis:rendegast hat geschrieben:Vielleicht nochmal Prüfung des Datenbastands?Code: Alles auswählen
cd / md5sum -c /var/lib/dpkg/info/*.md5sums | egrep -v "OK$"
Code: Alles auswählen
md5sum -c /var/lib/dpkg/info/*.md5sums | egrep -v "OK$"
md5sum: usr/lib/x86_64-linux-gnu/libEGL.so.1.0.0: Datei oder Verzeichnis nicht gefunden
usr/lib/x86_64-linux-gnu/libEGL.so.1.0.0: %FEHLSCHLAG bei open oder read
md5sum: WARNUNG: die aufgeführte Datei konnte nicht gelesen werden
md5sum: usr/lib/x86_64-linux-gnu/libGL.so.1.2.0: Datei oder Verzeichnis nicht gefunden
usr/lib/x86_64-linux-gnu/libGL.so.1.2.0: %FEHLSCHLAG bei open oder read
md5sum: WARNUNG: die aufgeführte Datei konnte nicht gelesen werden
md5sum: usr/lib/x86_64-linux-gnu/libGLESv1_CM.so.1.1.0: Datei oder Verzeichnis nicht gefunden
usr/lib/x86_64-linux-gnu/libGLESv1_CM.so.1.1.0: %FEHLSCHLAG bei open oder read
md5sum: WARNUNG: die aufgeführte Datei konnte nicht gelesen werden
md5sum: usr/lib/x86_64-linux-gnu/libGLESv2.so.2.0.0: Datei oder Verzeichnis nicht gefunden
usr/lib/x86_64-linux-gnu/libGLESv2.so.2.0.0: %FEHLSCHLAG bei open oder read
md5sum: WARNUNG: die aufgeführte Datei konnte nicht gelesen werden
Re: [erledigt] Crash No.2 - Besser neu installieren oder nic
Etwas offtopic:
Üb für den Fehlerfall den Umgang mit Live-Systemen, um Fehler frühzeitig vor einer Reparatur zu analysieren.
Üb für den Fehlerfall den Umgang mit Live-Systemen, um Fehler frühzeitig vor einer Reparatur zu analysieren.
Re: [erledigt] Crash No.2 - Besser neu installieren oder nic
Wohl durch die Verwendung des nvidia-Treibers, diversions.TomL hat geschrieben: md5sum -c /var/lib/dpkg/info/*.md5sums | egrep -v "OK$"
md5sum: usr/lib/x86_64-linux-gnu/libEGL.so.1.0.0: Datei oder Verzeichnis nicht gefunden
...
...
Darüber hinaus nix auffälliges.
Aber keine fehlerhaften Dateien, die Erklärung für Fehler des Systems böten.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")