leider komme ich per google nicht weiter...
Ich habe alle paar Stunden hohe CPU Werte auf der SSD.
Code: Alles auswählen
Dec 27 18:30:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 27 22:40:10 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 27 23:40:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 01:30:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 04:00:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 04:40:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 05:10:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Code: Alles auswählen
# smartctl --all /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.16.0-rc5-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 980 1TB
Serial Number: SXXXXXXXXXXXX
Firmware Version: 1B4QFXO7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 5
NVMe Version: 1.4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization: 397,868,978,176 [397 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 d711b08caa
Local Time is: Tue Dec 28 10:09:24 2021 CET
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0055): Comp DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f): S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 82 Celsius
Critical Comp. Temp. Threshold: 85 Celsius
Namespace 1 Features (0x10): NP_Fields
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 5.24W - - 0 0 0 0 0 0
1 + 4.49W - - 1 1 1 1 0 0
2 + 2.19W - - 2 2 2 2 0 500
3 - 0.0500W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 1000 9000
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- temperature is above or below threshold
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x02
Temperature: 84 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 1,170,844 [599 GB]
Data Units Written: 2,900,418 [1.48 TB]
Host Read Commands: 4,285,202
Host Write Commands: 28,329,977
Controller Busy Time: 66
Power Cycles: 19
Power On Hours: 46
Unsafe Shutdowns: 4
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 498
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 84 Celsius
Temperature Sensor 2: 45 Celsius
Thermal Temp. 2 Transition Count: 4568
Thermal Temp. 2 Total Time: 23539
Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged
Ich dachte erst, dass es an btrfs liegt, aber da es nur mit nspawn auftritt schließe ich das derzeit aus.
Wenn ich fstrim starten, dann erhalte ich auch die Meldung, aber das sollte nur jede Woche starten und im Container ist dort auch noch eine zusätzliche Abfragen, ob man im Container ist.
Das System läuft unter unstable/experimental. Diverse Kernel (5.14-5.16) und systemd Versionen (sogar 250~rc3-1) haben nichts geändert.
Hat jemand ähnliche Symptome?
Jemand eine gute Idee, wir man das weiter analysieren kann?
Danke!