Ich habe nun meinen zweiten RootServer gemietet und gedacht, nehm ich mal einen größeren mit mehr Power. Weil das ReiserFS schon gleich nach den ersten paar Programmen gesponnen hat, hab ich über die rescueconsole das system repariert. Nach einigen paar Stunden war es schon wieder defekt, also Neuinstallation. Trotzdem das gleiche Spiel.
Da mir Reiser eh nicht so gefällt (geschmackssache) hab ich komplett neu partitioniert und XFS als rootpartion genommen. Jetzt nach 23h stell ich doch grad fest das schon wieder das System defekt ist. Gibs sowas auch? Hatte noch nie Probleme mit meinen anderem Rootserver bzw meinen Homeservern. Gemerkt hab ichs, da einfach ein paar Programme nicht mehr startfähig waren. Jetzt hab ich ein paar mal xfs_repair gemacht, und es kommen immer wieder andere Fehler raus.
Hier das Ergebnis [1]
Ist da was am Hardware Raid1, an den Festplatten dem Speicher defekt, oder liegt es an mir?
[1] http://nopaste.debianforum.de/3202
Edit by Snoopy:
Bitte grosse Ausgaben von Configs oder Logs ins NoPaste [2] schieben und in den Thread verlinken.
Server Dateisystem 1x pro Tag defekt?
Das mit den Festplatten hatte ich auch schon vermutet. Der Provider hat den Server über 25h mit Festplattencheck Speichertests usw belegt, und konnten seltsamerweise keinen Fehler feststellen. (grrrrr) Da die Maschine heute Mittag ohne Reparatur wieder ans Netz genommen wurde, wartete ich schon darauf, was micht heute schönes erwartet.
Nach einiger Zeit ging dann urplötzlich der Emailserver nicht mehr, was ich allerdings nach 17 Uhr genauer untersuchen konnte.
@ThoWaBu: an einen Plattentest dachte ich auch, nur ist Smartmon nicht in der Lage den 3Ware Controller mit dem SATA-Raid1 zu scannen. Laut den Infos sollte der 3ware7000 so geprüft werden:
smartctl -a -d 3ware,0 /dev/sda
aber selbst mir der neuen Version 5.36 geht es nicht, dann wird teilweise in den foren geschrieben das man statt /dev/sda einfach /dev/twe0 schreiben soll. Das kennt er aber gleich überhaupt nicht. Kann man überhaupt ein Raid 1 prüfen? Es war auch ein relativ aktueller Kernel drauf 2.6.16.16, aber ich glaube auch nicht das darin ein defekt am XFS sein soll.
Nun kurze Rede, schwacher Sinn: um 00:11 Uhr
naja um 00:32 Uhr gab es dann Applaus mit millionen von Fehlern:
Nach einiger Zeit ging dann urplötzlich der Emailserver nicht mehr, was ich allerdings nach 17 Uhr genauer untersuchen konnte.
@ThoWaBu: an einen Plattentest dachte ich auch, nur ist Smartmon nicht in der Lage den 3Ware Controller mit dem SATA-Raid1 zu scannen. Laut den Infos sollte der 3ware7000 so geprüft werden:
smartctl -a -d 3ware,0 /dev/sda
aber selbst mir der neuen Version 5.36 geht es nicht, dann wird teilweise in den foren geschrieben das man statt /dev/sda einfach /dev/twe0 schreiben soll. Das kennt er aber gleich überhaupt nicht. Kann man überhaupt ein Raid 1 prüfen? Es war auch ein relativ aktueller Kernel drauf 2.6.16.16, aber ich glaube auch nicht das darin ein defekt am XFS sein soll.
Nun kurze Rede, schwacher Sinn: um 00:11 Uhr
Bedeutet doch also, das selbst durch das mounten Fehler entstehen.RESCUE:~# xfs_check /dev/sda3
dir 2013564559 block 0 entry .wishlist.png.FeyjOB bad inode number 71776258513970555
dir 2013564559 block 0 bad block tail count 47 (stale 1)
dir ino 2013564559 missing leaf entry for 8a394222/149
RESCUE:~# mount /dev/sda3 /mnt
RESCUE:~# umount /mnt
RESCUE:~# xfs_check /dev/sda3
dir 134817056 block 0 entry .topicaol.gif.e6cX5T bad inode number 71776256635024013
dir ino 134817056 missing leaf entry for bcb7fc1e/149
dir 1476840720 block 0 entry .profile_send_pass.tpl.yCZB1v bad inode number 71776292337394378
dir 1476840720 block 0 bad block tail count 55 (stale 1)
dir ino 1476840720 missing leaf entry for 9c48ed07/149
dir 1879495066 block 0 entry .step1_classic.tpl.neFnot bad inode number 71776292739425914
dir 1879495066 block 0 bad block tail count 26 (stale 1)
dir ino 1879495066 missing leaf entry for 945c8c27/89
RESCUE:~#
naja um 00:32 Uhr gab es dann Applaus mit millionen von Fehlern:
und das wars mit dem Dateisystem. Alles weg, selbst das Rescuesystem lässt sich nicht mehr starten. Ich weis mir keinen Rat mehr, behaupte trotzdem das was an der Hardware nicht stimmt.bad magic number 0x0 on inode 1611084585
bad version number 0x0 on inode 1611084585
Tja so ist das leben. Wo mir versprochen worden ist, das Hardwaredefekte innerhalb 4h getauscht werden, aber naja. Nachdem wir im Rescuemode nocheinmal xfs_repair gemacht haben, war das komplette Dateisystem hinüber. Erneutes starten im Rescuemode war dann auch nicht mehr möglich. Also Ticket geschrieben wie es ist. Anwort kurze Zeit später (nur 16 Stunden):
Ja ich war dann der Meinung das nach dem Ticket der Server wieder erreichbar wäre. Aber nach 72h wurde der Einschaltknopf noch nicht gefunden...
Nun haben wir die Kündigung eingereicht. Mit so vielen Problemen hatten wir nicht gerechnet.
mmmh, naja als engefleischter PC-Techniker dachte ich das man für den massiven Hardwaretausch den PC ausschalten muss.hi, die HDDs und der Controler wurden getauscht.
Ja ich war dann der Meinung das nach dem Ticket der Server wieder erreichbar wäre. Aber nach 72h wurde der Einschaltknopf noch nicht gefunden...
Nun haben wir die Kündigung eingereicht. Mit so vielen Problemen hatten wir nicht gerechnet.
Hmm...
Naja, weiss nicht was das fuer ein laden ist..
...aber bei Hetzner läuft das etwas besser.
Unser Rootie hatte bis jetzt 2 "Ausfälle".
1x Platte
1x RAM
Nach einem freundlichen Telefonat brauchte der Techniker jeweils zwischen 10 und 30 Minuten bis das System wieder am Netz war.
Gibt eben solche und solche.
Naja, weiss nicht was das fuer ein laden ist..
...aber bei Hetzner läuft das etwas besser.
Unser Rootie hatte bis jetzt 2 "Ausfälle".
1x Platte
1x RAM
Nach einem freundlichen Telefonat brauchte der Techniker jeweils zwischen 10 und 30 Minuten bis das System wieder am Netz war.
Gibt eben solche und solche.