Hallo,
seit einiger Zeit befasse ich mich mit dem Thema Virtualisierung + Cluster und habe mir dazu auch eine Baustelle geschaffen:
Auf zwei VM's unter KVM - Pacemaker, Corosync und DRBD (Jessie),
Als Resourcen einen Apache und eine IP-Adresse,
Wie hier zu sehen ist:
http://nopaste.debianforum.de/38167
funktioniert auch alles soweit. Belasse ich es dabei, den Knoten 2 z.B. mit:
root@cl-n02:~# crm node standby cl-n02
in den Ruhestand zu schicken - ist alles ok. Beende ich den Apache mit einem 'pkill apache' bekomme ich dann eine Meldung zu sehen, mit der ich nichts anfangen kann:
Failed actions:
Apache_monitor_40000 (node=cl-n01, call=42, rc=7, status=complete, last-rc-change=Thu Dec 11 11:32:58 2014, queued=0ms, exec=0ms): not running
Der Apache wird beendet und kurz danach wieder neu gestartet. Zwischenzeitlich war er also offline ... daher die Fehlermeldung ? Oder ist hier davon auszugehen, dass sich "irgendetwas" in einem undefinierten Zustand befindet?
Nach dem zweiten 'pkill apache' ist dann der Apache tatsächlich down ... er wird also nicht neu gestartet. Na, das krieg ich wahrscheinlich geregelt. Primär geht es um den Fehler weiter oben. Vielleicht kennt das jemand von Euch?
Grüße
o.o.m
Pacemaker Corosync DRBD und ein Indianer
-
- Beiträge: 44
- Registriert: 03.09.2007 10:00:23
Re: Pacemaker Corosync DRBD und ein Indianer
Hallo oom,
nach meinem Verständnis ist das Verhalten das du siehst soweit korrekt. in deiner Pacemaker Konfiguration hast du ein "migration-threshold=2" gesetzt. Dies bedeutet soviel wie das eine Resource erst nach dem zweiten Fehlschlag verschoben wird.
Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.
Du schießt ihn ein zweites Mal ab -> crm_mon bemerkt den Absturz und zieht daraufhin die Ressource auf einen anderen Knoten um
-> die "failed action" bleibt bestehen, sodass die Resource nicht sofort wieder auf dem ersten Knoten startet.
nach meinem Verständnis ist das Verhalten das du siehst soweit korrekt. in deiner Pacemaker Konfiguration hast du ein "migration-threshold=2" gesetzt. Dies bedeutet soviel wie das eine Resource erst nach dem zweiten Fehlschlag verschoben wird.
Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.
Du schießt ihn ein zweites Mal ab -> crm_mon bemerkt den Absturz und zieht daraufhin die Ressource auf einen anderen Knoten um
-> die "failed action" bleibt bestehen, sodass die Resource nicht sofort wieder auf dem ersten Knoten startet.
-
- Beiträge: 44
- Registriert: 03.09.2007 10:00:23
Re: Pacemaker Corosync DRBD und ein Indianer
... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:fbartels hat geschrieben:
...
Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.
...
root@cl-n01:/var/log/cluster# cat /var/log/apache2/error.log
[Thu Dec 11 13:55:28.181122 2014] [mpm_prefork:notice] [pid 12409] AH00169: caught SIGTERM, shutting down
[Thu Dec 11 13:56:01.462014 2014] [mpm_prefork:notice] [pid 12727] AH00163: Apache/2.4.10 (Debian) configured -- resuming normal operations
[Thu Dec 11 13:56:01.462062 2014] [core:notice] [pid 12727] AH00094: Command line: '/usr/sbin/apache2 -D STATUS -f /etc/apache2/apache2.conf'
... somit würde ich meinen, dass die Fehlermeldung nicht korrekt ist, denn die Resource wird wieder gestartet.
Erst nach dem zweiten 'pkill apache' wird sie nicht mehr gestartet.
Re: Pacemaker Corosync DRBD und ein Indianer
... ja
zwischendurch ist aber ja nunmal ein Fehler aufgetreten. Damit der Admin diesen nicht übersieht, steht dieser in den "failed actions". Das Apache automatisch wieder durch Pacemaker gestartet wird liegt wie gesagt an deinem migration-threshold. Er startet die Resource wieder und wartet auf einen zweiten Fehlschlag. Er danach kommt der zweite Node ins Spiel.
zwischendurch ist aber ja nunmal ein Fehler aufgetreten. Damit der Admin diesen nicht übersieht, steht dieser in den "failed actions". Das Apache automatisch wieder durch Pacemaker gestartet wird liegt wie gesagt an deinem migration-threshold. Er startet die Resource wieder und wartet auf einen zweiten Fehlschlag. Er danach kommt der zweite Node ins Spiel.
Re: Pacemaker Corosync DRBD und ein Indianer
das ist ja auch richtig und wenn das jetzt wieder failen würde er die apache2 umziehenoutofmemory hat geschrieben: ... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:
Debian-Nutzer
ZABBIX Certified Specialist
ZABBIX Certified Specialist