Pacemaker Corosync DRBD und ein Indianer

outofmemory · Beitrag von **outofmemory** » 11.12.2014 13:53:25

Hallo,

seit einiger Zeit befasse ich mich mit dem Thema Virtualisierung + Cluster und habe mir dazu auch eine Baustelle geschaffen:

Auf zwei VM's unter KVM - Pacemaker, Corosync und DRBD (Jessie),

Als Resourcen einen Apache und eine IP-Adresse,

Wie hier zu sehen ist:

http://nopaste.debianforum.de/38167

funktioniert auch alles soweit. Belasse ich es dabei, den Knoten 2 z.B. mit:

root@cl-n02:~# crm node standby cl-n02

in den Ruhestand zu schicken - ist alles ok. Beende ich den Apache mit einem 'pkill apache' bekomme ich dann eine Meldung zu sehen, mit der ich nichts anfangen kann:

Failed actions:
Apache_monitor_40000 (node=cl-n01, call=42, rc=7, status=complete, last-rc-change=Thu Dec 11 11:32:58 2014, queued=0ms, exec=0ms): not running

Der Apache wird beendet und kurz danach wieder neu gestartet. Zwischenzeitlich war er also offline ... daher die Fehlermeldung ? Oder ist hier davon auszugehen, dass sich "irgendetwas" in einem undefinierten Zustand befindet?

Nach dem zweiten 'pkill apache' ist dann der Apache tatsächlich down ... er wird also nicht neu gestartet. Na, das krieg ich wahrscheinlich geregelt. Primär geht es um den Fehler weiter oben. Vielleicht kennt das jemand von Euch?

Grüße

o.o.m

fbartels · Beitrag von **fbartels** » 11.12.2014 14:49:56

Hallo oom,

nach meinem Verständnis ist das Verhalten das du siehst soweit korrekt. in deiner Pacemaker Konfiguration hast du ein "migration-threshold=2" gesetzt. Dies bedeutet soviel wie das eine Resource erst nach dem zweiten Fehlschlag verschoben wird.

Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.
Du schießt ihn ein zweites Mal ab -> crm_mon bemerkt den Absturz und zieht daraufhin die Ressource auf einen anderen Knoten um
-> die "failed action" bleibt bestehen, sodass die Resource nicht sofort wieder auf dem ersten Knoten startet.

outofmemory · Beitrag von **outofmemory** » 11.12.2014 15:09:23

fbartels hat geschrieben:
...
Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.

...

... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:

root@cl-n01:/var/log/cluster# cat /var/log/apache2/error.log
[Thu Dec 11 13:55:28.181122 2014] [mpm_prefork:notice] [pid 12409] AH00169: caught SIGTERM, shutting down
[Thu Dec 11 13:56:01.462014 2014] [mpm_prefork:notice] [pid 12727] AH00163: Apache/2.4.10 (Debian) configured -- resuming normal operations
[Thu Dec 11 13:56:01.462062 2014] [core:notice] [pid 12727] AH00094: Command line: '/usr/sbin/apache2 -D STATUS -f /etc/apache2/apache2.conf'

... somit würde ich meinen, dass die Fehlermeldung nicht korrekt ist, denn die Resource wird wieder gestartet.
Erst nach dem zweiten 'pkill apache' wird sie nicht mehr gestartet.

fbartels · Beitrag von **fbartels** » 11.12.2014 15:59:16

... ja

zwischendurch ist aber ja nunmal ein Fehler aufgetreten. Damit der Admin diesen nicht übersieht, steht dieser in den "failed actions". Das Apache automatisch wieder durch Pacemaker gestartet wird liegt wie gesagt an deinem migration-threshold. Er startet die Resource wieder und wartet auf einen zweiten Fehlschlag. Er danach kommt der zweite Node ins Spiel.

Colttt · Beitrag von **Colttt** » 13.12.2014 00:37:07

outofmemory hat geschrieben: ... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:

das ist ja auch richtig und wenn das jetzt wieder failen würde er die apache2 umziehen

debianforum.de

Pacemaker Corosync DRBD und ein Indianer

Pacemaker Corosync DRBD und ein Indianer

Re: Pacemaker Corosync DRBD und ein Indianer

Re: Pacemaker Corosync DRBD und ein Indianer

Re: Pacemaker Corosync DRBD und ein Indianer

Re: Pacemaker Corosync DRBD und ein Indianer