Pacemaker Corosync DRBD und ein Indianer

Alle weiteren Dienste, die nicht in die drei oberen Foren gehören.
Antworten
outofmemory
Beiträge: 44
Registriert: 03.09.2007 10:00:23

Pacemaker Corosync DRBD und ein Indianer

Beitrag von outofmemory » 11.12.2014 13:53:25

Hallo,

seit einiger Zeit befasse ich mich mit dem Thema Virtualisierung + Cluster und habe mir dazu auch eine Baustelle geschaffen:

Auf zwei VM's unter KVM - Pacemaker, Corosync und DRBD (Jessie),

Als Resourcen einen Apache und eine IP-Adresse,

Wie hier zu sehen ist:

http://nopaste.debianforum.de/38167

funktioniert auch alles soweit. Belasse ich es dabei, den Knoten 2 z.B. mit:

root@cl-n02:~# crm node standby cl-n02

in den Ruhestand zu schicken - ist alles ok. Beende ich den Apache mit einem 'pkill apache' bekomme ich dann eine Meldung zu sehen, mit der ich nichts anfangen kann:

Failed actions:
Apache_monitor_40000 (node=cl-n01, call=42, rc=7, status=complete, last-rc-change=Thu Dec 11 11:32:58 2014, queued=0ms, exec=0ms): not running

Der Apache wird beendet und kurz danach wieder neu gestartet. Zwischenzeitlich war er also offline ... daher die Fehlermeldung ? Oder ist hier davon auszugehen, dass sich "irgendetwas" in einem undefinierten Zustand befindet?

Nach dem zweiten 'pkill apache' ist dann der Apache tatsächlich down ... er wird also nicht neu gestartet. Na, das krieg ich wahrscheinlich geregelt. Primär geht es um den Fehler weiter oben. Vielleicht kennt das jemand von Euch?

Grüße

o.o.m

fbartels
Beiträge: 326
Registriert: 20.08.2009 10:06:56
Kontaktdaten:

Re: Pacemaker Corosync DRBD und ein Indianer

Beitrag von fbartels » 11.12.2014 14:49:56

Hallo oom,

nach meinem Verständnis ist das Verhalten das du siehst soweit korrekt. in deiner Pacemaker Konfiguration hast du ein "migration-threshold=2" gesetzt. Dies bedeutet soviel wie das eine Resource erst nach dem zweiten Fehlschlag verschoben wird.

Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.
Du schießt ihn ein zweites Mal ab -> crm_mon bemerkt den Absturz und zieht daraufhin die Ressource auf einen anderen Knoten um
-> die "failed action" bleibt bestehen, sodass die Resource nicht sofort wieder auf dem ersten Knoten startet.

outofmemory
Beiträge: 44
Registriert: 03.09.2007 10:00:23

Re: Pacemaker Corosync DRBD und ein Indianer

Beitrag von outofmemory » 11.12.2014 15:09:23

fbartels hat geschrieben:
...
Du schießt also deinen Apache per kill ab -> crm_mon bemerkt den Absturz und bringt dir die "failed action" -> Apache lief ja schließlich für einen Moment nicht.

...
... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:

root@cl-n01:/var/log/cluster# cat /var/log/apache2/error.log
[Thu Dec 11 13:55:28.181122 2014] [mpm_prefork:notice] [pid 12409] AH00169: caught SIGTERM, shutting down
[Thu Dec 11 13:56:01.462014 2014] [mpm_prefork:notice] [pid 12727] AH00163: Apache/2.4.10 (Debian) configured -- resuming normal operations
[Thu Dec 11 13:56:01.462062 2014] [core:notice] [pid 12727] AH00094: Command line: '/usr/sbin/apache2 -D STATUS -f /etc/apache2/apache2.conf'

... somit würde ich meinen, dass die Fehlermeldung nicht korrekt ist, denn die Resource wird wieder gestartet.
Erst nach dem zweiten 'pkill apache' wird sie nicht mehr gestartet.

fbartels
Beiträge: 326
Registriert: 20.08.2009 10:06:56
Kontaktdaten:

Re: Pacemaker Corosync DRBD und ein Indianer

Beitrag von fbartels » 11.12.2014 15:59:16

... ja

zwischendurch ist aber ja nunmal ein Fehler aufgetreten. Damit der Admin diesen nicht übersieht, steht dieser in den "failed actions". Das Apache automatisch wieder durch Pacemaker gestartet wird liegt wie gesagt an deinem migration-threshold. Er startet die Resource wieder und wartet auf einen zweiten Fehlschlag. Er danach kommt der zweite Node ins Spiel.

Colttt
Beiträge: 3012
Registriert: 16.10.2008 23:25:34
Wohnort: Brandenburg
Kontaktdaten:

Re: Pacemaker Corosync DRBD und ein Indianer

Beitrag von Colttt » 13.12.2014 00:37:07

outofmemory hat geschrieben: ... ja, lt. Log wird die Resource nach dem ersten "Abschuß" aber wieder gestartet:
das ist ja auch richtig und wenn das jetzt wieder failen würde er die apache2 umziehen
Debian-Nutzer :D

ZABBIX Certified Specialist

Antworten