Pacemaker

Z DCEwiki
Skočit na navigaci Skočit na vyhledávání

http://www.clusterlabs.org/

Pacemaker je open source implementací CRM (Cluster Resource Management). Jde o sadu démonů, které v rámci HA clusteru zajišťují spouštění či naopak zastavování konkrétních služeb. Tyto služby se nazývají zdroje (resource). Může to být prakticky libovolná služba, kterou by měl zajišťovat běžný server (web server, virtuální stroj, sdílený disk & etc..). Rozdíl mezi běžnými standalone servery a servery sdruženými do HA clusteru je především v tom, že stroje sdružené do clusteru vzájemně komunikují a jsou schopny mezi sebou zdroje podle potřeby přesouvat, tak aby byla zajištěna jejich trvalá dostupnost.

Pacemaker vzniknul jako fork projeku Linux-HA, jehož cílem bylo vytvořit komplexní řešení clusterové infrastruktury postavené na Linuxu. Na počátku šlo o jeden balík démonů, ale postupem času se projekt rozdělil na tři samostatné větve:

  • Nejprve se oddělil vývoj Cluster Glue (vývoj je samostatný od verze 1.0). Cluster Glue je sada démonů zajišťujících spolupráci nodu s infrastrukturou clusteru.
  • vývoj démona obstarávajícího vzájemnou komunikaci nodů, s názvem heartbeat se oddělil od hlavního projektu od verze 2.1.4 Jeho název se často používal jako synonymum pro celý projekt Linux-HA.
  • samostatný vývoj správce zdrojů (Resource Agents) s názvem Pacemaker začal na sklonku roku 2003, kdy Andrew Beekhof začal pracovat na novém CRM, který by odstranil omezení původní verze. Ta totiž, mimo jiné, umožňovala vytvořit cluster pouze o dvou nodech. První zárodek Pacemakeru se objevil 30. července 2005, v rámci vydání Heartbeat v. 2.0.0. K úplnému osamostatnění projektu pak došlo na konci roku 2007.

Vývoj stále pokračuje a průběžně dochází k dalším změnám.

Komunikační vrstva

Vzájemná komunikace mezi nody je nezbytnou podmínkou pro bezchybné fungování clusteru. Dříve než Pacemaker zdroj spustí na některém z nodů, musí mít jistotu, že jsou splněny všechny potřebné podmínky pro to aby nemohlo dojít k nějaké kolizi, či selhání zdroje kvůli nedostupnosti jiné, potřebné služby.

K této komunikaci může Pacemaker použít dvě různé implementace: heartbeat nebo corosync.

Upozornění Heartbeat i corosync zajišťují jednu a tu samou věc, tudíž je nelze spouštět oba zároveň. Pacemaker může stejně používat vždy jen jeden z nich a nikdy ne oba dva najednou. Navíc v případě chybné konfigurace může docházet i k nežádoucím kolizím v rámci infrastruktury clusteru.

Heartbeat

http://linux-ha.org/wiki/Heartbeat

Jak už bylo zmíněno heartbeat byl komunikační démon z původního projektu Linux-HA. Ovšem pro vývojáře CRM bylo mnohem výhodnější než vyvíjet vlastní implementaci přejít na corosync, za jehož vývojem stojí Red Hat. Proto jeho vývoj opustili. Dalšího vývoje Heartbeatu se chopil Linbit (viz DRBD8, který jej interně využívá ke vzájemné komunikaci mezi nody DRBD

Při testování se ovšem Haertbeat v porovnání s corosyncem jevil mnohem méně stabilní.Což se projevovalo tím, že při spouštění heartbeatu byl vždy nabourán linuxový kernel, a to následně vedlo k opakovaným restartům systému. Takže jen pro úplnost přidávám link na ukázkovou konfiguraci heartbeatu

Corosync

http://www.corosync.org/

Corosync Vzniknul jako derivát projektu openais, jehož cílem byla implementace jednotného API pro komunikaci v rámci clusteru.

Vývoj původního projektu openais trval téměř šest let a během té doby si mnoho projektů vytvořilo své vlastní komunikační mechanismy. Proto byl na základech tohoto projektu postaven Corosync Cluster Engine, který umožnil jejich sjednocení do jednoho komunikačního rozhraní a protokol openais se tak stal jejich pojítkem.

Autorizace u corosyncu

Před vlastní konfigurací corosyncu si musíte vygenerovat autorizační klíč, kterým se budou mezi sebou jednotlivé nody vzájemně autorizovat. Autorizační klíč pro corosync je umístěn v binární klíčence, což je (ve výchozím nastavení) soubor /etc/corosync/authkey. Nejde tedy o textový soubor, jako v případě heartbeatu.

Upozornění Pro vygenerování autorizačního klíče není třeba téměř nic, kromě spuštění následujícího příkazu..
Poznámka
nod-1:~# corosync-keygen

.. a trochy entropie. Podtržení není vůbec náhodné. Natrápil jsem se docela dlouho, než jsem zjistil, že při vzdáleném přístupu přes ssh můžete klepat do klávesnice jako zběsilí a nestane se vůbec nic. V takovém případě je třeba potřebnou entropii pro vygenerování klíče dodat jiným způsobem. Stačí k tomu kupř. paralelně spustit na stroji nod-1 příkaz find na nějaký větší rozsáhlejší adresář.

O dodání potřebné entropie se pak postarají IO operace.

Tento vygenerovaný klíč pak musíte rozkopírovat mezi jednotlivé nody. U všech musí být stejný a na stejném místě - v adresáři /etc/corosync

Poznámka Konfiguraci HA clusteru vám velmi usnadní když si mezi jednotlivé nody rozkopírujete veřejné ssh klíče. jak na to viz kapitola Přihlašování přes ssh bez nutnosti zadávat heslo

Konfigurace corosyncu

Upozornění Hromadu problémů jsem si navařil tím, že jsem zkoušel aplikovat nejrůznější postupy co se válí po netu. Doporučuji na ně zapomenout přinejmenší do doby, než budete vědět co vlastně CRM s naklepanou konfigurací dělá.

Především je třeba mít na paměti, že konfigurace pro corosync nemá(!) nic společného s konfigurací zdrojů (resources) v CRM.

Po instalaci najdete konfigurační soubor corosync.conf v adresáři /etc/corosync. Kdo by to čekal, že?

Jeho struktura je rozdělena do několika částí. V podstatě není třeba nic víc, než nakonfigurovat sekci totem (což je název protokolu, který byl vytvořen v rámci projektu openais). Tzn.:

  • u položky bindnetaddr doplnit platnou IP adresu nodu, na kterém se instalace provádí (ve výchozí volbě je uvedena lokální IPv4 adresa 127.0.0.1)
  • u položky mcastaddr uvést multicastovou adresu
  • a používáte-li při multicastu IPv6 protokol, tak ještě nodeid. Což může být libovolné celé (32bitové) číslo, které by mělo být v rámci clusteru jedinečné.

Tím by měla být konfigurace nodu hotova.

Upozornění Předtím, než se corosync pokusíte spustit zkontrolujte:
  1. zda už náhodou démon coresync neběží, abyste se nedostali do konfliktu..
  2. a zda-li je v konfiguračním souboru /etc/default/corosync nastavená hodnota proměnné START na "yes"

Pokud je vše v pořádku, můžete zkusit corosync nahodit.

Naběhne-li vše v pořádku, měli byste najít ve spuštěných procesech něco podobného..

Poznámka
nod-1:~# ps axf
...
29601 ?        Ss     0:00 ha_logd: read process        
29602 ?        S      0:00  \_ ha_logd: write process       
29802 ?        Ssl    0:00 /usr/sbin/corosync
29813 ?        SLs    0:00  \_ /usr/lib/heartbeat/stonithd
29814 ?        S      0:00  \_ /usr/lib/heartbeat/cib
29815 ?        S      0:00  \_ /usr/lib/heartbeat/lrmd
29816 ?        S      0:00  \_ /usr/lib/heartbeat/attrd
29817 ?        S      0:00  \_ /usr/lib/heartbeat/pengine
29818 ?        S      0:00  \_ /usr/lib/heartbeat/crmd

Stejným způsobem pak postupně nakonfigurujte a spusťte CRM i na dalších nodech. Pokud je vše v pořádku, měly by se - po určitém intervalu - postupně objevit ve výstupu monitorovacího příkazu crm_mon Viz níže..

Poznámka
nod-2:~# crm_mon -1
============
Last updated: Thu Apr  7 15:52:20 2011
Stack: openais
Current DC: nod-1 - partition with quorum
Version: 1.0.9-da7075976b5ff0bee71074385f8fd02f296ec8a3
2 Nodes configured, 2 expected votes
0 Resources configured.
============

Online: [ nod-2 nod-1 ]