Datový cluster

From DCEwiki
Jump to: navigation, search

Datový cluster tvoří minimálně dva - plně synchronizované - datové stroje A a B na kterých je nainstalován Debian unstable.

Ke vzájemné komunikaci při řešení nahazování služeb atp. využívají služeb clusterové infrastruktury, spravované přes Pacemaker.

Proč zrovna unstable?[edit]

Debian unstable je nainstalován z toho důvodu, že zavaděč GRUB2, který je součástí aktuální stable verze (sqeeze) nemá - na rozdíl od verze dostupné v unstable - podporu při zavádění pro linuxový SW RAID 1 s metadaty verze 1.2

Upozornění Debian unstable má výhodu (ale současne i nevýhodu) v tom, že jde o roll-on distribuci (tj. že instalační balíky jsou průběžně nahrazovány novějšími verzemi). Z toho důvodu není žádoucí provádět instalaci datového stroje z oficiálního instalačního média, ale vždy pouze naklonováním a úpravou jiného datového stroje, který již je součástí clusteru!

Jak řešit problémy datového stroje[edit]

Následující postupy pokud možno podrobně popisují jak vyřešit problémy, které by se mohly vyskytnout u datového stroje.

Selhání síťové karty[edit]

Datové stroje, které jsou v clusteru mají většinou více síťových karet.

eth0 
Je síťová karta vyhrazená pro datové přenosy do vnější sítě. V případě, že není datový cluster součástí virtualizačního clusteru, přes ní probíhají rovněž přenosy dat k virtualizačním strojům. Subnet 147.32.87.x (Subnet 193.86.207.x)
eth1 
Je síťová karta vyhrazená pro vnitřní komunikaci clusteru. V případě datového clusteru, který není součástí virtualizačního clusteru ji lze využít i pro přenosy DRBD. Interní clusterový subnet používá adresy 10.0.0.x
eth2 
Je-li k dispozici ještě jedna karta, může fungovat buď jako vyhrazená karta pro DRBD spojená přes napřímo kabelem s kartou druhého stroje (bonding se subnetem 192.168.44.x) a nebo - pokud je pomalejší ji lze využít pro potřebu interní komunikace clusteru, která není datově náročná.

V případě že odejde některá ze síťových karet, je jediným možným řešením přidat novou gigabajtovou síťovou kartu - optimálně s čipem Intel aby nevznikl problém s ovladačem - a po jejím přidání přepsat v souboru /etc/udev/rules.d/70-persistent-net.rules, u zařízení, které odešlo, stávající MAC adresu na MAC adresu nové karty. Po restartu stroje poběží zase vše OK

Poznámka Výměna síťové karty vyžaduje fyzický zásah do stroje, tudíž ji nelze provádět vzdáleně!

Selhání pevného disku[edit]

V každém datovém stroji jsou nainstalovány disky v párech a sestaveny do RAID zařízení. Vlastní systém a data jsou nainstalované až do logických oddílů v rámci LVM, které je až nad ním! To má výhodu, že i v případě kdy fyzicky odejde jeden z disků, vše zůstane normálně v běhu. Má-li stroj koš nebo šuplíky, které umožňují přidávat či odebírat disky za běhu, lze provést výměnu pevného disku aniž by bylo nutné stroj odstavit.

Upozornění Je třeba věnovat zvýšenou pozornost při aktualizaci systému. Aktuální verze zavaděče GRUB2, totiž ve výchozím stavu neumí správně rozeznat, jaké moduly je nutné zahrnout do části, která se natahuje před vlastním zavedením systému. Proto je nutné, v případě že je součástí atualizace také grub, ihned po aktualizaci instalačních balíků spustit příkaz, který provede správné sestavení a reinstalaci grubu do zaváděcí části na obou discích. Bez toho by se mohlo stát, že systém po restartu vůbec nenajede!!!

Přidání nového disku[edit]

Na každém z nich je vytvořen jeden primární diskový oddíl, který se zrcadlí přes . Pozor! Tabulka, diskových oddílů není typu MSDOS, ale GPT! Tzn. že pro vytvoření diskového oddílu u náhradního disku nelze použít klasický fdisk (resp. sfdisk), který s tímto typem tabulky zatím neumí pracovat, ale ...


V případě že se taková situace stane, je nutné použít ke spuštění systému záchranné médium na kterém je nainstalován kompletní GRUB2 (viz Postup vytvoření média s instalací GRUB2 )

Zapojení nového disku do neúplného RAIDu[edit]

  1. Zkopírování GPT tabulky
  2. Zapojení do RAIDu a po dokončené synchronizaci..

Spustit stejný příkaz jako když je aktualizován instalační balíček grub. Ale pozor! Reinstalace grub2 nesmí proběhnout dřív! Pokud by totiž byl systém restartován ještě před dokončením synchronizace, tak by se mohlo stát, že by systém označil jako master disk s neúplnými daty.


A pro jistotu zaktualizovat ramdisk příkazem ...

...

Selhání základové desky[edit]

Když selže základová deska datového stroje, většinou disky zůstanou v pořádku. V takovém případě by mělo stačit přehodit disky a systém by měl normálně najet - ovšem..

Upozornění Většinou bývají součástí základové disky i síťové karty, proto je v tomto případě nutné provést opravy v souboru /etc/udev/rules.d/70-persistent-net.rules, stejně jako když se mění síťová karta.

Kompletní selhání datového stroje, včetně diskových zařízení[edit]

I když je pravděpodobnost velmi malá, může dojít i ke kompletnímu selhání datového stroje. Vzhledem k tomu že jsou datového stroje stejné a liší se pouze v základní konfiguraci, není nutné provádět instalaci nového stroje od základu, ale stačí pouze naklonovat stroj buď z datového stroje, který běží, nebo ze zálohy.

Upozornění Po naklonování stroje, bez ohledu na to zda ze zálohy, či živého systému je vždy nutné provést následující kroky:
  1. Nastavit správné jméno stroje v souboru /etc/hostname
  2. Zkontrolovat nastavení sítě v souborech /etc/network/interfaces a /etc/resolv.conf
  3. Zkontrolovat zda nastavení síťových zařízení v /etc/udev/rules.d/70-persistent-net.rules odpovídá realitě
  4. Zkontrolovat zda nastavení v souboru /etc/fstab odpovídá realitě
  5. Zkontrolovat, zda-li jsou vytvořeny adresáře, jejichž obsah se při klonování nekopíruje : /dev, /proc, /sys, /media, /mnt, /tmp, /srv
  6. Nainstalovat přes chroot GRUB

Reinstalace z jiného datového stroje[edit]

Naklonování nového datového stroje ze stroje který zůstal naživu, je nejjednodušším a nejrychlejším způsobem reinstalace.

Reinstalace ze zálohy[edit]

Reinstalace ze zálohy přichází na řadu v situaci, kdy nepřežil žádný ze strojů.

Postup vytvoření média s instalací GRUB2[edit]

Postup zavedení systému přes GRUB2 ze záchranného média[edit]

Nejprve se nabootuje ze záchranného média do příkazové řádky GRUB2. Tímto médiem může býtˇbuď CD nebo USB klíčenka. V případě USB klíčenky je třeba vědět, že se pak bude "hlásit" jako další disk.

  1. Nejprve je třeba zjistit, příkazem ls co vlastně grub již zná
  2. Pokud nebyla automaticky rozeznána tabulka typu GPT, je třeba zavést modul gpt_part
  3. Pak je třeba zavést modul mdraid1x (Pozor modul mdraid09 je určeno pouze pro SW RAID 1 s metadaty verze 0.9), který zpřístupní RAID
  4. Po zpřístupnění RAID zařízení je třeba zavedením modulu lvm zpřístupnit LVM logický oddíl, na kterém je nainstalován systém
  5. To však nestačí. Pak je třeba natáhnout modul ext, který zpřístupní souborový systém.

V tomto okamžiku pak jsou dvě možnosti - buďto natáhnout konfigurační soubor pro grub2 přímo z tohoto diskového oddílu, a nebo rovnou zavést jádro

Natažení stávajícího konfiguráku pro GRUB2 z logického disku[edit]

Zavedení kernelu[edit]