Изграждане на клъстер от висока надеждност бягане GNU

Linux операционна система за лесно достъпни системи

Операционната система Linux е вече набира популярност сред потребителите. Изрично ползите от него могат да се видят в организацията на интернет сървъри. В този случай, изпълнението Linux често е напълно достатъчно, дори и ако не използвате най-мощните и най-модерно техническо оборудване. Много организации предпочитат надеждността на сървърите, следователно, много атрактивен е изграждането на системи с висока наличност на базата на Linux.

За създаване на висока надеждност (достъпност, надеждност) са задължителни, с изключение на сървърния софтуер, допълнителни подсистеми. Например, файловата система - стабилна, фокусирани върху сделката, която трябва да се различава доста незначителен цялост време проверка и възстановяване в случай на повреда на един клъстер възел с прехвърлянето на средства към друг възел.

Необходимо е да се опише процеса по-подробно функционирането на клъстера на висока надеждност (наличността).

Cluster (клъстер) - е един вид обединение на две или повече сървъри в една система, за да се постигне висока степен на наличност, както и за правилното разпределение на товара до всички услуги.

Според системата, висока надеждност - висока наличност (HA) система - разбере конкретната отказоустойчива компютърна система, която да гарантира в случай на отмяна, автоматично подновяване на работоспособността за лек период от време (от части от секундата до няколко минути). Такава система осигурява пълни услуги клъстер членство като цяло (така наречените скупчени услуги), а не на определен сървър в клъстера. Ако един възел не успее, нейните услуги автоматично започват да се осигури сървър клъстер. Също така, в случай на повреда на заявлението върху някоя от струпани сървъри, той автоматично започва да работи на друг сървър.

Висока наличност клъстери решаване на следните проблеми:

  1. продължава да се осигури максимална наличност на всяко приложение, денонощно, независимо от каквито и да било повреди на операционната система, устройства за съхранение на данни, приложения, или инфраструктурата;
  2. преизпълнението на бюджета в рамките на конкретни ангажименти за нивото на определена услуга (SLA);
  3. осигуряване на възможно най-високо наличието на базата на наличната (оборудване, инфраструктура);
  4. защита "клъстер" приложения, както и целия софтуер;
  5. създаване на специфични решения, за да се осигури високо локалното предлагане, както и за възстановяване на данни (DR), в случай на прекъсване на електрозахранването зона;
  6. намаляване на престоите на операционната система, поради чести неизправности и намаляване на прекъсванията за обновяване на оборудването, софтуерни ъпгрейди и др.;
  7. висок контрол и максимална достъпност на най-важните приложения, бази данни и други услуги - в допълнение към обичайната защита (системно ниво);
  8. гаранция за висока надеждност във виртуални, реални и смесени среди.

Висока наличност клъстер (ха клъстер) (високо наличие на клъстери) със сигурност ще ви помогне да се намали значително система престой, и при срив е автоматично доста бързо, така че потребителите могат лесно да завършат своята работа.

Това означава, че има висока достъпност клъстер е колекция от сървъри, работещи заедно за предоставяне на специфични услуги. Тези услуги не принадлежат към определен сървър, както и цялото обединение. В случай на неуспех на един от сървърите тя функционира автоматично прехвърлено на друг клъстер сървър.

Разработване на специфична конфигурация на висока надеждност клъстери (наличност)

Клъстери от висока надеждност (WHC) се главно предназначени за защита на операционната система, от каквито и да било повреди. Ето защо, в началния етап от развитието на такъв клъстер е важно да се намери една точка на неуспех (критични точки, SPOFs). Ако архитектурата на операционната система е свързано с някои изолирани елементи, чието неизпълнение води до нежелано провал на цялото обединение - това е точно една точка на неуспех. С помощта на единичните точки на отказ е повторението. Има дори някакъв вид правило висока надеждност и достъпност - на "три" и ": съкращение, уволнение и уволнение!

OS Linux: клъстер от висока надеждност

Структурата на клъстера

В общи линии, възли на клъстера ще бъдат съединени с три линии за данни: Контролата и синхронизация на здравословното състояние на (тук идва Heartbeat - така наречената "пулс"), достъп до корпоративни мрежи (LAN), както и данни за достъп до определени споделени периферия и сподели подсистема диск ,

съхранение Disk и споделените подсистеми

В момента продавачите HP ще предлага пет основни стратегии за преодоляване на пропуски в ресурсните групи. Заслужава да се отбележи, че те имат различни имена, в зависимост от различните доставчици.

Idle режим на готовност - "празен ход резерват"

В тази стратегия, основният възел е собственик на определена група ресурс. В режим на готовност нормално, възелът не е активиран, и по този начин контролира само изпълнение на първичния възел. В този случай, спиране на основната група възел ресурс получава архивиране възел. Възли, присъщи изрично приоритет, като възелът с най-висок приоритет ( "на живо") притежава определена група. В случай, че основното звено за възстановяване с по-висок приоритет и това е се превръща в "домакин" група, а тя е, следователно, води до известно прекъсване на услугата за кратко време. В допълнение, трябва да се отбележи, че единици са надарени с различна мощност.

Завъртането на готовност - "резерв въртене"

За разлика от споменатите по-горе "празен ход готовност" не е тук "приоритетни обекти". Вследствие на това, че устройството е включено първо място, става собственик на определена група ресурс, а вторият възел е изпратено до резервата. Основното предимство на такава стратегия за преодоляване на провал - пълна липса на пауза в служба в случай на един възел, включващ най-висок приоритет. Недостатъкът е, че има известна несигурност, тъй като не е ясно кой възел е активна в даден момент (особено ако броят на възела - повече от два) и факта, че обектите трябва да имат сходни в размер на властта.

Обикновено Fallover - «едностранно хванете"

В тази стратегия, основният възел действа като собственик на определена критична група на ресурсите, и архивирането - се използва за изпълнение на некритични приложения (например, уеб-, FTP услуги) и прави приемането на критичната група на ресурсите в случай на прекъсване на основното място, но не и обратното. Ако резервната възел не разполага с достатъчен капацитет, за да се извърши критичен група на ресурсите, както и не-критични приложения по едно и също време, некритични приложения могат да бъдат спрени. Ако е налице възстановяване на първичния възел, това ще доведе до прехвърлянето към него от критичната група на ресурсите.

Взаимна Takeover - «контра-хванете"

В тази стратегия, две възли са конфигурирани така, че всеки от тях има възможност да се вземат някои групови други възли ресурси. По същия начин, такава стратегия ще работи в конфигурации с голям брой възли.

Едновременното достъп - «паралелно изпълнение"

Често самите приложения не са в противоречие със софтуера HP, тъй като тя може да осигури висока надеждност и надеждност на всяко приложение, което работи без оператор. Може да има и допълнителен API и библиотеки, които дават възможност на приложенията да "сътрудничат" със софтуера на HP.

Структура на софтуера HP Cluster

Основната задача на софтуера HP е, че тя намалява времето, през което някои приложения са активни и има поддръжка в контролирана състояние на цялото обединение. Именно поради тази причина, че HP софтуер включва няколко модула, които се изпълняват на всички машини в клъстера.

Централната ( "основен") "мениджър на клъстер", който обработва събитието, също извършва работа за мониторинг на мрежи, както и предоставя изискваните доклади за грешки в системата. Всички компоненти на този "мениджър на клъстер", изпълнени на различни възли и винаги да си взаимодействат.

Разпределяне на тези видове събития:

  1. Касетъчните развитие;
  2. външни събития;
  3. домакин на събитието;
  4. положително или отрицателно уведомление за приключване на някои операции.

Необходимо е да се идентифицират някои от основните правила, които определят алгоритъм на "мениджър на клъстер" на всички възли.

  1. Нищо не е неуспешен, докато всички "касетъчни мениджъри" на ( "на живо"), няма да се стигне до споразумение, че той е отказан.
  2. Нищо не може да бъде прикрепен към клъстера толкова дълго, колкото всички "касетъчни мениджъри" ( "на живо"), няма да се споразумели, че това е, което е подготвен за такава връзка.
  3. В случай на присъединяване към клъстера на новия сайт на всички "на живо" "мениджърите на клъстера" трябва успешно пълен набор от действия (наречени скриптове), които съответстват на събитието преди новия възел ще бъдат в състояние да изпълняват своите скриптове.
  4. След завършване на не-спешни действия на работа той трябва да постигне максимална правилния изход от съответния отрасъл, както и да изпълнява, преди да отиде всички необходими скриптове.
  5. Хардуер или софтуер ядрото пазител таймер (WDT в ядрото) трябва да се използва за предотвратяване на всички мъртвите зони възел (като цяло, и по-специално "мениджър на клъстер"). Cluster определено трябва да пребивават в контролирана държава, а в случай на повреда - в "мениджър на клъстер" на всеки сайт; приемащата трябва да се рестартира или изключи.
  6. Комуникационни модули са предназначени да осигурят някакво взаимодействие между всички "касетъчни мениджъри" на в обектите, както и за проверка на здравословното състояние на други "касетъчни мениджъри" по начин, който съответства на избрания метод на комуникация между възлите (УВД от липсата на IP Multicast на Ethernet, RS -232 различава от IP и така нататък.).
  7. Има набор от скриптове, за да извършват операции на събития обработка, които активират приложения план, LAN адаптери, резервни дискове, монтирани устройства.
  8. конфигурация клъстер трябва да се съхраняват в специална база данни (известна конфигурационен файл на желания формат), както и информацията в него, за да бъде определен начин синхрон между всички възли в клъстера.

Приложения, които трябва да предоставят висока надеждност и надеждност

Софтуер HP, разбира се, не може да се фокусира върху специфични и конкретни приложения. Необходимо да се свързват с прилагането изпълнява определени скриптове за пускане и спиране на приложения, които работят на събитията "да започне обслужване" и "да спре услуга", съответно. Висока надеждност и годност е предвидено за всяко приложение и по този начин не изисква взаимодействие с оператора в началото, тъй като тя може да се работи във фонов режим.

Също така с приложения едновременно може да започне процеса, който контролира прилагането и изпълнява някои процеси са необходими за правилното и бързото му предаване, ако е необходимо, за архивиране възел. Тя е за тези действия биха били правилни, за да се осигури някакъв вид взаимодействие с "мениджър на клъстер" и други възли в клъстера, като се използва подходящ API.

Също така в изграждането на Linux клъстер висока надеждност трябва да се считат за по-важни аспекти, като например:

  • синхронизация на времето между различни възли в клъстера;
  • поддръжка на списание касетъчни специфични за системни събития;
  • контрол върху клъстера и управление на клъстер за конкретна SNMP.

Споделено подсистема за съхранение диск

На първо място, трябва да се помисли mnogohostovoe връзка за някои SCSI интерфейс. В случай на използване на този вид връзка, дисковата подсистема, памет (SCSI или други външни устройства) могат да бъдат свързани с няколко възела. Този вид връзка, трябва да се осигури присъствието на краищата на SCSI автобус специфични външни терминални, различен SCSI ID са настроени за адаптера.

Също така имайте предвид, че споделените дискови подсистеми могат да бъдат и "точка на провал", поради това, правилното решение е да използвате няколко дискови подсистеми с задължителна организация отразявайки тази информация.

В случай на SCSI автобус с цел свързване на споделени подсистемата, не забравяйте да се разгледа въпросът за правилно заземен (или поне на генерала и неутрални) на всички свързани устройства.

Други начини за свързване на споделения диск подсистеми за съхранение са:

  • На Fibre Channel решавани Loop (FC-AL);
  • Сериен съхранение архитектура (SSA);
  • "Firewire" - IEEE 1394, и др.

Наблюдение на здравословното състояние на всички възли в клъстера

Разбира се, докато на клъстера е много важно, че е непрекъснат контрол на експлоатация на блоковете, както и взаимодействието им с локалната мрежа. За тази цел се използват специални контролни парцел пакети, които съдържат определена информация за състоянието на възел и потвърждават нейното правилно функциониране. Това е процедура за обмен на контролни дялове касетъчни възли, наречени Heartbeat - "пулс". Тази "сърцето" често се извършва чрез LAN или чрез други интерфейси (например, SCSI, сериен и т.н.).

В случай на конкретен сайт по някаква причина не въвеждайте такива контролни пакети, той автоматично ще започне обратното броене, и след известно време се стига до заключението, че един възел не успее. За да се гарантира надеждността на такъв обмен "на живо" възли между определена информация, и по тази причина, провал възел се приема само ако тя се определя от всички по-горе "живот" възли.

Какви решения съществуват за изграждане на високо надеждни системи за операционната система Linux?

Процесът на разработване на системи за изграждане на базата на операционната система Linux, обикновено принадлежи на няколко работни групи.

заключение

По този начин, ние разгледахме основните понятия, свързани с klasteriaztsii технологии в GNU / Linux. Следващата поредица от статии ще се фокусира върху практически въпроси - ние проучи изграждането на срив клъстери за различни задачи.