czas odczytu: 8 minut
wysoka dostępność to Opis systemu zaprojektowanego tak, aby był odporny na awarie, wysoce niezawodny, działał w sposób ciągły bez interwencji lub z jednym punktem awarii. Systemy te są bardzo poszukiwane w celu zwiększenia dostępności i czasu bezawaryjnej pracy niezbędnej do bezproblemowego działania infrastruktury. Następujące cechy definiują system wysokiej dostępności.
- klastry wysokiej dostępności
- tolerancja błędów
- niezawodność i niezawodność
- Orchestrated Error Handling
- skalowalność
- dostępność& Uptime Five 9 's
- Heartbeat
- Architektura klastra
- dostępność Inżynierska
- nieskomplikowane wdrażanie
- cele najlepszych praktyk
- projektowanie
- dostępność
- wdrożenie
- Ewaluacja& testowanie
- replikacja
- monitorowanie& śledzenie
- podsumowanie
klastry wysokiej dostępności
klastry serwerów wysokiej dostępności (aka Ha Clusters) to grupa serwerów, które obsługują aplikacje lub usługi, które mogą być wykorzystywane niezawodnie przy minimalnym czasie przestoju. Te klastry serwerów działają przy użyciu specjalistycznego oprogramowania, które wykorzystuje redundancję w celu osiągnięcia krytycznych poziomów czasu pracy five9. Obecnie około 60% przedsiębiorstw wymaga 5 lub więcej firm, aby świadczyć kluczowe usługi dla swoich przedsiębiorstw.
oprogramowanie o wysokiej dostępności wykorzystuje nadmiarowe oprogramowanie zainstalowane w wielu systemach, grupując lub grupując grupę serwerów skupiających się na wspólnym celu w przypadku awarii komponentów. Bez tej formy klastrowania, w przypadku awarii aplikacji lub strony internetowej, usługa nie będzie dostępna do czasu naprawy serwerów. Ha clustering rozwiązuje te sytuacje, wykrywając usterki i szybko restartując lub zastępując serwer lub usługę lub serwer nowym procesem, który nie wymaga interwencji człowieka. Jest to model „przełączania awaryjnego”.
Poniższa ilustracja przedstawia prosty klaster wysokiej dostępności Z dwoma węzłami.klastry wysokiej dostępności są często używane do baz danych o znaczeniu krytycznym, udostępniania danych, aplikacji i witryn e-commerce rozproszonych w sieci. Implementacje o wysokiej dostępności tworzą redundancję w klastrze, aby usunąć każdy pojedynczy punkt awarii, w tym wiele połączeń sieciowych i przechowywanie danych, które mogą być połączone redundancyjnie za pośrednictwem zróżnicowanych geograficznie sieci obszarów pamięci masowej.
serwery klastrowe o wysokiej dostępności zwykle używają metody replikacji zwanej Heartbeat, która jest używana do monitorowania stanu i kondycji każdego węzła w klastrze za pośrednictwem prywatnego połączenia sieciowego. Jedną z krytycznych okoliczności, które muszą być w stanie rozwiązać wszystkie programy do klastrowania, jest split-brain, który występuje, gdy wszystkie prywatne łącza wewnętrzne wyłączają się jednocześnie, ale węzły w klastrze nadal działają. Jeśli tak się stanie, każdy węzeł w klastrze może błędnie określić, że wszystkie inne węzły zostały wyłączone i spróbować uruchomić usługi, które inne węzły mogą nadal działać. Warunek ten dotyczy duplikatów instancji uruchamiających podobne usługi, co może spowodować uszkodzenie danych w systemie.
typowa wersja oprogramowania o wysokiej dostępności zapewnia atrybuty, które obejmują zarówno redundancję sprzętu, jak i oprogramowania. Funkcje te obejmują:
- Automatyczne wykrywanie i wykrywanie komponentów sprzętowych i programowych.
- autonomiczne przypisanie ról aktywnych i warunkowych do nowych elementów.
- wykrywanie uszkodzonych usług oprogramowania, komponentów sprzętowych i innych konstrukcji systemu.
- monitorowanie i powiadamianie o nadmiarowych komponentach oraz o konieczności ich aktywacji.
- możliwość skalowania klastra w celu dostosowania do wymaganych zmian bez interwencji zewnętrznej.
tolerancja błędów
tolerancja błędów jest zdefiniowana jako zdolność infrastruktury systemu do przewidywania i odporności na błędy oraz zapewnienia automatycznej reakcji na te problemy, jeśli zostaną napotkane. Podstawową jakością tych systemów są zaawansowane czynniki projektowe, które można wykorzystać w przypadku wystąpienia problemu. Możliwość skonfigurowania infrastruktury przewidującej każde możliwe rozwiązanie jest istotnym zadaniem, które wymaga wiedzy i doświadczenia, aby przeciwdziałać wielu problemom, zanim się pojawią. Architekci systemów, którzy projektują takie ramy, będą mieli metodologie przewidujące środki do rozwiązania tych problemów z wyprzedzeniem i możliwość wdrożenia tych ram.
dostępne są następujące metody redundancji i powinny zostać poddane przeglądowi na początkowych etapach projektowania i wdrażania.
- Model N + 1 – ta koncepcja zakłada sumę sprzętu potrzebnego (który będziemy nazywać „N”) do utrzymania całego frameworka w działaniu, z dodatkowym niezależnym backupem komponentów dla każdego z komponentów ” N ” w przypadku awarii.
- Model N + 2-podobny do modelu N + 1, ale z dodatkową warstwą ochrony w przypadku awarii dwóch komponentów.
- model 2N-modalność ta ma podwójny redundantny backup dla każdego elementu, aby zapewnić pełną funkcjonalność struktury systemu.
- model 2N + 1-Ponownie, model ten jest podobny do modelu 2N, ale z dodatkowym komponentem, aby dodać trzecią warstwę ochrony do struktury systemu.
wraz z postępem modeli od Nx do 2Nx, współczynnik kosztów wzrasta również wykładniczo, jak w przypadku prawdziwie redundantnych systemów, które wymagają czasu sprawności. Warunki te mają kluczowe znaczenie dla stabilności i dostępności.
niezawodność i niezawodność
jednym z głównych najemców systemu wysokiej dostępności jest uptime. Uptime ma pierwszorzędne znaczenie, zwłaszcza jeśli celem systemu jest zapewnienie niezbędnej usługi, takiej jak systemy 911, które reagują na nagłe sytuacje. W biznesie, posiadanie systemu wysokiej dostępności jest wymagane, aby zapewnić istotną usługę pozostaje online. Przykładem może być ISP lub inna usługa, która nie może tolerować utraty funkcji. Systemy te muszą być zaprojektowane z wysoką dostępnością i odpornością na awarie, aby zapewnić niezawodność i dostępność przy jednoczesnym zminimalizowaniu przestojów.
Orchestrated Error Handling
W przypadku wystąpienia błędu system dostosuje się i zrekompensuje problem, pozostając w trybie online. Budowa tego typu systemu wymaga przezorności i planowania na nieoczekiwane. Możliwość przewidywania problemów z wyprzedzeniem i planowanie ich rozwiązania jest jedną z głównych cech systemu wysokiej dostępności.
skalowalność
Jeśli system napotka problem, taki jak skok ruchu lub wzrost zużycia zasobów, zdolność systemu do skalowania w celu zaspokojenia tych potrzeb powinna być automatyczna i natychmiastowa. Wbudowanie takich funkcji w system zapewni systemowi możliwość szybkiego reagowania na wszelkie zmiany funkcjonalności systemowej procesów architektury.
dostępność& Uptime Five 9 's
Five 9′ S to branżowy standard pomiaru czasu pracy. Pomiar ten może być związany z samym systemem, procesami systemowymi w ramach lub programem działającym wewnątrz infrastruktury. Szacowanie to jest często związane z dostarczaniem programu do klientów w formie strony internetowej lub aplikacji internetowej. Dostępność systemów można zmierzyć jako procent czasu, w którym systemy są dostępne, używając tego równania: x = (n-y) * 100 / N. wzór ten oznacza, że gdzie ” n „to całkowita ilość minut w miesiącu kalendarzowym, a” y ” to ilość minut, w których usługa jest niedostępna w miesiącu kalendarzowym. Poniższa tabela przedstawia przestoje związane z odsetkiem reprezentowanych „9”.
jak widzimy, im wyższa liczba „9”, tym więcej czasu jest zapewniony. Celem systemu wysokiej dostępności jest osiągnięcie minimalnej ilości potencjalnych przestojów, aby zapewnić, że system jest zawsze dostępny w celu świadczenia wyznaczonych usług.
Heartbeat
jednym z głównych komponentów wysokiej dostępności jest Heartbeat. Heartbeat jest demonem, który współpracuje z oprogramowaniem do zarządzania klastrami, takim jak stymulator, który został zaprojektowany specjalnie do zarządzania zasobami klastrowymi o wysokiej dostępności. Jego najważniejsze cechy to:
- brak określonej lub ustalonej maksymalnej liczby węzłów – można je wykorzystać do budowy dużych klastrów, jak i elementarnych.
- monitorowanie zasobów: zasoby mogą być automatycznie uruchamiane ponownie lub przenoszone do innego węzła w przypadku awarii.
- mechanizm potrzebny do usunięcia uszkodzonych węzłów z klastra.
- udoskonalone zarządzanie zasobami oparte na zasadach, współzależności zasobów i ograniczeniach.
- zestaw reguł opartych na czasie pozwalający na stosowanie różnych zasad w zależności od określonego przedziału czasowego.
- Grupa skryptów zasobów (dla programów takich jak Apache, DB2, Oracle, PostgreSQL, itp.) obejmowało bardziej szczegółowe zarządzanie.
- GUI do konfigurowania, kontrolowania i monitorowania zasobów i węzłów.
Architektura klastra
dostępność Inżynierska
pierwszym segmentem wysoce dostępnego systemu jest wyraźnie zaprojektowane wykorzystanie klastrowych serwerów aplikacji, które są wcześniej zaprojektowane w celu rozłożenia obciążenia między cały klaster, co obejmuje możliwość przełączania awaryjnego do systemu wtórnego i ewentualnie trzeciego.
drugi podział obejmuje potrzebę skalowalności bazy danych. Wiąże się to z wymogiem skalowania, poziomego lub pionowego, przy użyciu replikacji wielowątkowej oraz Load balancer w celu poprawy stabilności i czasu pracy bazy danych.
trzecią cechą jest zróżnicowanie geograficzne. Zapewnia to, że jeśli klęska żywiołowa uderzy w jedną lokalizację, awaria nie będzie utrudniać możliwości świadczenia usługi.
czwartym i prawdopodobnie najważniejszym elementem jest zapewnienie replikacji kopii zapasowych i metodologii odzyskiwania po awarii. Możliwość zapewnienia działającej kopii zapasowej gwarantuje, że nasze dane są bezpieczne. Korzystanie z najnowszej strategii tworzenia kopii zapasowych (3-2-3) stanowi, że należy mieć trzy kopie danych, na dwóch różnych typach nośników, w trzech różnych geograficznie lokalizacjach poza siedzibą w celu odzyskiwania po awarii.
nieskomplikowane wdrażanie
omawiając temat nieskomplikowanych wdrożeń, należy je dokładnie odwzorować do konkretnych wymagań biznesowych. Następujące cechy będą korzystne dla naszych ram operacyjnych, niezależnie od branży pionowej:
- skromne wymagania szkoleniowe
- Zwiększona produktywność
- wydłużony cykl życia
- efektywność kosztowa
- efektywność operacyjna
- szybkie wdrożenie
- zmniejszone ryzyko bezpieczeństwa
- prosta integracja
- Uproszczone zarządzanie
cechy te definiują wiele podstawowych aspektów potrzebnych do zapewnienia wysoce niezawodnego, odpornego na awarie rozwiązania klastrowego. Wysoka dostępność powinna być zaprojektowana z myślą o tych cechach. Funkcje takie jak te są kluczowymi elementami, które są wymagane przy przyjmowaniu opcji wdrażania.
cele najlepszych praktyk
projektowanie
podstawowym celem każdy cel najlepszej praktyki wysokiej dostępności to optymalne zaprojektowanie, instalacja, wdrożenie, integracja i przestrzeganie standardowej konwencji przy najniższych rozsądnych kosztach i minimalnej złożoności, przy jednoczesnym osiągnięciu wyznaczonych celów porównawczych polegających na wyeliminowaniu każdego pojedynczego punktu awarii w systemie.
dostępność
najpierw należy określić określony cel przed zaprojektowaniem systemu. Obejmuje to określenie celu punktu odzyskiwania (RPO). RPO to największa ilość przestojów, które Twoja firma jest gotowa stracić podczas poważnego przestoju. Sprzęt HA, oprogramowanie i Usługi dodatkowe powinny mieć zdefiniowany i przetestowany RPO.
wdrożenie
następnie system powinien być zbudowany z najbardziej solidnego i opłacalnego dostępnego sprzętu. Obejmuje to systemy odporne na przerwy w zasilaniu i awarie sprzętu, obejmujące wszystko, od dysków twardych, komponentów sieciowych, systemu operacyjnego i samej aplikacji obejmującej cały stos oprogramowania.
Ewaluacja& testowanie
Po zbudowaniu systemu integralny element testuje nasz docelowy system, aby upewnić się, że system przełączania awaryjnego jest gotowy do przełączania w przypadku awarii źródła. Wymaga to przygotowania naszych konfiguracji sieci, serwerów, oprogramowania do synchronicznej replikacji w czasie rzeczywistym i przełączników do przejścia od przetwarzania produkcji źródłowej do docelowego systemu, który przetwarza zmianę w dowolnym momencie. Ta metoda zastosowana w tym scenariuszu jest znana jako system” hot standby”. Dodatkowo, obejmuje to ustawienie harmonogramu testów według schematu, ponieważ system jest regularnie testowany.
replikacja
zapewnienie powtarzalnej i powtarzalnej iteracji całego stosu oprogramowania w wielu regionach jest kluczem do stałej trwałości, dostarczalności i solidności struktury aplikacji. Innym znaczącym obszarem usług jest segment sprzętu do powielania, który uzupełnia oprogramowanie i ramy monitorowania. Możliwość polegania na specjalnej metodologii duplikacji ma zasadnicze znaczenie dla zagwarantowania w pełni odpornego na awarie i niezawodnego systemu.
monitorowanie& śledzenie
wreszcie bieżące monitorowanie, ocena i obserwacja powinny być ściśle regulowane, aby zapewnić osiągnięcie celów w zakresie wydajności. Wszelkie odchylenia od normy powinny zostać zbadane i ocenione w celu określenia wpływu wariancji na system. Po ustaleniu tej dyspozycji należy przeprowadzić analizę następczą, czy należy wprowadzić jakiekolwiek zmiany w celu uwzględnienia dostosowania lub zmian niezbędnych do przywrócenia systemu do nowego stabilnego stanu.
podsumowanie
głównym celem systemu wysokiej dostępności jest zapobieganie i eliminacja wszystkich pojedynczych punktów awarii. Powinno to obejmować wiele przetestowanych i wdrożonych planów działania, gotowych do samodzielnej i natychmiastowej reakcji na wszelkie zakłócenia, zakłócenia i awarie usług. Dotyczy to nieprawidłowości w zakresie sprzętu, oprogramowania i aplikacji. Wyeliminowanie przestojów można osiągnąć dzięki złożonemu, wykwalifikowanemu planowaniu i wdrożeniu systemu. Niezbędne jest krytyczne oko, aby wyobrazić sobie i przygotować się na każde zdarzenie lub katastrofę, które mogłyby utrudnić główny cel deklarowanego i oczekiwanego celu uptime. Dobrze wdrożony system wysokiej dostępności może osiągnąć ten cel przy odpowiednim planowaniu i projektowaniu, zmniejszając lub eliminując zakłócenia i maksymalizując dostępność.
staranne planowanie + niezawodne metody wdrażania + stabilne Platformy programowe + Solidna Infrastruktura sprzętowa + płynne operacje techniczne + rozważne cele zarządzania + spójne bezpieczeństwo danych + przewidywalne Systemy nadmiarowe + solidne rozwiązania do tworzenia kopii zapasowych + Wiele opcji odzyskiwania = 100% Czasu Pracy
nasze utalentowane zespoły wsparcia są obsadzone doświadczonymi technikami Linuksa i administratorami systemów, którzy mają dogłębną wiedzę na temat wielu technologii hostingowych, zwłaszcza tych omówionych w tym artykule.
Jeśli jesteś w pełni zarządzanym serwerem VPS, chmurą dedykowaną, prywatną chmurą VMWare, prywatnym serwerem nadrzędnym lub właścicielem serwera dedykowanego i nie czujesz się komfortowo wykonując którekolwiek z opisanych kroków, możemy skontaktować się z nami za pośrednictwem telefonu @800.580.4985, czatu lub zgłoszenia pomocy technicznej, aby pomóc ci w tym procesie.