Tempo de Leitura: 8 minutos
a Alta disponibilidade é a descrição de um sistema projetado para ser tolerante a falhas, altamente confiável, que opera continuamente, sem intervenção, ou ter um ponto único de falha. Estes sistemas são altamente procurados para aumentar a disponibilidade e o tempo de funcionamento necessários para manter uma infra-estrutura funcionando sem problemas. As seguintes características definem um sistema de alta disponibilidade.
- de Alta Disponibilidade do Cluster
- tolerância a Falhas
- confiabilidade e confiabilidade
- manipulação de erros orquestrada
- Escalabilidade
- disponibilidade & 5 9’s Uptime
- Heartbeat
- Arquitetura de Cluster
- Engenharia de Disponibilidade
- implantação descomplicada
- as Melhores Práticas Objetivos
- Design
- disponibilidade
- implantação
- Avaliação & Teste
- replicação
- monitorização & seguimento
- conclusão
de Alta Disponibilidade do Cluster
Alta-disponibilidade do servidor de clusters (aka HA Clusters) é definido como um grupo de servidores que suportam aplicativos ou serviços que podem ser utilizados de forma confiável, com um mínimo de tempo de inatividade. Estes clusters de servidores funcionam usando um tipo de software especializado que utiliza redundância para alcançar níveis críticos de missão do uptime five9. Actualmente, cerca de 60% das empresas necessitam de cinco ou mais para prestar serviços vitais às suas empresas.
software de alta disponibilidade capitaliza no software redundante instalado em vários sistemas, agrupando ou agrupando juntos um grupo de servidores com foco em um objetivo comum no caso de componentes falharem. Sem esta forma de agrupamento, se o aplicativo ou site falhar, o serviço não estará disponível até que os servidores sejam reparados. HA clustering aborda estas situações detectando as falhas e reiniciando rapidamente ou substituindo o servidor ou serviço ou servidor com um novo processo que não requer intervenção humana. Isto é definido como um modelo” failover”.
A ilustração abaixo demonstra um simples cluster de alta disponibilidade de dois nós.
clusters de Alta Disponibilidade são muitas vezes utilizados para missão crítica de bancos de dados, compartilhamento de dados, aplicativos e sites de e-commerce distribuídos através de uma rede. Implementações de alta disponibilidade constroem redundância dentro de um cluster para remover qualquer um único ponto de falha, incluindo através de múltiplas conexões de rede e armazenamento de dados, que podem ser conectados redundantemente através de redes de áreas de armazenamento geograficamente diversificadas.
servidores agrupados de alta disponibilidade geralmente usam uma metodologia de replicação chamada batimentos cardíacos que é usada para monitorar o estado e a saúde de cada nó dentro do cluster através de uma conexão de rede privada. Uma circunstância crítica que todo o software de agrupamento deve ser capaz de abordar é chamado split-brain, que ocorre quando todas as ligações internas privadas vão para baixo simultaneamente, mas os nós no cluster continuam a correr. Se isso ocorrer, cada nó dentro do cluster pode determinar incorretamente que todos os outros nós foram para baixo e tentar iniciar serviços que outros nós ainda podem estar em execução. Esta condição de instâncias duplicadas executando serviços semelhantes, o que poderia causar corrupção de dados no sistema.
Uma versão típica de alta disponibilidade software fornece atributos que incluem hardware e software de redundância. Estas características incluem::
- a detecção e descoberta automáticas de componentes de hardware e software.atribuição Autónoma de papéis activos e contingentes a novos elementos.detecção de serviços de software falhados, componentes de hardware e outras construções do sistema.monitorização e notificação dos componentes redundantes e quando é necessário activá-los.
- Capacidade de escalar o aglomerado para acomodar as mudanças necessárias sem intervenção externa.
tolerância a Falhas
Tolerância a falhas é definida como a capacidade de um sistema de infra-estrutura para prever e de resistir a erros e fornecer uma resposta automática para esses problemas se encontrou. A qualidade primária destes sistemas são os factores avançados de concepção, que podem ser invocados caso ocorra um problema. Ser capaz de configurar uma infra-estrutura que visualiza todas as soluções possíveis é uma tarefa considerável que envolve o conhecimento e a experiência para combater as múltiplas preocupações antes que elas ocorram. Os arquitectos de sistemas que concebem esses quadros terão as metodologias que prevêem os meios para atenuar estes problemas com antecedência, e a capacidade de implementar esses quadros. as seguintes metodologias de redundância estão disponíveis e devem ser revistas durante as fases iniciais de concepção e implementação.
- n + 1 Modelo-este conceito infere a soma do equipamento necessário (que nos referiremos como “N”) para manter toda a estrutura em funcionamento, com um componente adicional independente de backup para cada um dos componentes ” N ” Em caso de falha.modelo
- n + 2-semelhante ao modelo N + 1, mas com uma camada adicional de protecção se dois componentes falharem.
- 2N Model – esta modalidade tem um backup duplo redundante para cada elemento para garantir que o framework do sistema é totalmente funcional.
- 2n + 1 Modelo-novamente, este modelo é semelhante ao modelo 2N, mas com um componente suplementar para adicionar uma camada terciária de proteção à estrutura do sistema.
À medida que os modelos progridem de Nx para 2Nx, o factor de custo também aumenta exponencialmente como para sistemas verdadeiramente redundantes que requerem tempo de funcionamento. Estas modalidades são fundamentais para a estabilidade e a disponibilidade.
confiabilidade e confiabilidade
um dos inquilinos centrais de um sistema de alta disponibilidade é o tempo de funcionamento. O Uptime é de importância primordial, especialmente se o propósito de um sistema é fornecer um serviço essencial como os sistemas 911 que respondem a situações emergentes. No negócio, ter um sistema de alta disponibilidade é necessário para garantir que um serviço vital permanece on-line. Um exemplo seria um ISP ou outro serviço que não pode tolerar uma perda de função. Esses sistemas devem ser projetados com alta disponibilidade e tolerância a falhas para garantir a confiabilidade e Disponibilidade ao mesmo tempo em que minimizam o tempo de inatividade.
manipulação de erros orquestrada
Se ocorrer um erro, o sistema irá adaptar-se e compensar a questão, permanecendo em funcionamento e online. Construir este tipo de sistema requer Previsão e planejamento para o inesperado. Ser capaz de prever os problemas com antecedência, e planejar para sua resolução é uma das principais qualidades de um sistema de alta disponibilidade.
Escalabilidade
o sistema Deve encontrar um problema, como um pico de tráfego ou um aumento no uso de recursos, a capacidade do sistema para escala para atender a essas necessidades deve ser automática e imediata. A construção de recursos como estes no sistema irá fornecer a capacidade do sistema para responder rapidamente a qualquer mudança na funcionalidade sistémica dos processos de arquiteturas.
disponibilidade & 5 9’s Uptime
5 9’s is the industry standard of measure of uptime. Esta medição pode ser relacionada com o próprio sistema, os processos do sistema dentro de uma estrutura, ou o programa operando dentro de uma infra-estrutura. Esta estimativa é muitas vezes relacionada com o programa que está sendo entregue aos clientes na forma ou um site ou aplicação web. A Disponibilidade dos sistemas pode ser medida como a percentagem de tempo em que os sistemas estão disponíveis usando esta equação: x = (n – y) * 100/n. Esta fórmula indica que, onde “n” é a quantidade total de minutos dentro de um mês, e “y” é a quantidade de minutos que o serviço é inacessível dentro de um mês de calendário. A tabela abaixo descreve o tempo de inatividade relacionado com a porcentagem de “9’s” representados.
Como podemos ver, quanto maior o número de “9’s”, mais uptime é fornecido. O objetivo de um sistema de alta disponibilidade é alcançar uma quantidade mínima de tempo de inatividade potencial para garantir que o sistema esteja sempre disponível para fornecer os serviços designados.
Heartbeat
um dos principais componentes de Alta Disponibilidade é chamado de Heartbeat. Heartbeat é um daemon que trabalha com um software de gerenciamento de clusters, como o Pacemaker, que é projetado especificamente para a gestão de recursos de clustering de alta disponibilidade. Suas características mais importantes são:
- nenhum número máximo específico ou fixo de nós – batimento cardíaco pode ser usado para construir grandes aglomerados, bem como os elementares.
- monitorização de Recursos: os recursos podem ser reiniciados automaticamente ou movidos para outro nó em caso de falha.
- um mecanismo de vedação necessário para remover os nós falhados do aglomerado.
- a refined policy-based resource management, resource inter-dependencies, and constraints.
- um conjunto de regras baseadas no tempo para permitir políticas diferentes, dependendo de um prazo definido.
- um grupo de scripts de recursos (para software como Apache, DB2, Oracle, PostgreSQL, etc.) inclui mais Gestão granular.
- uma interface gráfica para configurar, controlar e monitorar recursos e nós.
Arquitetura de Cluster
Engenharia de Disponibilidade
O primeiro segmento de um sistema altamente disponível é claramente projetado utilização de cluster de servidores de aplicação que são projetados com antecedência, para distribuir a carga entre o cluster inteiro, o que inclui a capacidade de activação pós-falha para um secundário e, possivelmente, um terceiro sistema.
A segunda divisão inclui a necessidade de escalabilidade de banco de dados. Isto implica a exigência de escala, horizontal ou verticalmente, usando replicação mestre múltiplo, e um balancer de carga para melhorar a estabilidade e o tempo de funcionamento da base de dados.
A terceira característica é a diversidade geográfica. Isto garante que, caso um desastre natural atinja uma única localidade, que o fracasso não irá impedir a capacidade de prestar o serviço.
O quarto e possivelmente mais importante componente é fornecer uma replicação de backup e metodologia de recuperação de desastres. A capacidade de garantir um backup funcional garante que nossos dados são seguros. Usando a última estratégia de backup (3-2-3) afirma que você deve ter três cópias de seus dados, em dois tipos de mídia diferentes, em três locais exteriores geograficamente diversificados para a recuperação de desastres.
implantação descomplicada
ao discutir o tema de desdobramentos não complicados, eles devem ser especificamente mapeados para os seus requisitos de Negócio específicos. As seguintes características irão beneficiar o nosso quadro operacional, independentemente da indústria vertical:
- Modestos Requisitos de Treinamento
- Aumento da Produtividade
- Ciclo de Vida Estendido
- o Custo-Efetividade
- a Eficiência Operacional
- Execução Rápida
- Redução de Riscos de Segurança
- Integração Directa
- Gerenciamento Simplificado
Estas características definem muitos dos principais aspectos necessários para garantir um ambiente altamente confiável e tolerante a falhas, solução de cluster. Alta disponibilidade, no seu núcleo, deve ser projetado com estas características em mente. Capacidades como estas são emaranhados-chave que são ativos necessários ao adotar opções de implantação.
as Melhores Práticas Objetivos
Design
O objetivo principal de qualquer alta disponibilidade de melhor prática objetivo é o projeto ideal, instalação, implantação, integração, e de adesão à convenção, com o menor custo razoável e o mínimo de complexidade e alcançar o indicado, contado metas de eliminação de cada ponto único de falha no sistema.
disponibilidade
primeiro, deve ser definido um objectivo determinado antes da concepção do sistema. Isto inclui estabelecer qual é o objetivo do ponto de recuperação (RPD). O RPO é a maior quantidade de tempo de inatividade que sua empresa está disposta a perder durante uma grande interrupção. Os Serviços de hardware, software e acessórios da HA devem ter um RPO definido e testado.
implantação
em seguida, o sistema deve ser construído com o hardware mais robusto e rentável disponível. Isso inclui sistemas que são resilientes a falhas de energia e hardware, abrangendo tudo a partir de discos rígidos, componentes de rede, o sistema operacional, e a própria aplicação abrangendo toda a pilha de software.
Avaliação & Teste
uma Vez que o sistema é construído, integrante fundamental é a testar nossos sistema de destino para garantir que o sistema de failover está pronto para mudar, se a fonte de falha. Isso requer a preparação de configurações de rede, servidores, software de replicação sincronizada em tempo real, e switches para a transição do processamento de produção de fonte para o sistema alvo que processa a transição em um momento de aviso. Este método usado neste cenário é conhecido como um sistema” hot standby”. Além disso, isso inclui a criação de um cronograma de testes regimentado como o sistema é reanalisado regularmente.
replicação
garantir uma iteração reprodutível e repetível de toda a pilha de software em várias regiões é fundamental para a durabilidade constante, a capacidade de entrega e a solidez da estrutura de Aplicação. A outra área de serviço significativa é o segmento de hardware replicável, que complementa o software e frameworks de monitoramento. Poder confiar numa metodologia de duplicação específica é fundamental para garantir um sistema totalmente tolerante a falhas e fiável.
monitorização & seguimento
por último, a monitorização, a avaliação e a observação em curso devem ser rigorosamente regulamentadas para garantir o cumprimento dos objectivos de desempenho. Qualquer desvio em relação à norma deve ser investigado e avaliado para determinar o impacto que a variância tem no sistema. Uma vez estabelecida essa disposição, deve ser realizada uma análise de acompanhamento para determinar se quaisquer alterações devem ser introduzidas de modo a incluir o ajustamento ou alterações necessárias para trazer o sistema para um novo estado estável.
conclusão
o principal objetivo de um sistema de alta disponibilidade é prevenir e eliminar todos os pontos de falha individuais. Isto deve incluir planos de ação múltiplos que foram testados e em vigor, prontos para reagir de forma independente e imediata a qualquer e todas as perturbações de serviço, interrupções e falhas. Isso inclui irregularidades de hardware, software e aplicações. A erradicação do tempo de inatividade pode ser realizada com o planejamento composto, qualificado e implementação de um sistema. Um olho crítico é necessário para visualizar e se preparar para qualquer ocorrência ou desastre, o que poderia impedir o objetivo principal do estabelecido e esperado objetivo de uptime. Um sistema de Alta Disponibilidade bem instituído pode alcançar este objetivo com planejamento e design adequados, reduzindo ou eliminando interrupções e maximizando a disponibilidade.
um Planejamento Cuidadoso + Confiável Metodologias de Implementação + Estável Plataformas de Software + Hardware de Som Infra-estrutura + Suave Operações Técnicas + Gestão Prudente Metas + Consistente de Dados de Segurança + Previsível Sistemas de Redundância + Robustas Soluções de Backup + Várias Opções de Recuperação = 100% de Uptime
as Nossas talentosas Equipes de Apoio contam com experiência em Linux técnicos e administradores de sistemas que têm um conhecimento profundo de vários web hosting tecnologias, especialmente aqueles discutidos neste artigo. se você é um servidor VPS totalmente gerenciado, Cloud Dedicated, VMware Private Cloud, Private Parent server ou um proprietário de servidor dedicado e você está desconfortável com a realização de qualquer um dos passos delineados, podemos ser contactados via telefone @800.580.4985, um chat ou bilhete de suporte para ajudá-lo com este processo.