Alta disponibilidad: qué es y cómo se consigue

Aunque es imposible descartar por completo la posibilidad de que se produzca un tiempo de inactividad, los equipos de TI pueden aplicar estrategias para minimizar el riesgo de interrupciones de la actividad empresarial debidas a la indisponibilidad del sistema. Una de las formas más eficaces de gestionar el riesgo de tiempo de inactividad es la alta disponibilidad (HA), que facilita el máximo tiempo de actividad potencial. 

¿Qué es la alta disponibilidad?

Es un concepto que implica la eliminación de puntos únicos de fallo para asegurarse de que si uno de los elementos, como un servidor, falla, el servicio sigue estando disponible. Alta disponibilidad suele ser sinónimo de sistemas de alta disponibilidad, entornos de alta disponibilidad o servidores de alta disponibilidad. La alta disponibilidad permite que su infraestructura informática siga funcionando aunque falle alguno de sus componentes.  

La alta disponibilidad es de gran importancia para los sistemas de misión crítica, en los que una interrupción del servicio puede provocar un impacto adverso en el negocio, con los consiguientes gastos adicionales o pérdidas financieras. Aunque la alta disponibilidad no elimina la amenaza de interrupción del servicio, garantiza que el equipo informático ha tomado todas las medidas necesarias para asegurar la continuidad del negocio. 

En pocas palabras, la alta disponibilidad implica que no hay un único punto de fallo. Todo, desde el equilibrador de carga, el cortafuegos y el enrutador, hasta el proxy inverso y los sistemas de monitorización, es completamente redundante tanto a nivel de red como de aplicación, lo que garantiza el máximo nivel de disponibilidad del servicio. 

¿Por qué es importante la alta disponibilidad? 

Independientemente de su causa, el tiempo de inactividad puede tener importantes efectos adversos en la salud de su empresa. Por ello, los equipos de TI se esfuerzan constantemente por tomar las medidas adecuadas para minimizar el tiempo de inactividad y garantizar la disponibilidad del sistema en todo momento. El impacto del tiempo de inactividad puede manifestarse de muchas formas distintas, como pérdida de productividad, pérdida de oportunidades de negocio, pérdida de datos y daños a la imagen de marca.

Como tal, los costos asociados al tiempo de inactividad pueden ir desde un ligero desequilibrio presupuestario hasta una importante mella en su bolsillo. Sin embargo, evitar el tiempo de inactividad es sólo una de las muchas razones por las que necesita una alta disponibilidad. Algunas de las otras razones son: 

Cumplimiento de los SLA : mantener el tiempo de actividad es un requisito primordial para que los MSP garanticen la prestación de servicios de alta calidad a sus clientes. Los sistemas de alta disponibilidad ayudan a los MSP a cumplir sus SLA el 100% del tiempo y a garantizar que la red de sus clientes no se caiga.

Fomento de las relaciones con los clientes - Las interrupciones frecuentes del negocio debidas a tiempos de inactividad pueden provocar la insatisfacción de los clientes. Los entornos de alta disponibilidad reducen al mínimo las posibilidades de posibles tiempos de inactividad y pueden ayudar a los MSP a establecer relaciones duraderas con los clientes manteniéndolos satisfechos. 

Mantener la reputación de la marca : la disponibilidad del sistema es un indicador importante de la calidad de su prestación de servicios. Como tal, los MSP pueden aprovechar los entornos de alta disponibilidad para mantener el tiempo de actividad del sistema y construir una sólida reputación de marca en el mercado. 

Garantizar la seguridad de los datos : al minimizar los tiempos de inactividad del sistema gracias a la alta disponibilidad, se puede reducir considerablemente el riesgo de que se produzca un acceso ilícito a los datos críticos de la empresa o de que estos sean robados. 

¿Cómo se mide la alta disponibilidad?

La alta disponibilidad suele medirse como un porcentaje del tiempo de actividad en un año determinado. En este caso, el 100% se utiliza para indicar un entorno de servicio que experimenta un tiempo de inactividad cero o ninguna interrupción. Los porcentajes del orden de magnitud suelen denotarse con el número de nueves o "clase de nueves" en dígitos. 

¿Cuál es la norma del sector en materia de alta disponibilidad? 

Según la norma del sector, la mayoría de los servicios con sistemas complejos ofrecen entre un 99% y un 100% de tiempo de actividad. La mayoría de los proveedores de nube ofrecen algún tipo de SLA en torno a la disponibilidad. Por ejemplo, los líderes de la computación en nube, como Microsoft, Google y Amazon, tienen sus SLA de nube fijados en el 99,9% o "tres nueves". Esto suele considerarse un tiempo de actividad del sistema bastante fiable.  

Sin embargo, la norma típica del sector para la alta disponibilidad suele considerarse "cuatro nueves", es decir, 99.99% o más. Normalmente, una disponibilidad de cuatro nueves equivale a 52 minutos de inactividad al año. 

Medidas de disponibilidad y tiempos de inactividad correspondientes 

Aunque tres nueves o el 99.9% suele considerarse un tiempo de actividad decente, se traduce en 8 horas y 45 minutos de inactividad al año. Echemos un vistazo a la representación tabular de cómo los distintos niveles de disponibilidad equivalen a horas de tiempo de inactividad. 

DisponibilidadClase de NueveTiempo de inactividad al año
99% Dos nueves3,65 días
99.9% Tres nueves8,77 horas 
99.99% Cuatro nueves52,60 minutos
99.999%  Cinco nueves5,26 minutos 

Aunque “cuatro nueves” se considera una alta disponibilidad del servicio, aún significa que experimentarás 52 minutos de inactividad al año. El costo del tiempo de inactividad de TI es de $5,600 por minuto. Considerando esto, con los “tres nueves” de disponibilidad que ofrecen la mayoría de los principales proveedores de la nube, aún perderás una gran cantidad de dinero debido a aproximadamente 8.77 horas de interrupción del servicio cada año. 

¿Cómo se consigue generalmente la alta disponibilidad?

Averigüemos qué hay que hacer para conseguir una alta disponibilidad. 

Implantar varios servidores de aplicaciones 

Los servidores sobrecargados tienden a ralentizarse o a bloquearse. Debe implantar aplicaciones en varios servidores diferentes para garantizar que sus aplicaciones sigan funcionando con eficacia y se reduzca el tiempo de inactividad. 

Escala hacia arriba y hacia abajo 

Otra forma de lograr una alta disponibilidad es escalar los servidores hacia arriba o hacia abajo en función de la carga y la disponibilidad de la aplicación. Puede conseguir un escalado vertical y horizontal fuera de la aplicación a nivel de servidor. 

Mantener un sistema automatizado de copias de seguridad periódicas en línea 

La automatización de las copias de seguridad garantiza la seguridad de los datos críticos de tu empresa en caso de que te olvides de guardar manualmente varias versiones de tus archivos. Se trata de una buena práctica que resulta muy útil en diversas circunstancias, como el sabotaje interno, los desastres naturales y la corrupción de archivos. 

5 mejores prácticas para mantener la alta disponibilidad

He aquí una lista de algunas de las mejores prácticas para mantener una alta disponibilidad en su entorno informático:

1. Conseguir redundancia geográfica 

Su única línea de defensa contra el fallo del servicio, cuando se enfrenta a eventos catastróficos como desastres naturales, es la redundancia geográfica. Similar a la geo-replicación, la geo-redundancia se lleva a cabo desplegando múltiples servidores en sitios geográficamente distintos. La idea es elegir ubicaciones que estén distribuidas globalmente y no muy localizadas en una región concreta. Hay que ejecutar pilas de aplicaciones independientes en cada una de estas ubicaciones lejanas para garantizar que, aunque falle una, la otra siga funcionando sin problemas. 

2. Aplicar la redundancia estratégica 

Las cargas de trabajo de TI de misión crítica requieren redundancia más que las cargas de trabajo de TI operativas normales a las que no se accede con tanta frecuencia. Por ello, en lugar de ejecutar la redundancia para cada carga de trabajo, debe centrarse en introducir la redundancia estratégicamente para los flujos de trabajo más críticos con el fin de alcanzar el ROI objetivo. 

3. Aprovechar las soluciones de conmutación por error 

Una arquitectura de alta disponibilidad suele estar compuesta por varios servidores con un acoplamiento flexible que cuentan con capacidades de conmutación por error. La conmutación por error se define como un modo operativo de respaldo en el que las funciones de un componente del sistema primario son asumidas automáticamente por un sistema secundario cuando el primero queda fuera de servicio debido a un fallo imprevisto o a un tiempo de inactividad planificado. Puede gestionar sus soluciones de conmutación por error con la ayuda del DNS en un entorno bien controlado. 

4. Equilibrar la carga de la red 

Aumente la disponibilidad de su aplicación web crítica implementando el equilibrio de carga. Si se detecta un fallo en un servidor, las instancias se sustituyen sin problemas y el tráfico se redirige automáticamente a los servidores funcionales. El equilibrio de carga facilita tanto la alta disponibilidad como la escalabilidad incremental. Realizado con un modelo "push" o "pull", el equilibrio de carga de red introduce altos niveles de tolerancia a fallos en las aplicaciones de servicio. 

5. Establezca la sincronización de datos para cumplir su RPO

El RPO es la cantidad de datos que pueden perderse en el periodo más relevante para una empresa, antes de que se produzca un daño significativo. Si pretende alcanzar un objetivo de máxima disponibilidad, asegúrese de establecer su RPO en un valor inferior o igual a 60 segundos. Debe configurar las soluciones de origen y destino de forma que sus datos nunca estén desincronizados más de 60 segundos. De este modo, no perderá más de 60 segundos de datos en caso de que falle su fuente primaria. 

Comparación de la alta disponibilidad con sistemas similares

A menudo, la alta disponibilidad se confunde con otros conceptos y no se entienden bien las diferencias. Para ayudarle a comprender mejor estas diferencias, aquí tiene una comparación de la alta disponibilidad frente a los conceptos con los que a menudo se confunde.

Alta disponibilidad frente a tolerancia a fallos 

Aunque tanto la alta disponibilidad como la tolerancia a fallos tienen el mismo objetivo, que es garantizar la continuidad del servicio de su aplicación sin ninguna degradación del sistema, ambas tienen ciertos atributos únicos que las distinguen entre sí.

Mientras que los entornos de alta disponibilidad aspiran a un tiempo de actividad del sistema del 99,99% o superior, la tolerancia a fallos se centra en lograr un tiempo de inactividad cero absoluto. Con un diseño más complejo y una mayor redundancia, la tolerancia a fallos puede describirse como una versión mejorada de la alta disponibilidad. Sin embargo, la tolerancia a fallos implica costos más elevados que la alta disponibilidad. 

Alta disponibilidad frente a redundancia 

Como se ha mencionado anteriormente, la alta disponibilidad es un nivel de disponibilidad del servicio que viene con una probabilidad mínima de tiempo de inactividad. El objetivo principal de la alta disponibilidad es garantizar el tiempo de actividad del sistema incluso en caso de fallo. 

Por otro lado, la redundancia consiste en el uso de software o hardware adicional que sirve de respaldo en caso de que el software o hardware principal falle. Esto se puede lograr de forma automatizada mediante alta disponibilidad, equilibrio de carga, conmutación por error o clústeres de carga. 

Alta disponibilidad frente a recuperación ante desastres

La alta disponibilidad es un concepto mediante el cual se eliminan los puntos únicos de fallo para garantizar una interrupción mínima del servicio. Por otro lado,la recuperación ante desastres es el proceso de restablecer el funcionamiento de un sistema que ha dejado de funcionar tras una interrupción del servicio. Por lo tanto, podemos decir que, cuando falla la alta disponibilidad, entra en acción la recuperación ante desastres.

La alta disponibilidad de los sistemas informáticos requiere supervisión y gestión 

Una de las estrategias clave para mantener una alta disponibilidad es la supervisión y gestión constantes de los servidores críticos de la empresa. Debe implementar una solución eficiente de gestión unificada de endpoints, comoKaseya VSA,que cuente con potentes funciones tales como: 

  • Supervisión y alerta: para solucionar rápidamente los problemas 
  • Corrección automatizada mediante procedimientos de agente (scripts) 
  • Automatización del mantenimiento rutinario de los servidores y aplicación de parches para mantener los sistemas en funcionamiento
  • Control remoto/gestión remota de endpoints para resolver problemas 

Descubre cómo Kaseya VSA puede ayudarte a lograr una alta disponibilidad.¡Solicita una demostraciónahora!

Una plataforma completa para la gestión de TI y seguridad

Kaseya 365 es la solución integral para gestionar, proteger y automatizar las TI. Gracias a sus integraciones fluidas en todas las funciones críticas de TI, simplifica las operaciones, refuerza la seguridad y aumenta la eficiencia.

Una plataforma. Todo en uno para TI.

Los clientes de Kaseya 365 disfrutan de las ventajas de las mejores herramientas de gestión de TI y seguridad en una única solución.

Descubre Kaseya 365

Su éxito es nuestra prioridad número 1

Partner First es un compromiso de condiciones flexibles, riesgo compartido y soporte dedicado a su empresa.

Descubre Partner First Pledge

Informe Global de Referencia para MSP 2025

El Informe Global de Referencia para MSP 2025 de Kaseya es su recurso de referencia para comprender hacia dónde se dirige la industria.

Descargar ahora
Centro de datos de colocación

Colocación: Las ventajas de los centros de datos rentables

Ahora que las empresas están planificando y elaborando sus presupuestos para sus necesidades de tecnología de la información (TI) de 2021, deben decidir si construir o ampliarSeguir leyendo

Leer la entrada del blog
Continuidad de las actividades

Aspectos básicos de la continuidad de las actividades: Gestión, planificación y pruebas

En nuestras entradas anteriores del blog, hablamos en profundidad sobre el análisis del impacto en el negocio, la continuidad del negocio y la recuperación ante desastres, y sobre cómoSeguir leyendo

Leer la entrada del blog
Bloque de madera que dice Business Continuity

¿Qué es el BCDR? Explicación de la continuidad del negocio y la recuperación ante desastres

Dado que las organizaciones están llevando a cabo transformaciones digitales y cada vez son más los empleados que trabajan a distancia, la ciberseguridad es una prioridad fundamental para casi todos los departamentos de TISeguir leyendo

Leer la entrada del blog