Sobre el Libro
Diseño de sistemas de alta disponibilidad: DFSS y técnicas clásicas de fiabilidad con ejemplos prácticos de la vida real (Designing High Availability Systems: DFSS and Classical Reliability Techniques with Practical Real Life Examples) es un libro de 480 páginas escrito por Zachary Taylor y Subramanyam Ranganathan. Fue publicado por la editorial Wiley-IEEE Press en el año 2013 en su primera edición.
Descripción del Libro
Una guía práctica, paso a paso, para el diseño de sistemas de primera clase y de alta disponibilidad utilizando técnicas de fiabilidad clásicas y DFSS.
Tanto si se trata de diseñar sistemas de telecomunicaciones, aeroespaciales, de automoción, médicos, financieros o de seguridad pública, todos los ingenieros aspiran a conseguir la máxima fiabilidad y disponibilidad en los sistemas que diseñan. Sin embargo, entre el sueño de un rendimiento de primera clase y la realidad se interpone la sombra de las complejidades que pueden obstaculizar incluso el proceso de diseño más riguroso. Aunque existe una gran variedad de sólidas herramientas de ingeniería predictiva, no ha habido una guía única para entenderlas y utilizarlas… hasta ahora.
Este libro, que ofrece un enfoque basado en casos para el diseño, la predicción y la implantación de sistemas de alta disponibilidad de primera clase desde el principio, reúne las mejores técnicas de fiabilidad clásicas y de DFSS. Aunque se centra en los aspectos técnicos, esta guía tiene en cuenta las limitaciones del negocio y del mercado que exigen que los sistemas se diseñen bien a la primera.
Escrito en un inglés sencillo y siguiendo un formato de «libro de cocina» paso a paso, Designing High Availability Systems:
- Muestra cómo integrar una serie de herramientas de diseño/análisis, incluyendo Six Sigma, Análisis de Fallos y Análisis de Fiabilidad.
- Presenta muchos ejemplos de la vida real y estudios de casos que describen los métodos de diseño predictivo, las compensaciones, las prioridades de riesgo, los escenarios «what-if», y mucho más.
- Ofrece numerosos consejos de alto impacto que puede aplicar a sus proyectos actuales de forma inmediata.
- Proporciona acceso a programas MATLAB para simular los conjuntos de problemas presentados, junto con diapositivas de PowerPoint para ayudar a esbozar el proceso de resolución de problemas.
- Designing High Availability Systems es un recurso de trabajo indispensable para ingenieros de sistemas, arquitectos de software/hardware y equipos de proyectos que trabajan en todos los sectores.
Sobre los autores
Zachary Taylor es un arquitecto de sistemas en Nokia Solutions & Networks con más de treinta años de experiencia en el diseño de sistemas de alta disponibilidad y de misión crítica en GE, Lockheed Martin y Motorola. Tiene un Máster en Ingeniería Eléctrica.
Subramanyam Ranganathan es un DFSS Master Black Belt en Nokia Solutions & Networks con más de veinte años de experiencia en la industria de la alta tecnología, incluyendo Motorola. Tiene un máster en Ingeniería Eléctrica y un MBA de la Kellogg School of Management.
Tabla de contenido
- Introducción.
- Consideraciones iniciales para el diseño de la fiabilidad.
- Un juego de dados: una introducción a la probabilidad.
- Variables aleatorias discretas.
- Variables aleatorias continuas.
- Procesos aleatorios.
- Fundamentos de modelización y fiabilidad.
- Análisis de Markov en tiempo discreto.
- Sistemas de Markov de tiempo continuo.
- Análisis de Markov: Sistemas no reparables.
- Análisis de Markov: Sistemas reparables.
- Análisis de los niveles de confianza.
- Estimación de los parámetros de fiabilidad.
- Herramientas Seis Sigma para la Ingeniería Predictiva.
- Análisis de los modos de fallo y efectos del diseño.
- Análisis de Árbol de Fallos. 17. Modelos de simulación Monte Carlo.
- Actualización de las estimaciones de fiabilidad: Caso práctico.
- Arquitecturas de gestión de fallos.
- Aplicación del DFMEA a un ejemplo de la vida real.
- Aplicación de FTA a un ejemplo de la vida real.
- Análisis de sistemas complejos de alta disponibilidad.
A continuación se muestra un extracto del libro:
Introducción
Vivimos en un mundo complejo e incierto. ¿Hace falta decir más? Sin embargo, podemos decir bastante sobre algunos aspectos de la aleatoriedad que rigen el comportamiento de los sistemas, en particular, los fallos. ¿Cómo podemos predecir los fallos? ¿Cuándo se producirán? ¿Cómo reaccionará el sistema que estamos diseñando ante los fallos inesperados? Nuestra tarea es ayudar a identificar los posibles modos de fallo, predecir la frecuencia de los fallos y el comportamiento del sistema cuando se produzcan y evitar que se produzcan en el futuro. Determinar cómo modelar los fallos y construir el modelo que represente a nuestro sistema puede ser una tarea desalentadora. Si nuestro modelo se vuelve demasiado complejo al intentar capturar una variedad de comportamientos y modos de fallo, corremos el riesgo de que el modelo sea difícil de entender, difícil de mantener. y puede que estemos modelando ciertos aspectos del sistema que sólo proporcionan una información útil mínima. Por otro lado, si nuestro modelo es demasiado simple, podemos dejar fuera comportamientos críticos del sistema que reduzcan drásticamente su eficacia. Un buen modelo debe reflejar los aspectos clave del sistema que estamos analizando cuando está restringido a ciertas condiciones La información extraída de un buen modelo puede aplicarse para hacer el diseño del sistema más robusto y fiable.
No existen soluciones fáciles para modelar la incertidumbre. Debemos hacer suposiciones simplificadoras para que las soluciones que obtengamos sean manejables. Estas suposiciones y simplificaciones deben identificarse y documentarse, ya que cualquier modelo sólo será útil para esos escenarios restringidos. Si se utiliza fuera de estas restricciones, el modelo tenderá a degradarse y nos proporcionará una información menos útil. Así las cosas, ¿qué tipo de modelo es el más adecuado para nuestro proyecto?
Cuando se diseña un sistema de alta disponibilidad, debemos analizar cuidadosamente el sistema en busca de modos de fallo críticos e intentar prevenir estos fallos incorporando características específicas de alta disponibilidad directamente en la arquitectura y el diseño del sistema.
Sin embargo, desde un punto de vista práctico, sabemos que los fallos inesperados pueden ocurrir y ocurrirán en cualquier momento a pesar de nuestras mejores intenciones. Por ello, añadimos una capa de defensa, conocida como gestión de fallos, que mitiga los impactos de un modo de fallo en la funcionalidad del sistema. Múltiples fallos y/o modos de fallo no identificados previamente pueden causar una degradación del rendimiento del sistema o un fallo completo del mismo. Es importante caracterizar estos fallos y determinar la disponibilidad global esperada del sistema durante su vida útil.
Los modelos estocásticos se utilizan para capturar y restringir la aleatoriedad inherente a todos los procesos físicos Cuanto más sepamos sobre el proceso estocástico subyacente, mejor podremos modelar ese proceso y restringir los impactos de los fallos aleatorios en el sistema que estamos analizando. Por ejemplo, si podemos suponer que ciertos componentes del sistema tienen tasas de fallo constantes, disponemos de una gran cantidad de herramientas y técnicas para ayudarnos en este análisis. Esto nos permitirá diseñar un sistema con un nivel de confianza conocido de cumplir nuestros objetivos de fiabilidad y disponibilidad. Desgraciadamente, hay dos grandes impedimentos que se interponen en nuestro camino: (1) La tasa de fallos de muchos de los componentes que integran nuestro sistema no son constantes, es decir, independientes del tiempo a lo largo de la vida del sistema construido o analizado, sino que estas tasas de fallos siguen una trayectoria más complicada a lo largo de la vida útil del sistema; y (2) las tasas exactas de fallos de los componentes -especialmente en el caso del hardware y el software nuevos- no se conocen y no pueden determinarse con exactitud hasta después de que todos los sistemas construidos y desplegados lleguen al final de su vida útil.
Entonces, ¿por dónde empezamos? ¿Qué modelo podemos utilizar para el diseño y el análisis de la alta disponibilidad? ¿Qué utilidad tendrá este modelo? ¿En qué casos no podrá predecir correctamente el comportamiento del sistema? Afortunadamente, ya se han utilizado con éxito muchas técnicas para modelar el comportamiento del sistema. En este libro cubriremos varios de los modelos más útiles y prácticos. Exploraremos las técnicas que abordarán los problemas de fiabilidad, identificaremos sus limitaciones y las suposiciones inherentes a cualquier modelo, y proporcionaremos métodos que, a pesar de los importantes obstáculos a los que nos enfrentamos, nos permitirán diseñar eficazmente sistemas que cumplan los requisitos de alta disponibilidad.
Nuestro primer paso en este mundo aparentemente imprevisible de los fallos es comprender y caracterizar la naturaleza de la propia aleatoriedad. Comenzaremos nuestro viaje repasando importantes conceptos de probabilidad. Estos conceptos son los pilares para entender la ingeniería de la fiabilidad. Una vez que tengamos un firme conocimiento de los conceptos clave de la probabilidad, estaremos preparados para explorar una amplia variedad de herramientas y modelos clásicos de fiabilidad y Diseño para Seis Sigma (DFSS) que nos permitirán diseñar y analizar sistemas de alta disponibilidad, así como predecir el comportamiento de estos sistemas.
Fin del extracto.