Надёжность систем безопасности и слаботочных систем.

Большинство сложных технических систем с длительными сроками службы являются восстанавливаемыми , т.е. возникающие в процессе эксплуатации отказы систем устраняют при ремонте. Технически исправное состояние изделий в процессе эксплуатации поддерживают проведением профилактических и восстановительных работ. При эксплуатации изделий для осуществления работ по поддержанию и восстановлению их работоспособности необходимы значительные затраты труда и материальных средств, а также и времени. Как показывает производственный опыт, эти затраты за время эксплуатации изделий обычно значительно превышают соответствующие затраты на их изготовление.

Совокупность работ по поддержанию и восстановлению работоспособности и ресурса изделий подразделяют на техническое обслуживание и ремонт, которые, в свою очередь, подразделяют на профилактические работы, осуществляемые в плановом порядке, и аварийные, проводимые по мере возникновения отказов или аварийных ситуаций.

Свойство ремонтопригодности изделий влияет на материальные затраты и длительность простоев в процессе эксплуатации. Ремонтопригодность тесно связана с безотказностью и долговечностью изделий. Так, для изделий с высоким уровнем безотказности, как правило, характерны низкие затраты труда и средств на поддержание их работоспособности.

Показатели безотказности и ремонтопригодности изделий являются составными частями комплексных показателей, таких как коэффициенты готовности К и технического использования К ти. К показателям надежности, присущим только восстанавливаемым элементам, следует отнести среднюю наработку на отказ, наработку между отказами, вероятность восстановления, среднее время восстановления, коэффициент готовности и коэффициент технического использования. Средняя наработка на отказ – наработка восстанавливаемого элемента, приходящаяся в среднем на один отказ в рассматриваемом интервале суммарной наработки или определенной продолжительности эксплуатации:

где t i – наработка элемента до i -го отказа; т – число отказов в рассматриваемом интервале суммарной наработки.

Наработка между отказами определяется объемом работы элемента от i -го отказа до (i + 1)-го отказа, где i = 1, 2, ..., т.

Среднее время восстановления одного отказа в рассматриваемом интервале суммарной наработки или определенной продолжительности эксплуатации

где t вi время восстановления i -го отказа; т – число отказов в рассматриваемом интервале суммарной наработки.

Коэффициент готовности K r представляет собой вероятность того, что изделие будет работоспособно в произвольный момент времени, кроме периодов выполнения планового технического обслуживания, когда применение изделия по назначению исключено. Этот показатель является комплексным, так как он количественно характеризует одновременно два показателя: безотказность и ремонтопригодность. В стационарном (установившемся) режиме эксплуатации и при любом виде закона распределения времени работы между отказами и времени восстановления коэффициент готовности определяют по формуле

(2.19)

где Т o – средняя наработка на отказ; Т в – среднее время восстановления одного отказа.

Таким образом, анализ формулы (2.19) показывает, что надежность изделия является функцией не только безотказности, но и ремонтопригодности. Это означает, что низкая надежность может быть несколько компенсирована улучшением ремонтопригодности. Чем выше интенсивность восстановления, тем выше готовность изделия. Если время простоя велико, то готовность будет низкой.

Другой важной характеристикой ремонтопригодности является коэффициент технического использования К ти, который представляет собой отношение наработки изделия в единицах времени за некоторый период эксплуатации к сумме этой наработки и времени всех простоев, обусловленных устранением отказов, техническим обслуживанием и ремонтами за этот период. Коэффициент технического использования представляет собой вероятность того, что изделие будет работать в надлежащем режиме за время Т. Таким образом, К ти определяется двумя основными факторами – надежностью и ремонтопригодностью.

Коэффициент технического использования характеризует долю времени нахождения элемента в работоспособном состоянии относительно рассматриваемой продолжительности эксплуатации.

Период эксплуатации, для которого определяется коэффициент технического использования, должен содержать все виды технического обслуживания и ремонтов. Коэффициент технического использования учитывает затраты времени на плановые и неплановые ремонты, а также установленные регламенты и определяется по формуле

(2.20)

где t н суммарная наработка изделия в рассматриваемый промежуток времени; t в, t p и t o соответственно суммарное время, затраченное на восстановление, ремонт и техническое обслуживание изделия за тот же период времени.

Пример 2.4

Определить коэффициент готовности системы, если известно, что среднее время восстановления одного отказа равно T в = 5 ч, а среднее значение наработки на отказ составляет T o = 500 ч.

Решение

Для определения коэффициента готовности воспользуемся формулой (2.19):

Пример 2.5

Определить коэффициент технического использования машины, если известно, что машину эксплуатируют в течение года (7", = 8760 ч). За этот период эксплуатации машины суммарное время восстановления отказов составило t в = 40 ч. Время проведения регламента – t o = 20 ч. Суммарное время, затраченное на ремонтные работы за период эксплуатации, – 15 сут, т.е. t p = 15 24 = 360 ч.

Решение

Коэффициент технического использования вычислим по формуле (2.20), но сначала определим суммарное время наработки машины:

Ответ: К т = 0,952.

Пример 2.6

При эксплуатации сложной технической системы получены статистические данные, которые приведены в табл. 2.4. Определить коэффициент готовности системы.

Таблица 2.4

Статистические данные, полученные при эксплуатации сложной технической системы

Восстановления отказа t в,i

Время суммарного восстановления т i t в,i

Наработка на отказ Среднее время восстановления

По формуле (2.19) с использованием вычисленных значений Т о и Т в находим коэффициент готовности системы:

Для объектов и устройств разного назначения применяются различные показатели надежности . В настоящее время можно выделить четыре группы объектов, различающиеся показателями и методами оценки надежности :

  • неремонтируемые объекты, применяемые до первого отказа;
  • ремонтируемые объекты, восстановление которых в процессе применения невозможно (невосстанавливаемые объекты);
  • ремонтируемые, восстанавливаемые в процессе применения объекты, для которых недопустимы перерывы в работе;
  • ремонтируемые, восстанавливаемые в процессе применения объекты, для которых допустимы кратковременные перерывы в работе.
  • Математические модели расчета показателей надежности восстанавливаемых и невосстанавливаемых систем S-, Р-, С-, Ζ-, X-, W-типов представлены в гл. 5.
1

Рассматриваются системы обработки данных с двумя узлами, упрощенная модель надежности дублированной системы на базе модели восстанавливаемых элементов и усовершенствованная модель системы с основным и резервным узлом на базе модели элементов с тремя состояниями с учетом конечного времени активации узлов и различной интенсивности отказов основного и резервного узлов. Также приводятся аналитические формулы для расчета коэффициента готовности системы обработки данных с основным и резервным узлами, и примеры расчета для различных случаев.

система обработки данных

восстанавливаемый элемент

коэффициент готовности

цепь Маркова с непрерывным временем

1. Черкесов Г.Н. Надежность аппаратно-програм­мных комплексов. СПб.: Питер, 2005.

2. Половко А.М., Гуров С.В. Основы теории надежности. 2-е изд. СПб.: БХВ-Петербург, 2006.

3. Martin L. Shooman. Reliability of computer systems and networks. John Wiley & Sons Inc., 2002.

4. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности двухуровневых магистральных сетей // Вестник Уфимского государственного авиационного технического университета. 2014. Т. 18. № 2 (63). С. 197-207.

5. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности локальных компьютерных сетей // Вестник Уфимского государственного авиационного технического университета. 2013. Т. 17. № 5 (58). С. 140-149.

6. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности избыточных дисковых массивов // Вестник Уфимского государственного авиационного технического университета. 2013. Т. 17. № 2 (55). С. 163-170.

7. Рахман П.А., Каяшев А.И., Шарипов М.И. Марковская цепь гибели и размножения в моделях надежности технических систем // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 140-154.

8. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивой пограничной маршрутизации с двумя интернет-провайдерами // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 131-139.

9. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивых систем хранения данных // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 155-166.

10. Рахман П.А., Шарипов М.И. Модель надежности двухузлового кластера приложений высокой готовности в системах управления предприятием // Экономика и менеджмент систем управления, 2015. № 3 (17). С. 85-102.

Введение

В настоящее время наблюдается бурное развитие информационных технологий и их внедрение в самые различные сферы деятельности человека. С информацией человек имеет дело ежедневно - создает, хранит и обрабатывает, передает ее, используя персональные компьютеры и мобильные устройства. На предприятиях используются специализированные системы хранения и обработки данных, на базе которых функционируют информационные системы, обеспечивающие те или иные бизнес-процессы предприятия.

Особое место в современном мире занимают распределенные системы обработки и хранения данных, в частности, кластеры высокой готовности для систем управления базами данных, обеспечивающие отказоустойчивое хранение и обработку данных. Для таких систем важно знать их показатели надежности для оценки рисков для бизнес-процессов и степени снижения этих рисков за счет применения отказоустойчивых технологий. В такой ситуации разработка моделей надежности и анализ показателей надежности систем обработки данных является достаточно актуальной задачей.

На сегодняшний день существует множество обобщенных моделей надежности и методов расчетов показателей надежности, изложенных в отечественной литературе , и ряд упрощенных моделей для вычислительных систем и сетей, изложенных в зарубежной литературе . Однако эти модели, в основном базируются на модели восстанавливаемых элементов и не учитывают специфику систем обработки данных, различную интенсивность отказов в различных режимах работы узлов, конечное время подключения резервного узла.

В такой ситуации возникает необходимость в разработке специализированной модели надежности кластера высокой готовности и выведении расчетных формул для показателей надежности. Соответственно, в рамках научных исследований автора в области надежности систем обработки и передачи данных перед автором возникла научная задача разработки специализированной модели надежности системы с основным и резервным узлами обработки данных, для последующего использования полученных результатов при проектировании систем обработки данных для промышленных предприятий.

Упрощенная модель надежности дублированной системы. В упрощенной модели надежности дублированной системы мы рассматриваем узлы обработки данных как простейшие восстанавливаемые элементы с двумя состояниями: работоспособный и неработоспособный (рис. 1). Работоспособный узел отказывает с интенсивностью λ A и переходит в неработоспособное состояние. Неработоспособный узел восстанавливается с интенсивностью μ N и переходит в работоспособное состояние.

Рис. 1. Граф состояний узла с двумя состояниями

В дублированной системе с независимыми узлами оба узла могут находиться одном из двух состояний независимо друг от друга, и система считается готовой обслуживать запросы пользователей, когда хотя бы один узлов находиться в работоспособном состоянии.

Более того, одни и те же запросы пользователей могут одновременно обрабатываться на обоих узлах, если оба узла работоспособны. Рассмотрим множество состояний системы:

Состояние 0 - оба узла работоспособны и обрабатывают запросы пользователей. Из этого состояния система с интенсивностью 2λ A (отказ одного из работоспособных узлов) может перейти в состояние 1.

Состояние 1 - один из узлов работоспособен и обрабатывает запросы пользователей, другой неработоспособен. Из этого состояния система либо с интенсивностью λ A (отказ работоспособного узла) может перейти в состояние 2, либо с интенсивностью μ N (восстановление неработоспособного узла) перейти в состояние 0.

Состояние 2 - оба узла неработоспособны, и система не обрабатывает запросы пользователей. Из этого состояния система с интенсивностью 2μ N (восстановление одного из неработоспособных узлов) может перейти в состояние 1.

Тогда, с учетом вышесказанного имеем следующий граф состояний (рис. 2):

Рис. 2. Упрощенная модель надежности дублированной системы

Соответственно, стационарный коэффициент готовности дублированной системы, с учетом того, что в состояниях 0 и 1 система обрабатывает запросы пользователей:

(1)

Модель системы с основным и резервным узлами. Для учета конечного времени подключения резерва и учета различной интенсивности отказов узлов в нагруженном и ненагруженном режимах в усовершенствованной модели системы будем рассматривать узлы как элементы с тремя состояниями: пассивный, активный и неработоспособный (рис. 3).

Только в активном состоянии узел обрабатывает запросы пользователей. Пассивный узел либо отказывает с интенсивностью λ P и переходит в неработоспособное состояние, либо переходит в активное состояние с интенсивностью γ N . Активный узел отказывает с интенсивностью λ A и переходит в неработоспособное состояние. Неработоспособный узел восстанавливается с интенсивностью μ N и переходит в пассивное состояние.

Рис. 3. Граф состояний узла с тремя состояниями

Будем считать, что в системе с одним основным и одним резервным узлом в каждый момент времени только один узел может быть активным (иметь доступ к общей базе данных и обрабатывать запросы пользователей). Соответственно, если оба узла находятся в пассивном состоянии, то только один из них переводится в активное состояние. Что касается отказов и восстановлений узлов, для упрощения модели будем считать, что узлы независимы по отказам и восстановлениям. Рассмотрим множество состояний системы:

Состояние 0 - оба узла работоспособны, но пассивны. Из этого состояния система с интенсивностью γ N (активация одного пассивного узла, используемого в качестве основного) может перейти в состояние 1, либо с интенсивностью 2λ P (отказ любого из двух пассивных узлов) перейти в состояние 2.

Состояние 1 - оба узла работоспособны, и один из узлов активен, другой - пассивен. Из этого состояния система с интенсивностью λ A (отказ активного узла) может перейти в состояние 2, либо с интенсивностью λ P (отказ пассивного узла) перейти в состояние 3. В состоянии 1 система может обрабатывать запросы пользователей.

Состояние 2 - один узел неработоспособен, другой работоспособен, но пассивен. Из этого состояния система с интенсивностью γ N (активация пассивного узла) может перейти в состояние 3, либо с интенсивностью λ P (отказ пассивного узла) перейти в состояние 4, либо с интенсивностью μ N (восстановление неработоспособного узла) перейти в состояние 0.

Состояние 3 - один узел неработоспособен, другой работоспособен и активен. Из этого состояния система с интенсивностью λ A (отказ активного узла) может перейти в состояние 4, либо с интенсивностью μ N (восстановление неработоспособного узла) перейти в состояние 1. В состоянии 3 система может обрабатывать запросы пользователей.

Состояние 4 - оба узла неработоспособны. Из этого состояния система с интенсивностью 2μ N (любой из двух неработоспособных узлов может восстановиться) может перейти в состояние 2.

Тогда, с учетом вышесказанного имеем следующий граф состояний (рис. 4):

Рис. 4. Модель надежности системы с основным и резервным узлом

Математическая модель (система уравнений Колмогорова-Чепмена):

Мы ограничимся выводом аналитического решения для стационарного случая при , когда марковский процесс становится установившимся, и производные вероятностей по времени стремятся к нулю. Тогда мы имеем дело с системой алгебраических уравнений, и, решая ее, получаем формулы для стационарных вероятностей всех состояний:

Тогда, с учетом того, что система обрабатывает запросы пользователей только в состояниях 1 и 3, получаем стационарный коэффициент готовности :

Примечание 1. При быстрой активации узлов γ N →∞, коэффициент готовности:

.

Если при этом еще интенсивности отказов активного и пассивного узлов совпадают λ A =λ P , то приходим к упрощенной формуле

Пример расчета коэффициента готовности

Пусть имеется система с двумя узлами обработки данных. Интенсивность отказов активного узла λ A = 1/8760 час -1 (в среднем раз в год). Интенсивность восстановления узла: μ N =1/24 час -1 (восстановление в среднем в течение 24 часов).

Что касается интенсивности отказов и интенсивности активации пассивного узла, рассмотрим три случая:

Горячий резерв с быстрой активацией: интенсивность отказов пассивного узла λ P =1/8760 час -1 , интенсивность активации γ N =1200 час -1 (в среднем активация происходит в течение 3 секунд).

Теплый резерв со средней активацией: интенсивность отказов пассивного узла час -1 , интенсивность активации γ N =20 час -1 (в среднем активация происходит в течение 3 минут).

Холодный резерв с медленной активацией: интенсивность отказов пассивного узла λ P =0 час -1 , интенсивность активации γ N =1/3 час -1 (в среднем активация происходит в течение 3 часов).

В упрощенной модели для дублированной системы во всех трех случаев по формуле 1 мы получаем коэффициент готовности:

K DS ≈0,9999925349

В усовершенствованной модели системы с основным и резервным элементом по формуле 2 мы получаем:

В случае горячего резерва с быстрой активацией:

K AP ≈0,9999924397

В случае теплого резерва со средней активацией:

K AP ≈0,9999886897

В случае холодного резерва с медленной активацией:

K AP ≈09996543268

Нетрудно заметить, что усовершенствованная модель, учитывающая конечное время активации узлов и различные интенсивности отказов в активном и пассивном состояниях, дает более низкую и реалистичную оценку коэффициента готовности системы с основным и резервным узлом, нежели чем известная упрощенная модель.

Заключение

Таким образом, в рамках данной статьи рассмотрена предложенная автором модель надежности системы обработки данных с одним основным и одним резервным узлом. Выведены формулы для расчета коэффициента готовности системы. Также приведен пример расчета коэффициента готовности для различных случаев.

Полученные теоретические результаты использовались в многолетней практике эксплуатации, развития и проектирования систем хранения и обработки данных НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.

Библиографическая ссылка

Рахман П.А. КОЭФФИЦИЕНТ ГОТОВНОСТИ СИСТЕМЫ ОБРАБОТКИ ДАННЫХ С ОСНОВНЫМ И РЕЗЕРВНЫМ УЗЛАМИ // Международный журнал прикладных и фундаментальных исследований. – 2015. – № 9-4. – С. 608-611;
URL: https://applied-research.ru/ru/article/view?id=7556 (дата обращения: 22.03.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Напомним, что коэффициент готовности по ГОСТ 27.002-89 является вероятностью того, что изделие будет работоспособным в произвольно выбранный момент времени в промежутках между выполнениями планового технического обслуживания. Пусть p (t ) - вероятность того, что в момент t система исправна. Назовем коэффициентом готовности предельное значение этой вероятности

Для рассматриваемой системы

(4.51)

Коэффициент готовности равен средней доле времени, в течение которого система находится в исправном состоянии.

В тех случаях, когда коэффициента готовности недостаточно для характеристики надежности системы, можно дополнительно определить среднюю длительность исправного состояния системы (исключая начальный период)

(4.52)

Среднее время неисправной работы равно

(4.53)

в) Основные характеристики ремонтоспособности.

Каждый отказавший элемент поступает в ремонтное устройство, состоящее из r единиц. Если все ремонтные единицы заняты восстановлением, то элемент становится на ремонт в очередь.

Из этих соображений, качество ремонтного устройства может быть охарактеризовано двумя параметрами:

k " - среднее число элементов, стоящих в очереди;

k ’’ - среднее число занятых ремонтных единиц.

Эти характеристики должны определяться для стационарного режима и не зависят от времени.

Эти характеристики можно выразить через финальные вероятности.

Если v (t ) -число неисправных элементов в момент t , тогда длина очереди в этот момент равна нулю, если

v (t ) r

и равна v (t )-r , если v (t ) > r .

Средняя длина очереди в момент t выразится так:

Тогда в стационарном режиме

(4.54)

Аналогично находится второй параметр

(5.55)

Можно оценить ремонтоспособность системы другим путем. Каждый элемент системы в процессе службы многократно превосходит цикл: работа-ожидание ремонта - ремонт - резерв. Если:

t 1 - среднее время пребывания элемента в рабочем состоянии;

t 2 - среднее время ожидания ремонта;

t 3 - среднее время ремонта;

t 4 - среднее время пребывания в резерве.

(4.56)

Эти отношения и дадут среднюю долю времени пребывания элемента в том или ином состоянии.

Введенные так коэффициенты достаточно хорошо и полно определяют качество нашей резервной системы.

Выразим коэффициенты в формуле (4.56) через финальные вероятности.

(4.57)

(4.58)

(4.59)

(4.60)

Изложенные выше примеры и методы оценки характеристик надежности имеют весьма важное все возрастающее значение. В принципе они применимы для оценки деятельности целых организаций и отраслей народного хозяйства.

Процесс оценки будет складываться в организации сбора информации о нахождении используемых устройств в рабочем состоянии, в ремонте, в резерве, и т. д., а также информации об отказах и времени исправной (неисправной) работы.

Последующая математическая обработка полученных данных позволит вычислить оценочные критерии работы системы, выявлять слабые, недостаточно надежные ее элементы и улучшать качество их работы.

Практически каждый специалист по ИТ сталкивался с ситуацией, когда необходимо рассчитать готовность системы, а даных, мягко говоря, маловато. Сегодня мы расскажем о том, как сделать примерный, но вполне практический расчет.

Начнем с определений к основным понятиям. Во-первых, для понимания того, насколько «высокой» должна быть готовность для различных классов систем, необходимо понимать основые термины. В чем измеряется степень готовности системы?

Степень готовности системы описывается через коэффициент готовности, при этом он является безразмерной величиной и не может быть больше 1

Кстати, зачем вообще проводить расчет готовности системы? И как понимать полученный в результате коэффициент? Понятно, что более глубокий и детальный подход с большим количеством показателей даст более точные результаты, но, обычно, необходимо получить данные о существующей или предлагаемой системе, которые позволили бы начать практическую работу.

На самом деле полученный коэффициент отражает тот временной интервал, который система может «позволить себе» простаивать за период времени.

Как же можно посчитать этот коэффициент? Согласно ГОСТ 27.002-89 коэффициент готовности это «вероятность того, что объект окажется в работоспособном состоянии в произвольный момент времени, кроме планируемых периодов, в течение которых применение объекта по назначению не предусматривается» . В свою очередь, работоспособное состояние по ГОСТ 27.002-89 - это «состояние объекта, при котором значения всех параметров, характеризующих способность выполнять заданные функции, соответствуют требованиям нормативно-технической и (или) конструкторской (проектной) документации» . В общем случае это можно записать следующим образом:

Но где взять эти временные показатели, чтобы посчитать коэффициент? Обычно в распоряжении ИТ-специалистов есть совсем другие данные – количество серверов, процессоров, памяти и т.д. На самом деле, для нахождения нужных параметров, нужно проделать следующие шаги:

  1. Составить архитектурную схему системы
  2. Преобразовать ее в логическую
  3. Разбить на модули с последовательным/параллельным соединением компонентов
  4. Выполнить расчет готовности по модулям
  5. Выполнить расчет готовности для системы в целом

Итак, продемонстрируем эти шаги.

Архитектурная схема системы представляет собой набор включенных в схему объектов (оборудования) вместе с их коммуникациями. Наглядно одна из схем, описывающей архитектуру системы показана на следующем рисунке:

Рис.1 . Схема, отражающая архитектуру системы

На Рис.2 наглядно показан процесс преобразования из одного типа системы в другой.

Рис.2 . Преобразование архитекурной схемы в логическую и разделение ее на модули

Обычно полагают, что чем выше готовность системы, тем лучше – вполне логично. Также обычно полагают, что если систему задублировать, то готовность системы будет выше вдвое.

Однако это не так. Логика данного суждения понятна: была одна система - стало две, в 2 раза больше элементов, а если одна упадет, вторая «поддержит» - значит и готовность системы должна стать в два раза больше.

Мы обещали не загромождать статью громоздкими выводами формул, поэтому приводим их ниже лишь для иллюстрации наших рассуждений. Главное, что при расчете учитывается, КАК внутри системы связаны объекты (оборудование). Для последовательного или параллельного соединения готовность считается по-разному, что в итоге существенно сказывается на окончательном результате для всей системы.

Вероятность безотказной работы системы рассчитывается как:

- для последовательного соединения

- для параллельного соединения

Для примера предположим, что коэффициент готовности отдельного сервера равен 0,99 . В случае кластера коэффициент готовности системы будет, согласно формулам, составлять 0,9999 :

Надо отметить, что готовность повысилась не в 2 раза, а на 2 порядка, т.е. стала лучше в 100 (!) раз.

Рассмотрим пример, который мы раньше приводили на Рис.1 . Предположим, для каждого элемента уже имеются значения К г поэтому рассчитать коэффициент готовности для каждого модуля довольно просто:

Итоговое значение:

Также на основе указанных формул можно отметить, что:

Коэффициент готовности системы не может быть выше наименьшего коэффициента готовности среди компонентов данной системы в случае последовательного соединения.

При создании кластера коэффициент готовности системы повышается минимум в 10 раз при условии, что К г элемента больше 0,9.

Итак, получен результат:

Вернемся к вопросу в начале статьи: что же означает это число? Ниже приведена таблица соответствия коэффициента готовности и времени простоя системы.

Коэффициент готовности

Время простоя

36,5 дня

3,65 дня

8,76 часа

52,56 минуты

5,256 минуты

Таблица 1 . Соответствие коэффициента готовности и времени простоя

Итак, полученный результат коэффициента готовности из примера на картинке означает, что суммарное время простоя всей системы в год будет составлять 2,8 минуты. Если рассмотреть другой пример, описанный в этой статье, то наличие одного сервера с К г = 0,99 означало простой системы на 3,65 дня , добавление еще одного сервера в кластер позволило снизить время простоя до 52 минут .

Итак, коэффициент готовности обозначет то время, которое бизнес перестает получать поддержку своих сервисов от ИТ-системы. Здесь надо очень четко понимать, что из полученного времени простоя системы необходимо далее получить следующие данные:

  1. Сколько в деньгах потеряет бизнес при отсутствии поддержки от ИТ за определенное по расчетам время? Дело в том, что в зависимости от специфики производства/бизнеса, отсутствие поддержки может как очень сильно отразиться на бизнесе, так и почти совсем не повлиять. Например, для крупного телекоммуникационного провайдера или банка останов биллинговой системы мгновенно начинает приносить огромные убытки. А вот для некоторых производств ничего особенно «страшного» не произойдет – особенно там, где непосредственный производственный процесс контролируется людьми, а компьютерные системы лишь обрабатывают вторичную информацию.
  2. Учесть косвенные потери (ущерб для имиджа, переход клиентов к конкурентам или отказ от сервисов и т.д.

Здесь надо четко понимать, решение о необходимом уровне готовности принимает бизнес, а не ИТ. Что это означает? Это означает, что в идеале, CIOпредставляет бизнес-руководителям таблицу, где отмечены следующие колонки:

  • Коэффициент готовности (разные варианты или уровни)
  • Времена простоя, соответствующие этим коэффициентам
  • Сколько нужно денег для закупки – чтобы достичь того или иного уровня
  • Пустая колонка, которую должен заполнить бизнес: сколько денег теряет бизнес при тех или иных временах простоя, с учетом косвенных потерь

Не надо забывать, что коэффициент готовности элемента инфраструктуры больше 0,999 встречается