Все о средней наработке на отказ (MTBF). Прогнозирование поломки HDD

Как можно узнать срок работы жесткого диска; где та грань износа, по достижению которой HDD необходимо срочно менять? На помощь приходит MTBF - показатель наработки на отказ

Мы все хорошо понимаем, что потеря данных может повлиять на каждого их нас весьма и весьма негативно. Для многих из нас, потеря значимой информации происходит в виде поломки жесткого диска (HDD). Это могут быть различные механические и электронные дефекты, которые делают информацию, хранящуюся на жестком диске, недоступной для чтения. Есть десятки возможных причин для этого типа неисправности, начиная от логических ошибок программного обеспечения до очевидных или неявных физических повреждений HDD. Вместе с тем, мы не можем не упомянуть, что все устройства хранения данных имеют ограниченную продолжительность жизни.

Большинство из нас может назвать некоторые признаки того, что жесткий диск на грани выхода из строя. Например, если ваш HDD диск издает звуки – от приятного уху жужжания, шума шлифовки, то это признак того, что жесткий диск собирается "склеить ласты". Кроме того, если доступ к данным на ПК замедляется или начинают проявляться странные действия или явления (поврежденные данные, bad-сектора и пропавшие без вести файлы) – это все надежные индикаторы некорректной работы жесткого диска.

К сожалению, нет так называемых научных показателей для выявления неисправности HDD и его будущих поломок или выхода из строя - хотя это помогло бы предупредить потерю информации и вовремя прибегнуть к срочному ремонту HDD. В то же время, существуют способы мониторинга различных "странностей", происходящих с вашим ноутбуком или настольным ПК. Также можно применить ту же методологию к дисковым массивам для независимых дисков (RAID), через удаленный центр обработки данных.

Итак, как можно бизнес-пользователям, корпоративным и персональным пользователям предсказать, когда их жесткие диски достигнут грани работоспособности? Первый шаг – проверить смету изготовителей касательно продолжительности жизни устройства. Эти оценки, как правило, указаны как среднее время между отказами, или же наработка на отказ (MTBF). Это общий ориентир для жестких дисков. Что это означает в действительности и рассчитывается рейтинг наработки отказа, то есть MTBF?

Что такое среднее время наработки на отказ, т.е. примерный срок его службы

Рейтинг MTBF расшифровывается, как и звучит. Это средний период времени между одной присущей ошибкой и следующий в продолжительности жизни одного компонента. Другими словами, если была найдена неисправность и после этого отремонтирована, наработка на отказ – цифра, количество часов, когда можно ожидать функционирование жесткого диска в нормальном режиме, прежде чем он сломается снова или будет найдена малейшая неисправность.

В случае с потребительскими жесткими дисками, не редкость увидеть MTBF в промежутке около 300 000 часов. Это 12500 дней, или чуть более 34 лет. Между тем, жесткие диски более высокого класса рекламируются с MTB до 1,5 миллиона часов, что составляет около 175 лет. хотелось бы вы представить себе, как жесткий диск надежно работает в течение сотни лет? Это было бы сказкой для IT-менеджеров!

К сожалению, есть разница между средней наработки на отказ метрики и реальных продолжительности жизни. Метрика MTBF  имеет долгую и выдающуюся родословную в военной и авиационно-космической техники. Цифры взяты из частоты ошибок в статистически значимого количества приводами, работающими в течение недель или месяцев, в то время.

Исследования показали, что, как правило, средняя наработка на отказ (MTBF) в реальности имеет более низкий показатель. В 2007 году исследователи из Университета Карнеги-Меллона исследовали образцы 100000 винчестеров с установленным MTB при условии диапазонов наработки на отказ от одного миллиона до 1,5 миллиона часов. Это приводит к ежегодному отказу (AFR) 0,88 процента. Однако данное исследование показало, что индекс, как правило, превышает один процент – от 3:58 процентов до 13 процентов в некоторых системах хранения информации.

Производители не закрывают глаза на несоответствие показателя MTBF к реальному сроку службы HDD накопителя. Недавно производители Seagate и Western Digital прекратили использовать метрики средней наработка на отказдля своих жестких дисков. Вместо этого пользователь вынужден использовать сторонний софт для диагностики (например, Victoria) либо исследовать диагностические показатели SMART (о чем читайте ниже). 

Почему средняя наработка на отказ – неэффективный показатель износа HDD?

Вообще, показатель MTBF имеет смысл только тогда, когда устройство имеет постоянную интенсивность отказов, т.е. отказы распределены экспоненциально. Жесткие диски, в первую очередь, механические устройства, с механическими отказами. Т. е., механические отказов, как правило распределены.

Если мы предположим, что приложение использует большое количество жестких дисков, и ошибки распределены экспоненциально, число отказов в любых двух интервалах одинакового размера будет то же самое. Жесткий диск будет генерировать ошибки в 100-день, как и в 10000-день. Жесткие диски в реальных условиях эксплуатации имеют другой износ. После первоначальной фазы "младенческой смертности" (когда ошибки будут незначительны) произойдет какой-то момент времени, когда интенсивность отказов резко увеличится. Для типичных механических жестких дисков износ точка находится в возрасте от 3 до 5 лет непрерывной работы.

Как проверить жесткий диск на ошибки?

Вследствие, поскольку индекс средней наработки на отказ – относительно ненадежный индикатор здоровья жесткого диска, каким еще образом мы можем предсказать конец срока службы жесткого диска или другого устройства хранения данных? Далее мы будем обсуждать плюсы и минусы использования SMART – инструмента диагностики, который позволит определить время износа жесткого диска.

Информация по мотивам блога http://thedatarecoveryblog.com/