МИ ПРАЦЮЄМО

(050) 878-12-97

info@servers.net.ua

Обзор характеристик жестких дисков: MTBF, AFR, UER. Использование жестких дисков с аппаратными RAID контроллерами

Сейчас HDD постоянно совершенствуются, что позволяет им оставаться на пике популярности. Объем жестких дисков постоянно увеличивается. На данный момент он достиг отметки 4ТБ на диск, но на этом специалисты - разработчики останавливаться не собираются. Цена на скоростные и большие диски падает, за счет этого они становятся все более и более доступными. Использование SSD обеспечивает рост производительности. Функционал аппаратных RAID контроллеров постоянно увеличивается. А решения, производимые на базе ZFS стали более зрелыми и эффективными. Но наряду с положительной динамикой мы можем наблюдать и некоторые отрицательные явления. Массивы на несколько десятков терабайт теперь могут позволить себе небольшие компании с очень скромным бюджетом. Но приобрести оборудование — это одно, а вот научится им пользоваться — это совсем другое. Как правило, в маленьких компаниях уровень знаний правил и алгоритмов работы оставляет желать лучшего. В будущем это обычно приводит к большим финансовым потерям со стороны компаний. А неправильное использование оборудования грозит и вовсе потерей ценных данных, которые на нем хранятся.

 

Ниже мы познакомим Вас с разного рода проблемами, с которыми сталкиваются потребители в процессе хранения данных. А также мы попробуем развенчать несколько самых распространенных мифов о работе оборудования.

 

Миф № 1

RAID в принципе не нужен, современные диски очень надежные, они могут работать длительное время без сбоев. 

Данное утверждение очень спорно. Обычно такое мнение бытует в среде начинающих IT-специалистов, которые не могут похвастаться ни прочными знаниями, ни богатым опытом. Можно сделать несколько выводов. Во — первых, «создатели» мифа просто не понимают сущность информации. Во — вторых, вряд ли они имеют хотя бы какое — то представление о предназначении RAID, и о его функции защиты целостности информации. RAID — это не только защита от полной потери данных с диска. Полной неисправности диска предшествуют тревожные сигналы — потеря небольших отрезков информации. Если сбой произошел на домашнем ПК, то особых проблем не будет. Так как потерю в 512 байт можно считать незначительной.  Это связано с типом файлов, которые мы храним на своем домашнем ПК. Как правило, это изображения, аудио и видео файлы, реже — текстовые документы. Исчезновение маленького фрагмента информации в данном контексте никак не отразиться на качестве демонстрируемых изображений, например. Но если на Вашем компьютере хранятся не разрозненные файлы, а целые системы (например, база данных), части которых взаимосвязаны друг с другом — это уже другой разговор. В данном случае любое наименьшее нарушение может быть чревато исчезновением тома или файла.

Подводя итог, можно сказать, что если Вы работаете со структурированными данными, не стоит их хранить на одиночных дисках или в массивах, не обеспечивающих избыточности.

 

Миф № 2

RAID и бэкап равнозначны. Поэтому если Вы приобрели RAID, то бэкапы Вам без надобности.

Это большое заблуждение. Никто не может исключить возможность потери данных с избыточного массива. И немаловажную роль в этом играет человеческий фактор. По статистике большинство случаев потери данных произошло по вине самих пользователей. В процессе работы с контроллером можно по ошибке удалить нужный том. Или, например, администратор может, руководствуясь своей логикой, удалить несколько таблиц из базы данных. Если кэш контроллера не находится под защитой — это также может стать причиной потери данных.

В любом случае, резервное копирование — это не излишняя перестраховка, а необходимая предосторожность. Запомните, отсутствие бэкапов недопустимо!

 

Миф № 3

Многие наивные пользователи считают, что наступила эпоха так называемого «цифрового коммунизма». Мнение о том, что из недорогих комплектующих (3ТБ SATA дисков) можно собрать функциональный RAID-5 или RAID-6 весьма обманчиво.

Такие пользователи, к сожалению, не смотрят в будущее хотя бы на один ход вперед. При определенном сочетании числа, объема и качества дисков в RAID-5 можно полностью потерять все данные в процессе ребилда. И не говорите потом, что мы Вас не предупреждали!

Далее мы в деталях попробуем рассмотреть все показатели надежности жестких дисков.

Сколько MTBF нужно для полноценной работы?

Как правильно понять величину MTBF (Mean time between failures)? Ведь для жестких дисков эта величина колеблется от 600-700 тыс. часов до 2-х миллионов. Здесь важно понять, какое значение будет наиболее оптимальным для работы.

Лучше всего мы поймем это, рассмотрев конкретный пример. Возьмем, к примеру, диск WD Red, MTBF которого достигло отметки миллион часов. Если прибегнуть к нехитрым математическим подсчетам, то напрашивается вывод, что производитель гарантирует работу диска в течение 114 лет! Не слишком ли это?

Конечно, производитель имел в виду нечто совсем другое. Трудно представить себе диск, срок службы которого был бы 114 лет. Это не вполне реалистично. А понимать цифровые значения следует вот в каком ключе — в партии из 114 дисков в течение года существует риск поломки одного диска. Поэтому чаще всего для отслеживания эффективности работы диска смотрят значение AFR (годовая интенсивность отказов).

Такой вид имеет формула AFR (упрощенный вариант): AFR=1/(MTBF/8760)

Если применить данную формулу для расчета величины AFR для WD Red, то получим следующий результат: 0,88%. По прошествии 2 -3 лет будет наблюдаться нелинейный рост AFR. Такая динамика роста будет наблюдаться, если HDD будет работать в привычном режиме. Но нас интересует вопрос, а что в случае, если режим будет не совсем обычным (к примеру, повышение температуры, уровня вибраций,  беспрерывное использование дисков)?Длительное превышение допустимой нагрузки приводит к увеличению значения AFR. Значение  AFR может совершить резкий скачек вверх уже в первые месяцы эксплуатации ,если режим работы будет особенно тяжелым. В данном случае нагрузка поможет выявить дефекты диска. А вот после 3 — 4 лет работы увеличение нагрузки может привести к необратимому разрушению диска.

Если внимательно посмотреть на спецификацию современных бытовых дисков Seagate, то мы увидим следующие значения: MTBF 700000 часов, Power-On Hours (POH) 2400 часов в год. Опытные пользователи знают, что такие значения соответствуют режиму работы 8x5. Таким образом, достижение заявленного показателя MTBF возможно только в рамках заданного режима работы.

Если Ваша мечта — это бесперебойная эксплуатация десктопных Seagate в течение суток, то за такое удовольствие придется «платить». Показатель AFR увеличится до 8%.

Также есть определенные ограничения для трафика — 55ТБ в год (читать/писать). В том случае, если для Вас такая цифра не приемлема, выбирайте диски nearline класса с MTBF от 1,2 млн часов и нелимитированным Power-On Hours.

Еще в начале работы многие пользователи сталкиваются с отказом оборудования. Но это, в первую очередь, связано именно с производственным браком, который невооруженным глазом и не заметишь. Неисправности в конце срока службы, скорее всего, являются результатом износа оборудования.

Поэтому не стоит путать такие вещи как  MTBF и срок службы диска. Это разные вещи. Не рассчитывайте купить диск раз и на всю жизнь. Будьте готовы к периодическим заменам дисков, которые по каким — либо причинам вышли из строя. Величина AFR для nearline дисков обычно составляет 1% и 0,5 % для enterprise класса (10k/15k). Если у Вас в эксплуатации десктопный диск — никто не даст Вам никаких гарантий. На работу диска могут повлиять множество факторов: температура, вибрация, повышенная нагрузка на блок головок.

Многие пользователи задаются вопросом: можно ли использовать диски бытового пользования на серверах? Вопрос этот возник не просто так. Ведь бытовые диски в одно время использовал Google.

Однозначного ответа нет. Смотря как Вы планируете эксплуатировать диск.  Google — это сфера действия облачных технологий. Для хранения данных  Google использует распределенную файловую систему — GFS (Google File System). Особенность такой системы в том, что вся информация распределяется по блокам. Блок может достигать размера в несколько мегабайт. Блоки реплицируются между серверами. А на серверах метаданных хранится информация о репликации блоков. Также на серверах производится мониторинг операций чтения и записи блоков. Если организовать работу файловой системы именно таким образом, то риск возникновения невосстановимых ошибок чтения (unrecoverable error rate) будет сведен к минимуму.

 

Миф № 4

Некоторые пользователи считают, что RAID может помочь в случае, если десктопные диски недостаточно надежны, поэтому нужно закупить их «про запас», поставить в RAID и менять по мере выхода из строя старых дисков. 

В данном случае следует учитывать еще один показатель - UER (unrecoverable error rate). Этот параметр учитывает возможность появления невосстановимой ошибки чтения, причины которой могут быть самыми различными: несовершенство поверхности, неполадки в работе головки, контроллера и др. Если говорить о современных десктопных дисках, то показатель UER для них равен 1 x 10-14. Как понимать это значение? Считывая с диска информацию размером 1 x 1014, Вы, скорее всего, прочтете не совсем те данные, которые были туда помещены при записи. 

В одном из докладов докладов SNIA были приведены интересные расчеты. На диске объемом 500ГБ может быть записано 1/25 x 1014 бит. Предположим, что мы имеем RAID-5, состоящий из  шести десктопных дисков с UER равным 1 x 10-14. Диск остается функциональным только лишь до определенного периода. Затем возникают и ремапятся сбойные сектора. Конечно, вряд ли такие неполадки приведут к полной потере данных, ведь установлен RAID. Если один из дисков больше не справляется со своими функциями, его нужно заменить. Но замена диска влечет за собой ребилд, который означает чтение 5/25 x 1014 бит. Ведь нужно считать страйпы и контрольные суммы с 5 дисков. Все данные нужно обработать и записать на шестой диск. 

Не исключена большая вероятность того что во время ребилда произойдет серьезный сбой в чтении и даже полная потеря информации, записанной на диске. В принципе, 500 ГБ — это не очень большой объем информации, так как современные диски рассчитаны на 1, 2, 3 и даже 4 терабайт. Если провести подсчеты с другими данными, то для массива 8x1ГБ получаем 56%, 8x2ГБ - уже 112%. Конечно, можно перестраховаться и регулярно включать фоновую проверку целостности данных. Еще один способ снизить риск потери данных — использовать диски nearline класса с UER = 1 x 10-15. Но при этом не стоит упускать из вида вероятность поломки второго диска. А это вполне может случиться во время ребилда, который может длиться неделями, особенно при большом объеме диска и при повышенной нагрузке.

Логичным заключением после всего вышеизложенного будет отказ от RAID-5. К сожалению, он не подходит для дисков большого объема. Для дисков enterprise класса (UER меньше еще на порядок - 1 x 10-16) риск сбоя очень высок — 

0,3 %. Емкость дисков по — прежнему растет. Сейчас уже никого не удивят диски на 900 и 1200ГБ.  Поэтому для enterprise дисков рекомендуют избегать создания больших групп из дисков в RAID-5, а использовать RAID-50. А пользователям enterprise и nearline дисков нужно подумать об использовании контроллеров RAID-6 и 60.

Кстати десктопным дискам установка RAID-6 не поможет. Все дело в несовместимости с аппаратными RAID- контроллерами. Основная причина — неконтролируемое время доступа в случае возникновения ошибки.

Time control (SCT ERC, TLER)

Если речь идет об одиночном диске, то при ошибке чтения механизм действий прост: предпринимают многочисленные попытки считать информацию со сбойных участков. Другого выхода нет, ведь диск один, а значит резервные копии данных созданы не были. А вот если этот диск находится в  RAID — массиве, проблема может быть легко решена. Если все попытки считать информацию с диска себя исчерпали (а их определенное количество), то проблемный сектор автоматически ремапится, а информация восстанавливается с других дисков, находящихся в этом же  RAID — массиве. Бывают случаи, когда диск просто не отвечает на запросы контроллера. В таком случае контроллер автоматически признает диск нерабочим и выкидывает его из массива. Иногда такие действия приводят к тотальному развалу массива.

Функцию контроля времени доступа лежит на специальной технологии под названием SCT ERC. Убедится в том, что технология активна можно при помощи smartctl: 

smartctl -l scterc /dev/sdb

smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.8.7-1-ARCH] (local build)

Copyright (C) 2002-13, Bruce Allen, Christian Franke

SCT capabilities:       (0x303f) SCT Status supported.

                        SCT Error Recovery Control supported.

                        SCT Feature Control supported.

                        SCT Data Table supported.

      SCT Error Recovery Control:

      Read: Disabled

      Write: Disabled

При наличии поддержки можно задать тайминги:

smartctl -l scterc,70,70 /dev/sdb

smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.8.7-1-ARCH] (local build)

Copyright (C) 2002-13, Bruce Allen, Christian Franke

 

SCT Error Recovery Control set to:

           Read:     70 (7.0 seconds)

          Write:     70 (7.0 seconds)

Но только лишь поддержки SCT ERC не достаточно для полной безопасности. Главное, на что Вам нужно обратить внимание при выборе дисков — это совместимость от производителя контроллера:

HCL контроллеров Adaptec by PMC

HCL контроллеров LSI

 

Влияние вибрации на производительность дисков

Еще одним недостатком десктопных дисков является их низкая сопротивляемость повышенной вибрации. Это связано с чисто механическими особенностями. А вибрации в процессе работы не избежать. И причины ее появления довольно естественные: большое количество дисков в одном корпусе (у Supermicro появился вариант на 72 3,5" диска в 4U) и кулеры по 5-9 тыс. оборотов в минуту.

Данные, предоставленные Seagate показывают, что при нагрузке около 21 рад/с2 у десктопных дисков появляются проблемы с позиционированием головок, что приводит к потере дорожки. А это сказывается на производительности, которая падает более чем на 80 %.