ИТ-технологии для профессионалов

Показаны сообщения с ярлыком RAID. Показать все сообщения
Показаны сообщения с ярлыком RAID. Показать все сообщения

среда, 5 августа 2015 г.

Модельный ряд RAID контроллеров Adaptec

Информация любезно предоставлена компанией Adaptec by PMC (Россия).

Классификация контроллеров Adaptec.


Поколение
Опция “E” - серверы начального уровня
Базовые опции - серверы «mainstream»
Опция “Q”. Серверы верхнего уровня
6-ое поколение
6450E/6805E
6405, 6805, 6805T, 6445
-*
7-ое поколение
71605E
78165, 72405, 71685, 71605, 7805
7905Q, 71605Q
8-ое поколение
-
8405, 8805, 8885
8885Q, 81605ZQ
Читать дальше ...

пятница, 27 марта 2015 г.

Производительность LSI MegaRAID 9361 с SSD

После обновлений микрокода эти контроллеры сильно прибавили шустрости:


Access Random RAID Ctrl cache Queue size IOps avg io time (ms) max io time (ms)
100% read 100% RAID0 off 1024 290000 0.77 7.5
67% read 100% RAID0 off 1024 195000 5.3 23
67% read 100% RAID0 off 256 195000 1.3 16
67% read 100% RAID0 off 128 190000 0.67 16
0% read 100% RAID0 off 128 96000 1.4 100
67% read 100% RAID0 on 1024 69000 14.6 21
100% read 100% RAID10 off 1024 290000 0.63 6.5
67% read 100% RAID10 off 1024 122000 8.3 84
67% read 100% RAID10 off 256 125000 2.05 20
67% read 100% RAID10 off 128 120000 1.07 18
67% read 100% RAID10 on 256 56500 4.5 15
0% read 100% RAID10 off 128 48000 2.66 18.5
67% read 100% RAID5 off 128 82000 1.56 26
67% read 100% RAID5 on 128 35000 3.7 16
0% read 100% RAID5 on 128 12500 9.8 100
0% read 100% RAID5 off 128 33000 3.9 25
0% read 0% RAID1 off 1 11657 0.085
0% read 0% RAID1 on 1 17220 0.057
0% read 0% RAID10 on 1 17200 0.057
0% read 0% RAID10 off 1 11700 0.085


Тестировался контроллер LSI MegaRAID 9361-8i (FW 24.7.0-0026), 6шт SSD Seagate 1200 800GB, подключены через 6G экспандер. Strip 256k, тестовые запросы IOmeter'a по 4к.

Краткая выжимка:
- максимальная производительность на чтении (RAID0) - 290k IOps, на записи - 96k IOps;
- включение кэша контроллера проваливает производительность в 2-3 раза;
- RAID10 практически равен RAID0 на чтении и вдвое медленнее на записи (все по канонам);
- RAID5 в среднем медленнее RAID10 в 1,5-2 раза.
 

Публикуется по результатам теста Максима Мухина.

Читать дальше ...

среда, 14 декабря 2011 г.

Одной строкой

Обновилась камасутра библия для владельцев систем NetApp и IBM N-series – документ с говорящим за себя названием “NetApp Storage Best Practices for VMware vSphere” (TR-3749). Основные изменения коснулись возможностей vSphere 5. Скачать можно совершенно свободно, даже регистрация не требуется. Всем, кто использует VMware, документ обязательно нужно прочитать хотя бы один раз!

Для серверов IBM x3650M3 и x3550M3 анонсирован новый RAID контроллер – ServeRAID M5016. Ключевая особенность – наличие 1GB кэш памяти с защитой, но не батарейкой, а флэш-памятью с конденсаторным модулем (ну наконец-то уже!). Для активации RAID6/60 более не требуется дополнительный ключ – все работает “из коробки”.

image

Предвосхищая – модуль с конденсаторами на фото не показан, он “болтается” отдельно,  пристегнутый длинным кабелем к контроллеру (примерно как с использованием Remote Mount Cable на M5015).

Читать дальше ...

среда, 2 марта 2011 г.

LSI: новые контроллеры, новые горизонты

LSI анонсировал два новых контроллера – MegaRAID SAS 9265-8i и 9285-8e. Это представители уже второго поколения контроллеров с поддержкой SAS2 (6Gbps). Оба контроллера построены на одном чипе (RAID on Chip, ROC) – LSISAS2208, работающем на 800МГц и имеющем два ядра. Объем кэша составляет уже 1ГБ (используется память DDR3). Фактически отличие контроллеров только в том, как расположены порты – 9265-8i имеет 8 портов “внутрь”, а 9285-8e 8 портов “наружу”. Отличается и максимально поддерживаемое число дисков (через экспандер) – 128 для 8i  и 240 для 8e. Выпущена и новая модификация батареи для защиты кэша – LSIiBBU09. Новизна состоит в том, что батарея более терпимо относится к повышенным температурам внутри сервера (до 550C). Как и для прошлого поколения, предлагаются опциональные “расширения”: FastPath (оптимизация для работы с SSD), CacheCade (возможность использовать SSD в качестве “умного” кэша), Recovery (снапшоты) и SafeStor (поддержка шифрования на уровне дисков).

imageimage

Но, конечно же, самое интересное это производительность новых контроллеров (что особенно актуально при использовании SSD дисков). Заявлено, что при использовании технологии FastPath производительность выросла более чем в 3.5 раза по сравнению с прошлым поколением до 465,000 IOPs:

image

image

На картинке – сравнение первого и второго поколения 6Гбит контроллеров LSI (внутренние тесты LSI) для вариантов с включенным и отключенным FastPath. подробности (и другие результаты можно найти здесь).

Немного удивляет батарейка вместо ставшими уже привычными (у других производителей) суперконденсаторов и флэш-памяти. А учитывая, что уже наверное пару месяцев назад были вполне предметные разговоры про аналогичную технологию и у LSI (и даже назывались модели контроллеров) это еще более странно. И до сих пор, кроме строчки в списке зарегистрированных торговых марок, никакой официальной информации про это нет. Посмотрим, как это все отразится на PMC-Sierra (Adaptec), у которых сейчас только начинаются продажи первых 6Гбит контроллеров. LSI сделал все возможное (включая прочное сотрудничество с такими производителями серверов как IBM, Dell и Fujitsu), чтобы занять как можно большую долю рынка.

Читать дальше ...

понедельник, 13 декабря 2010 г.

Новые контроллеры Adaptec серии 6

Компания PMC-Sierra, впервые после приобретения Adaptec, анонсировала долгожданное продолжение линейки RAID-контроллеров! Объявлено о выпуске 6й серии: Adaptec RAID 6405, 6445 и 6805.
Контроллеры построены на базе чипа серии SRC 8x6G (dual core 600MHz PM8013) RoC (RAID-on-Chip). Все три новых контроллера имеют одинаковый функционал, а отличие только в портах: 6405 имеет 4 внутренних SAS порта, 6445 – 4 внутренних и 4 внешних, а 6805, как легко догадаться, – 8 внутренних портов. Для всех контроллеров вместо батарейки предлагается использовать флэш-память, защищаемую конденсаторами (Adaptec Flash Module 600 - AFM 600). Остальные характеристики:
  • 512МБ кэш памяти (DDR2-667)
  • поддержка SAS 2.0 (6Gbps)
  • шина PCIe Gen2 x8
  • поддержка до 256 дисков SAS/SATA (при использовании экспандеров)
  • поддержка уровней RAID 0, 1, 1E, 5, 5EE, 6, 10, 50, 60 и JBOD
  • возможность использования Hybrid RAID (SSD + HDD)
Как и для прошлых серий, управление осуществляется через Adaptec Storage Manager – это может быть очень важно для тех, кто уже активно использует контроллеры Adaptec в своих серверах, но посматривали “на сторону” в поисках продуктов с поддержкой 6Gbps.
Про поддержку технологии maxCache в новых контроллерах у меня однозначного ответа пока нет – нужно будет отдельно уточнить.
Более подробная информация должна быть через несколько дней.
Читать дальше ...

среда, 7 июля 2010 г.

SAS 2.0 6G со всех сторон

Последний рубеж взят – для x86 серверов IBM появился контроллер ServeRAID M5025. Теперь SAS 2.0 6Gbps можно использовать везде – и внутри сервера, и во внешних СХД, и в JBOD. Последний вариант и стал возможен благодаря этому контроллеру. Сами JBOD доступны с момента анонса DS3500: это EXP3512 и EXP3524, а теперь есть и RAID контроллер с внешними портами:

ServeRAID M5025 SAS/SATA Controller

В комплекте, как и у младшего брата (M5015, у которого порты смотрят внутрь), есть батарейка. Кратко по характеристикам и возможностям:

  • Контроллер построен на базе чипа LSI SAS2108 (RAID on Chip)
  • 512МБ кэш-памяти на борту
  • Поддерживается подключение до 240 дисков (до 9ти шасси с дисками на порт)
  • Можно создать до 64 томов (LUN)
  • Размер одного LUN ограничен 64ТБ
  • Одновременное использование SAS и SATA дисков поддерживается, но смешивать диски в одном массиве нельзя.
  • Стандартно поддерживается RAID 0, 1, 10, 5 и 50 (уровни 6 и 60 становятся доступны после покупки M5000 Advanced Feature Key)

ServeRAID M5025 это фактически копия LSI MegaRAID SAS 9280-8e, так что остальную информацию можно посмотреть на страничке оригинала.

Читать дальше ...

вторник, 18 мая 2010 г.

Многопоточный RAID

IBM анонсировали новый RAID контроллер, предназначенный специально для SSD. В отличие от остальных, представленных сейчас в портфеле IBM контроллеров, этот сделан не компанией LSI, а совместно с PMC-Sierra. Так как ServeRAID B5015 предназначен исключительно для SSD, то и выбор уровней RAID довольно скромный – только RAID1 и RAID5, создать можно до 4х логических дисков (LUN) на контроллер. Максимум можно подключить до 8ми дисков SAS 2.0 6Gb/s (замечательно укладывается в концепцию exFlash для серверов IBM x3850X5/x3950X5). Сердце контроллера – три ядра MIPS с поддержкой многопоточности. В стеке maxRAID активно используется эта самая многопоточность для увеличения производительности по сравнению с имеющимися на рынке решениями. Кэша нет, а следовательно нет и необходимости в батарейке.  image

Читать дальше ...

среда, 12 мая 2010 г.

LSI подсуетился :)

Adaptec буквально вот только что перешел в руки PMC-Sierra (фактически поглощение закончится ближе к концу второго квартала). А тем временем извечный конкурент - LSI анонсировал выпуск целого ряда опциональных дополнений к своим контроллерам.

В первую очередь необходимо отметить CacheCade – аналог нашумевшего Adaptec MaxIQ. Являясь ключиком активации, CacheCade позволяет использовать SSD диски (до 32шт и суммарным объемом до 512ГБ) для хранения наиболее часто используемых данных. У продукта нет привязки к SSD (есть список протестированных дисков) и можно выбрать тот носитель, который доступен или более привлекателен по цене (конечно эффект CacheCade будет зависеть от производительности SSD). На текущий момент CacheCade поддерживается на контроллерах MegaRAID 9260-4i, 9260-8i, 9280-4i4e. Все остальные новые опции (на момент выпуска) также доступны только для этих контроллеров.

image

Второй продукт, также направленный на увеличение производительности – FastPath. Он обеспечивает повышенную производительность контроллера при подключении SSD дисков. Обещано повышение производительности до 2.5 раз при операциях случайной записи на SSD и до 2х раз на операциях случайного чтения. Благодаря Fastpath контроллеры могут обеспечить до 150.000 операций ввода-вывода в секунду (IOPs).  Как следствие, FastPath особенно рекомендуется тем, кто использует SSD для OLTP задач. На рисунке данные для RAID-0 из 8ми дисков Intel X25E на контроллере 9260-8i (при включенном кэше дисков):

image

Два других продукта помогут обеспечить лучшую защиту данных:

Recovery Software служит для создания мгновенных снимков. Здесь нет ничего нового – используется классический Copy-on-Write механизм. Поэтому увлекаться снапшотами на высоконагруженной системе не стоит – производительность будет деградировать. Интеграция с VVS упрощает поддержание консистентности данных приложений в снимках. Работа со сделанными снимками осуществляется через MSM, поддерживаются версии Windows 2003 и 2008. Можно создать до 8ми снимков на том и до 504х на контроллер. В случае необходимости можно вернуть состояние тома на момент любого сделанного ранее снимка (сделать это можно и через WebBIOS, что позволяет защитить загрузочный том).

SafeStore позволит использовать SED (Self-Encrypting Drives) диски, чтобы ограничить несанкционированный доступ к данным (очень сомневаюсь, что в ближайшее время это будет востребовано в России – в силу ограничений на ввоз). Данная технология уже некоторое время доступна в контроллерах 9260DE и 9280DE, а теперь ее можно приобрести и в виде опции для обычных версий этих контроллеров.

Читать дальше ...

четверг, 1 апреля 2010 г.

Почему не нужно делать QuickInit

Заметка в блоге Adaptec про “full-stripe writes” - что это и почему это плохо? Если в двух словах (и вольном переводе), то контроллер может работать с массивами RAID5 (да и с RAID6 почти также) двумя способами:

  • Записываемые данные могут попадать в “страйп” на одном диске и записывается только этот измененный страйп, да еще и новый блок с контрольной суммой. Т.е. операция записи блока данных в одном страйпе раскладывается на такую последовательность действий: чтение старого страйпа, чтение контрольной суммы, изменение блока данных, изменение контрольной суммы, запись нового блока и новой контрольной суммы. Этим и объясняется почему RAID5 заметно медленнее чем, например, RAID10 на операциях записи.
  • Данные записываются потоком, т.е. сразу пишутся все страйпы на весь набор дисков. В этом случае контроллер “собирает” так называемый full stripe, считает контрольную сумму и все это записывает на диски. Такой способ, очевидно, работает гораздо быстрее, но только в том случае, когда запись идет последовательно.

Но так работает контроллер в том случае, когда есть уверенность, что контрольные суммы верны (т.е. массив полностью проинициализирован и контрольные суммы не содержат заведомо неверных значений). Но, если при создании массива указать опцию “Quick Init”,  никакой полной инициализации не произойдет – будут изменены только метаданные с конфигурацией. Чтобы данные пользователя не пострадали при сбое одного из дисков, в этом случае контроллер обрабатывает операции записи несколько иначе: любая операция записи влечет за собой чтение всех страйпов, изменение нужного страйпа, расчет контрольной суммы, запись “full stripe” обратно на диски. Т.е. всегда пишем “full-stripe”, но недостающие данные сначала считываем с дисков. Таким образом, любая операция записи будет задействовать все диски в массиве. Скорость, при этом, конечно будет заметно ниже, но пока не будет проведена полная верификация такого массива, никакого улучшения ждать не следует.

Отдельно хочу отметить, что использованная здесь (да и во всех документах Adaptec) терминология немного не соответствует принятой в SNIA – Adaptec (да и многие другие,  надо сказать) под словом “страйп” (stripe) подразумевают то, что в SNIA называют “стрип” (strip), т.е. тот блок, которым оперирует контроллер при работе с RAID-массивом:

imageА  вот использованный выше термин “full stripe” как раз соответствует страйпу в терминологии SNIA. Размер страйпа по умолчанию (в текущих версиях контроллеров Adaptec) равен 256КБ, т.е. после Quick Init любая (абсолютно любая) операция записи на массиве RAID5 из 5ти дисков (как на картинке) потребует чтения 256KB*4=1MB с 4х дисков и записи 1.25МБ уже на все 5 дисков. Согласитесь, не очень это должно способствовать производительности. Мораль такова: не нужно использовать Quick Init. Лучше день подождать (выбрать опцию Clear), а потом за пять минут долететь!

Читать дальше ...

понедельник, 22 марта 2010 г.

Оптимальный stripe-size для RAID-массива

Очень часто задают вопрос о том, как правильно выбрать stripe-size для того или иного массива.

Как посчитать, а что будет если на массиве и SQL, и файловый сервер?

А если SQL работает с дисками блоками по 8КБ, а RAID-контроллер не позволяет задать такой страйп, то наверное все теперь будет работать неоптимально и вообще наверное нужно искать такой контроллер, где stripe в 8КБ можно задать?

На самом деле, все это не совсем так.

То что какое-то конкретное приложение общается с дисками блоками по ххКБ вовсе не означает, что именно такой stipe-size будет оптимальным. Поэтому практически всегда на вопрос “как настроить, чтобы было лучше”, следует простой ответ: “оставьте то значение, которое предлагается по умолчанию”.

Разработчики прошивки тратят много времени на оптимизацию кода прошивки, тратят много сил на обеспечение высокой производительности. Но все эти оптимизации наилучшим образом работают как раз на выбранных в качестве “default” значениях.

До недавнего момента я все это говорил, ссылаясь исключительно на свое понимание вопроса, но на днях представитель Adaptec в своем блоге разместил точно такой же совет
While there is credibility in doing the maths and trying to match the stripe size to the OS/application requirements, the reality is that the defaults will “normally” walk all over specifying a particular size. Why? Because our engineers spend a lot of time in making the defaults work best. We aim to make an out-of-the-box experience for the majority of users, and put a lot of effort into making the product work without a user having to be a rocket scientist to use it. 

Зачем же производитель контроллеров дает выбор? Конечно, в ряде случаев можно получить дополнительные проценты (хотя обычно все-таки доли процентов) производительности, тщательно проанализировав характер нагрузки и выбрав значение, которое характерно именно для нее.

Особенно это будет заметно, если размер блоков, которыми приложение общается с дисками, будет больше, чем stripe по умолчанию, а нагрузка создается преимущественно случайным обращением.

Но такая ситуация возникает довольно редко, поэтому если никакие экстраординарные приложения использовать не предполагается, отдайтесь на волю разработчиков и пусть они, зная свой продукт изнутри, выберут для Вас правильные настройки.

P.S. Здесь речь идет о внутренних RAID-контроллерах. В “больших” системах есть свои особенности, связанные с работой кэша, и там оптимизация настроек может дать более заметный эффект.






Читать дальше ...

пятница, 29 января 2010 г.

Xyratex – обновление прошивок

Я уже писал про выход новой прошивки для систем Xyratex 5412/6412 и уже несколько раз возникали вопросы, как же нужно прошивать. Так что сегодня огромный пост будет про, на мой взгляд, самый большой недостаток этих дисковых систем – а именно про процедуру обновления firmware. Почему недостаток? А потому как процедура эта многоступенчатая, требует внимательности и осторожности. А, помимо прочего, требует еще и остановки системы (а, как следствие и всех приложений, которые с ней работают). Конечно, обновление прошивок дисков и в других системах потребует прервать ввод-вывод, но обычно все-таки действий нужно делать меньше. Итак, если Вам нужно обновить прошивку, то запланируйте downtime заранее. Если обновлять будете еще и прошивки на дисках, то учтите, что время простоя заметно возрастет – диски обновляются по-одному и если их 60 штук, то времени уйдет порядком. Что нам потребуется?

  1. Ноутбук или ПК, с которого и будем все обновлять. Обязательное условие – наличие последовательного порта! Стандартный кабель подключается к 9-пиновому разъему, возможно потребуется переходник.
  2. Кабель для последовательного порта, который скорее всего был в комплекте поставки (хотя это зависит от того, как была куплена система). Номер для заказа: RS-CAB-2M-RS232-USB.
  3. Программа для работы в терминале (либо стандартный HyperTerminal, либо что-то еще с поддержкой протокола 1K X-Modem для передачи файлов).
  4. Ну и конечно, необходимо иметь возможность подключиться к системе также и через локальную сеть.

Всего существует 5(!) различных прошивок (указаны в том порядке, в котором нужно обновлять):

  • прошивка модуля Disk I/O (это тот, который установлен в полках расширения)
  • boot PROM контроллера
  • прошивка самого контроллера RAID
  • прошивка StorView (система управления)
  • прошивка жестких дисков

Порядок обновления важен и рекомендуется его соблюдать чтобы избежать лишних и ненужных проблем.

Подготовили все необходимое. Сделали очередную резервную копию. Выключили серверы (или отмонтировали на серверах тома, находящиеся на дисковой системе).  И только после этого начинаем. Первым делом убеждаемся, что система работает нормально, нет ни “вылетевших” дисков, массивы не находятся в состоянии перестроения и не происходят никакие другие чудеса. Затем следует определиться с тем, что нужно обновлять, а что – нет. Если кроме контроллерного модуля ничего нет, то прошивку Disk I/O пропускаем так как их физически нет. Текущую версию boot PROM можно увидеть в StorView, нажав мышкой на любой из контролеров:

imageНажав в этом же окне на кнопку DIAGNOSTICS DUMP (откроется текстовый файл), можно узнать версии Disk I/O модуля (если он все-таки есть) и прошивок дисков:image

Версию StorView можно узнать, нажав на кнопку ABOUT в правой верхней части основного окна (впрочем, версию StorView все равно обновлять придется практически наверняка):

imageВсе полученные данные о версиях нужно сравнить с тем, что указано в сопроводительном файле к новому релизу прошивки. И вот уже после этого можно приступать к самому обновлению:

1. Прошивка модуля Disk I/O.

Если система не имеет модулей расширения (или их прошивки обновлять не требуется), то переходим к следующему пункту. Если система одноконтроллерная, то задача упрощается и мы сразу приступаем к прошивке: заходим в утилиту управления (StorView) через любой браузер (с отключенной блокировкой всплывающих окон) на адрес http://ip-address:9292/ (ip-address это очевидно адрес нашего единственного контроллера). Нажимаем на иконку Controller 0&1:

image

В открывшемся окне нажимаем кнопку UPDATE EXPANSION F/W.

image

Загружаем файл, ждем завершения. Первый этап закончен.

Если же система двухконтроллерная, то действий потребуется больше: необходимо сначала физически извлечь из системы один из RAID-контроллеров (из “головной” полки) – действуем, как было описано выше, но вместо UPDATE EXPANSION, делаем SHUTDOWN одному из контроллеров, а затем физически его извлекаем. После этого выполнить процедуру прошивки (как описано выше). Выключаем “головной” модуль, устанавливаем обратно вытащенный контроллер, а второй извлекаем. Включаем систему и повторяем процедуру обновления. Обратите внимание, что не нужно ничего вытаскивать из модулей расширения и выключать их также не нужно! Важно: прошивка занимает время, но статус ее через web-интерфейс отследить нельзя – только по индикаторам на системе. Так что лучше подождать и никуда не торопиться.

2. Прошивка boot PROM контроллера.

Вот здесь нам понадобится подключение к последовательному порту. На счастье boot PROM обновляется не так часто. Для двухконтроллерных систем, как и прежде, потребуется извлечь один из контроллеров, так что этот этап можно совместить с первым (чтобы два раза не дергать контроллеры). Оставив один контроллер, подключаемся к нему через терминальную программу. Стандартные установки порта 115200-8N1. Включаем систему, и несколько раз нажимаем на Enter (до того, как что-то появится на экране), чтобы попасть в “Monitor” (специальная утилита, которая загружается еще до Firmware контроллера). Еще раз проверить версию boot PROM можно, набрав команду ver (ниже, кстати, будет указана и модель контроллера чтобы не ошибиться):

image Убедившись, что версию надо обновить, набираем команду dp и отправляем файл с прошивкой по протоколу 1K X-Modem. Подтверждаем свое желание обновить прошивку и ждем завершения. Контроллер автоматически перезагрузится. Можно снова зайти в Monitor и проверить, что прошивка обновилась:

imageКак видим все получилось, поэтому выключаем систему, вытаскиваем “прошитый” контроллер и устанавливаем второй. Повторяем уже проделанную процедуру.

3. Прошивка контроллера RAID.

Неприятные процедуры практически закончились. Теперь проверяем, что оба контроллера установлены и все кабели (к дисковым полкам) подключены – их отключать и не нужно было, но лучше бы проверить. Включаем систему и после этого заходим в StorView (через барузер). Проверяем, что все компоненты определились и ошибок нет. Нажимаем на иконку Controller 0&1, а там на кнопку UPDATE CONTROLLER F/W, отправляем файл с прошивкой и ждем около трех минут. За это время оба контроллера будут прошиты. Проверить успешность процедуры можно еще раз нажав на Controller 0&1 и посмотрев версию.

4. Прошивка StorView

Находясь в StorView, нажимаем на кнопку About (вверху справа):

imageВ открывшемся окне нажимаем кнопку UPDATE, указываем файл прошивки и пароль для входа в StorView. Процедура длится примерно минуту. В некоторых обновлениях может присутствовать и новый “boot code” для StorView – его также нужно обновить. Для этого используется специальная утилита (идет вместе с прошивкой) - eSV_AutoUpdate_xxx.exe Запустив ее, указываем IP-адрес контроллера и прошивку, также ставим галочку “reboot when completed”:

image

После сообщения об успешной прошивке можно переходить к прошивке StorView на втором контроллере – вновь подключаемся по IP (уже к другому контроллеру) и повторяем все действия.

5. Прошивка жестких дисков.

И на сладкое осталась не самое приятное и, пожалуй, самое опасное – прошивка жестких дисков. Для этого нам опять потребуется доступ через последовательный порт. Для двухконтроллерной системы второй контроллер необходимо отключить (можно не вытаскивать, а просто сказать ему SHUTDOWN в окне Controller 0&1). После этого, привычным жестом подключаемся через терминал. Нажимаем Ctrl-E, чтобы вызвать меню:

image Далее двигаемся по меню: “2” - Diagnostics, “2” - Online Diagnostics, “2” - Drive Maintenance, “1” - Download Drive Firmware to Buffer. Через 1K X-Modem отправляем прошивку и затем нажимаем “3” - Program and Save Drive Firmware. После этого можно выбрать, какие именно диски надо обновить (все поддерживаемые, все поддерживаемые из незадействованных и hot-spare, все поддерживаемые с отличной от загруженной прошивкой). После этого потребуется нажать “Y” чтобы подтвердить свою уверенность. Остается ждать успешного завершения. Процедура не слишком быстрая, поэтому терпение потребуется. Выключаем “головную” полку и включаем ее снова - чтобы ожил отключенный на начальном этапе контроллер.

Все! После этого остается зайти в StorView по IP и проверить что все запустилось. Если все удалось, то нажимаем Controller 0&1 и там нажимаем на кнопки CLEAR LOGS и SYNCHRONIZE TIME. Затем на основном окне нажимаем Logical Drive Statistics:

image

И там нажимаем кнопку CLEAR.

Вот теперь действительно все обновили! Можно подключать серверы обратно и работать.

Процедура, как я и обещал, длинная и непростая. Но если варианта “свалить” работу на кого-то еще нет, то придется делать, а я постарался все описать максимально подробно.

Читать дальше ...

среда, 20 января 2010 г.

Вторая жизнь 3Ware

Я, когда весной прошлого года узнал о том что компания 3Ware перешла в руки LSI, считал что на этом (как это часто случалось при подобных поглощениях) история контроллеров 3Ware благополучно закончится, а LSI просто задействует часть их разработок в своих продуктах. Однако, каюсь, ошибался - LSI с толком использовали приобретенные активы для развития своего канального бизнеса. В качестве подтверждения того что “никто не забыт и ничто не забыто”, вчера были анонсированы два новых RAID контроллера с поддержкой SAS 6Gbps – 3Ware SAS 9740-4i и 9750-8i.

image

Как несложно догадаться, отличия только в числе портов (4 и 8, соответственно). Оба контроллера построены на базе чипа LSISAS2108 ROC, имеют интерфейс x8 PCI-Express 2.0, оснащены 512МБ кэш-памяти и поддерживают до 96 дисков SAS или SATA через экспандеры. Управление и настройка традиционно осуществляется через привычную всем пользователям контроллеров 3Ware утилиту 3DM2.  RAID стек также остался без изменений, что безусловно является плюсом для приверженцев контроллеров 3Ware (среди которых немалую долю составляют число пользователи Linux). Благодаря технологии StreamFusion(TM)+ достигается высокая производительность на потоковых операциях чтения/записи (контроллеры способны обеспечить производительность до 2.5GB/s на последовательном чтении и до 1.1GB/s при последовательной записи).

Читать дальше ...

вторник, 8 декабря 2009 г.

Вам чай с сахаром или руки с мылом помоете?

Глупый вопрос, не правда ли? Особенно глупо звучит, если Вы вдруг пропустили начало 90х годов прошлого века в России. Зато сейчас заканчивается первое десятилетие уже этого века, а все чаще приходится слышать не менее странную фразу: “зачем бэкап делать, если я уже RAID настроил?”. И звучит это, к сожалению, чаще всего не в момент создания системы, а уже в тот момент, когда данные надо спасать, причем спасать далеко не традиционными способами. И чем дороже был куплен RAID-контроллер, тем больше возмущение – “Я потратил такие деньги на контроллер, я разве похож на Рокфеллера, чтобы еще и резервную копию делать?! Все пропало! Производители сговорились! Нет справедливости на свете! Ведь я купил контроллер как раз для того, чтобы защитить свои данные!” Как Вы понимаете, речь идет главным образом о “домашних” пользователях, но иногда и в малом бизнесе наблюдаются подобные проблемы.

И возмущение это могло бы быть справедливым, если бы только хоть один производитель RAID-контроллеров позиционировал свой продукт как замену резервному копированию. Так для чего же тогда нужен RAID? Может ли он обеспечить защиту данных? Ответ, как это обычно и бывает, не так однозначен: может, но только в некоторых случаях. В каких? Очень просто - RAID (кроме RAID-0) обеспечит доступность данных при выходе из строя одного или более (например, двух в случае RAID-6) дисков. Вот собственно и вся защита, которую теоретически может Вам обеспечить аппаратный или программный RAID. Не больше! Обратите внимание на слово “доступность” – именно это главная задача, т.е. целю является не защита данных вообще, а минимизация возможных простоев. А могут ли данные на RAID-массиве “пропасть”? Конечно могут! И вариантов здесь очень много, вот лишь несколько примеров:

  • Программная ошибка  - самый простой случай и никак не зависит от наличия RAID.
  • Ошибка пользователя – не менее редкий (а скорее более распространенный) вариант.
  • Поломка сразу двух дисков в RAID-5 (либо трех в RAID-6). Скажете, что это маловероятно? Вовсе нет – если используются диски большого объема, то вероятность повторного сбоя во время перестроения (rebuild) массива при выходе одного из дисков заметно возрастает. Кроме того, возможна банальная проблема с блоком питания, который просто “убьет” электронику в нескольких дисках.
  • “Накопившиеся” логические ошибки на массиве. Откуда они берутся? На аппаратных RAID-контроллерах обычно есть кэш, который может значительно увеличить производительность дисковой операций записи. Но если кэш на запись никак не защищен, то неожиданная перезагрузка системы приведет потере данных в кэше контроллера. Если эта перезагрузка произошла, когда данные просто “ждали” в кэше, то будет ошибка на уровне файловой системы. А вот если в момент перезагрузки данные из кэша уже записывались на диски, то часть данных может оказаться записанными, а часть – нет. И теперь уже ошибки есть не только на уровне файловой системы, но и на уровне самого RAID-массива, так как неизвестно какая часть страйпа записана, а какая –нет. Для “отлова” таких ошибок большинство производителей предлагают соответствующие процедуры (consistency check), но кто ими пользуется пока гром не грянул? Защитить себя от этих проблем можно и батарейкой (BBU), конденсаторами с флэш-памятью или отключением кэша на запись. Но первое стоит денег, а второе - производительности.
  • Кэш есть не только на контроллере, но и на самих дисках. И операции записи кэшируются и на самих дисках. Всегда рекомендуется этот кэш выключать, но для SATA дисков и слабеньких контроллеров это радикально снижает производительность дисковой подсистемы. И те, кто не желает получить медленную систему все-таки оставляют этот кэш включенным. Что может случиться? Правильно, как и несколькими строками выше, перезагрузка может повлечь за собой потерю данных в кэше. И даже если контроллер думает, что с массивом все нормально, но на самом диске данные будут записаны совсем не те, которые нужны. И если этот сбой произошел на блоке с четностью, то до тех пор пока с массивом все нормально, данные будут доступны, а как только этот блок будет использован для восстановления (после сбоя совсем другого диска), в восстановленных данных будет “мусор”.
  • Контроллер взаимодействует с дисками, которые могут “отвечать” на команды контроллера с различными задержками (например, когда диск пытается сделать remap сбойного сектора). И контроллер может не дождаться ответа и отправит диск “на покой”. А что будет если это уже второй диск в RAID5? Правильно – данным можно сказать “прощай”. Да, конечно, диски из списков совместимости такими проблемами страдают крайне редко, но вот часто ли домашний пользователь смотрит на эти пресловутые списки? К сожалению  нет, гораздо чаще голосование происходит либо рублем, либо в пользу “любимой” марки.

Выше я перечислил только самые распространенные случаи, все это может накладываться друг на друга и число потенциальных проблем вырастает как снежный ком. Если в момент какого-то из сбоев происходит еще и “рисковая” операция с массивом (например добавление диска в массив), то вероятность успешного восстановления данных “своими руками” (я уже даже не говорю про средства самого контроллера) стремительно приближается к нулю. Что мы, увы, очень часто наблюдаем (правда со стороны).

Так может быть, скажете Вы, RAID контроллеры это “зло” и средство для обогащения жадных производителей? Столько ужасов рассказано, может быть RAID дома и не нужен вовсе? Когда же имеет смысл его использовать?

  • Если нужно повысить скорость работы дисковой подсистемы (когда производительности одного диска мало). Если хобби это обработка видео или “игры” с виртуальными машинами, то почему бы и нет?
  • Компьютер – часть домашнего офиса и там хранится коммерчески важная информация. Вам ведь нужно обеспечить защиту данных до того, как будет сделана резервная копия.
  • Жалко времени на переустановку системы в случае выхода из строя диска. Вполне логично, особенно если компьютер это не полигон для испытаний и еженедельная переустановка Windows не входит в воскресное расписание.
  • Хранятся большие объемы данных в оперативном доступе и нет никакого желания восстанавливать их в случае сбоя диска.

О чем же нужно помнить, если решили упростить себе жизнь, используя RAID?

  1. Использование любого RAID, установка BBU, отключение кэшей, регулярные проверки – ничто не гарантирует сохранность данных, если нет проверенной резервной копии.
  2. Копии важных данных должны храниться на разных носителях и очень желательно, чтобы один из этих носителей не был бы доступен для записи.

А ниже несколько рекомендаций на случай, если все-таки хочется наплевать на все то, что было сказано выше, и сделать по-своему:

  1. Создавая RAID-массив, записывайте все настройки (порядок дисков, размер страйпа и т.п.). Записывайте даже если Вы просто приняли все предлагаемые значения. Фактическое значение этого самого “default” для разных версий прошивки (firmware) аппаратного контроллера может отличаться. Разумеется не нужно хранить эти данные в текстовом файле на самом массиве – не пожалейте листа бумаги.
  2. Поддерживайте актуальную версию прошивок и драйверов. Хотя и не нужно бросаться грудью на амбразуры и устанавливать новую прошивку в день ее выхода – если у Вас сейчас нет проблем, подождите с недельку-другую, может быть именно с ней возникнут проблемы и она будет вскоре заменена.
  3. Используйте все доступные средства мониторинга. Если о случившемся сбое Вы узнали не из сообщения об ошибке в почте, а из того что система уже не загружается, зачастую уже поздно бывает что-то спасать.
  4. Делайте регулярную проверку целостности данных.
  5. Сделайте копию хотя бы самых-самых важных данных, например на DVD диски.
  6. Если планируете что-то изменить в конфигурации массива (добавить диски, изменить уровень RAID и т.п.), перечитайте еще раз пункт №5 (а лучше все это сообщение). Если изменение прошло успешно, вспомните про пункт №1 и измените соответствующие записи.
  7. Для аппаратных контроллеров диски выбирайте не по цене или общему впечатлению о бренде, а из списков совместимости для данного контроллера.
  8. Если что-то сломалось, прежде всего скопируйте самые важные данные, а уже потом занимайтесь самолечением.
  9. Если сломалось все так, что данные уже недоступны, не делайте резких движений и обратитесь к профессионалам. Найти таковых не представляет особенных проблем – даже если Вы находитесь вдали от двух столиц, общение можно свести к пересылке по почте и телефонному общению. Поверьте, почтовые затраты померкнут на фоне стоимости работ по восстановлению. Если есть возможность, сделайте посекторную копию всех дисков и экспериментируйте уже “на кошках”.

Все это конечно не оградит Вас от потери данных, но поможет заметно снизить риск этих потерь и вполне возможно сделает чуть ниже стоимость работ по восстановлению (если все-таки час “Х” настанет). Еще раз: будьте готовы к тому, что для восстановления данных нужно будет обратиться в специализированные организации. И не удивляйтесь когда стоимость работ окажется в несколько раз выше цены дисков и контроллера вместе взятых. Если же такие траты Вам не по плечу, то задумайтесь еще раз о резервном копировании тех данных, которые не хотите терять. И мойте руки с мылом, а в чай кладите сахар.







Читать дальше ...