Ваш надежный
хостинг партнер
(495) 797-8-500

8-800-700 40 36

У Вас нет выбранных услуг.



Новости компании, технические статьи

История одного сисадмина: решение проблем с подключением SSD к серверному оборудованию Intel 18.08.2017

История одного сисадмина: решение проблем с подключением SSD к серверному оборудованию Intel

Общеизвестно, что скорость работы дисков на серверах лишней никогда не бывает. Очень часто даже в случае с подключением высокоскоростных в работе SAS-дисков, имеющих скорость вращения в пределах 15К, скорости не хватает для того, чтобы получить требуемую отзывчивость в работе установленного программного обеспечения.

При таком раскладе многие всерьез начинают задумываться об установке SSD-дисков с

тем, чтобы обеспечить высокоскоростную, надежную и качественную систему хранения данных в рамках рабочего сервера. Сегодня такие идеи реализуются системными администраторами повсеместно, однако не у всех все и всегда проходит гладко и без проблем. Предлагаем рассмотреть типичный случай – возможно, это поможет вам решить проблемы, возникающие с установкой и подключением SSD к собственному серверному оборудованию.

Поиск достойных решений ввиду ограниченного бюджета и вытекающие проблемы

В компании, где работает один знакомый системный администратор, бюджет был весьма ограничен. При этом требовалось достаточно мощное и надежное решение для того, чтобы справляться с достаточно неплохим массивом установленных на серверных системах программ. Таким образом, он остановил свой выбор на OСZ-Vertex4. По сути, это сравнительно недорогие, но вместе с тем прекрасные диски, которые тем не менее не рассчитаны на сильно нагруженные системы.

В данном случае расчет шел на то, что в условиях текущей активности дисков SSD способны исправно и бесперебойно работать в течение ближайших 1,5-2 лет в активном режиме использования, загрузки/выгрузки данных. При таких условиях именно этот вариант оказался наиболее окупаемым за год его использования. Однако на практике все вышло не совсем та.

Через 14 месяцев произошел первых масштабный сбой – RAID10 выбросил один из SSD-дисков. Надо отдать должное сотрудникам дата-центра, которые достаточно оперативно среагировали в данной ситуации. Они оперативно заменили диск и отправили на диагностику неисправный SSD. Таким образом, серверы снова заработали в штатном режиме. Однако спустя еще пару месяцев практически каждую неделю стали «отваливаться» диски по одному.

Решалась проблема полным обесточиванием сервера для одних д исков и перепрошивкой – для других. Стабильность системной работы, соответственно, значительно снизилась.

В итоге руководство компании пришло к выводу о том, что такие SSD с технологией MLC не подходят для поддержания работы сервера данного масштаба. В качестве альтернативы стали искать варианты более качественного сегмента, на базе технологий SLC и eMLC. В силу непомерной дороговизны SLC-дисков выбор пал на eMLC-технологии. В качестве золотой середины среди таких вариантов, как диски HP,PNY и OCZ – последние подошли идеально по качеству и цене.

С этими дисками также возникли проблемы. Пришлось производить замену дисков.

Процесс замены и подключения SSD к серверам

На рабочей в тот момент платформе R1208GL4DS имелась возможность горячей замены дисковых накопителей. Едва ли такой технологией удивишь кого бы то ни было сегодня. Таким образом, были извлечены старые SSD, а на их место поставлены новые. Теперь сервер выпал из сети. В качестве решения был использован IPMI для подключения к серверу. И тут стало понятно, что сервер находится в состоянии постоянной перезагрузки.

Но самым страшным было сообщение о том, что загрузочное устройство отсутствует «No boot device available». При этом производилась замена не системных дисков, а дисков с данными. Получается, что даже при их отсутствии система должна была работать. Из панели RAID-контроллера не получалось найти ни одного рабочего диска, как нового, так и старого.

Первым решением было отключение новых дисков и повторная перезагрузка, которая в итоге помогла. Контроллеру удалось распознать старые диски, которые теперь имели статус «Unconfigured». По сути, это означало, что было произведено обесточивание корзины и/или контроллера на физическом уровне. Явно проблема была в новых дисках. При подключении их к обыкновенному персональному компьютеру все работало исправно. А вот при повторном подключении к серверному оборудованию диски пропадали.

Толкование проблемы и ее решение

Служба техподдержки рабочей платформы растолковала сложившуюся ситуацию примерно так: как известно, большинство SATA/SAS-дисков, имеющие магнитные носители запитаны сразу от двух источников электрического тока на 12 и 5 Вольт. Двенадцативольтовое питание обеспечивает работу механической части диска, в то время как пятивольтовое решение поддерживает в рабочем состоянии его электронную часть. Таким образом, основная питающая нагрузка приходится на двенадцативольтовую шину.

Таким образом, основная питающая нагрузка приходится на двенадцативольтовую шину.

А вот SSD-диски имеют несколько иной принцип работы. Причем бывают они двух типов – один имеет основное питание по шине на 12 Вольт, а основное питание в них проходит по пятивольтовой шине. К примеру, дисковые накопители производства Intel оборудованы специальным контроллером, преобразующим 12В в 5В. А вот вышеупомянутые SSD-диски от OCZ шину на 12 Вольт не используют в принципе, а потому основная нагрузка в данном случае приходится на шину в 5В.

Иными словами при подключении таких SSD к серверному оборудованию получалась перегрузка по пятивольтовой шине, а контроллер питания от Intel автоматически включал защиту, обесточивавшую все дисковые накопители.

При изучении корзины выяснились интересные подробности – на нее с блока питания идет лишь 12 Вольт. Это означает, что пятивольтовое напряжение формирует сама корзина, равно как и самой корзиной осуществляется контроль нагрузки. Данное предположение подтвердилось после поиска решения проблемы на различных форумов системного администрирования.

Получается, что корзина создает пятивольтовое рабочее напряжение, используя IR3837MPbF-контроллер, который обеспечивает защиту оборудования от перегрузок. В DataSheet к этому контроллеру была указана возможность выдерживать нагрузки до порога в 14 ампер. Получается, что разработчики Intel решили подстраховаться с ограничением нагрузки минимум вдвое. Здесь же была указана информация о расчете ограничения, производящегося по замысловатой формуле, а также его смене посредством R-OCSet-резистора.

Таким образом, проблема крылась лишь в одном резисторе, который всего-навсего необходимо было перепаять. Такая перепайка позволяет изменить порог срабатывания электрозащиты, что позволит дискам нормально работать в составе текущего серверного оборудования. В итоге все было перепаяно и, естественно, заработало.

Надеемся, что данная история поможет кому-то из вас сэкономить время и нервы на решение подобных проблем, когда совершенно непонятно, почему SSD не желает работать при прямом подключении к серверному оборудованию.


Возврат к списку