Возрождение дедупликации и применение ее в массивах СХД

Акция! Скидка 32% на серверы Karma Neuro 1U 8SFF со склада в Москве на базе 2х Intel Xeon Gold 5218R 20 ядер за 400 000р вместо 590 000р! Спешите! Количество ограничено.

Спецпредложения

Посмотреть все
спецпредложения

Сегодня дедупликация переживает второе рождение, становясь неотъемлемой частью технологий, применяемых в обработке современных массивов данных. Однако наличие этой функции не всегда обеспечивает заказчикам ощутимые преимущества, ведь ее эффективность во многом определяется особенностями данных. Администраторам следует помнить, что возможности дедупликации не безграничны. Чтобы оценить целесообразность ее использования для ваших конкретных нужд, стоит внимательно изучить нюансы процесса. Дедупликацию окружают множество мифов, развенчание которых поможет избежать множества ошибок при работе с вашими СХД.

Коэффициент дедупликации: взвешенный подход к оценке

Функция дедупликации доступна для массивов, содержащих и продуктивные данные, и резервные копии. В зависимости от типа данных коэффициенты их сокращения могут значительно отличаться. Ошибочно полагать, что показатель, достигнутый в рамках обработки архивного массива, можно применить и к продуктивному хранилищу.

Правильный расчет коэффициента позволит не ошибиться при определении нужного размера хранилища, поэтому следует проводить предварительные тестирования перед покупкой. Такой подход поможет избежать лишних трат и рассчитать оптимальную стоимость покупки, удовлетворяющую всем конкретным нуждам.

Определение правильного коэффициента дедупликации – важнейший этап организации мультизадачных конфигураций массивов. Анализ основных мифов поможет избежать досадных просчетов и осознанно подойти к покупке хранилища оптимального объема.

Разберем основные заблуждения, связанные с функцией дедупликации в массивах.

Чем больше коэффициент дедупликации, тем больше вы получаете преимуществ

При сравнении предложений разных вендоров обращайте внимание не только на величину коэффициента сокращения данных, но и совокупную стоимость владения. Это поможет оценить реальную экономию объема в условиях сокращения требований к ресурсам. На практике коэффициент 50:1 помогает на 98% уменьшить объем данных, что лишь на 8% больше показателя коэффициента 10:1.

При оценке преимуществ, которые дает тот или иной коэффициент дедупликации следует опираться на закон убывающей доходности. Чем выше коэффициент – тем меньше прирост реальных преимуществ. Это объясняется неизменным объемом одного фактора (объема данных) в условиях дополнительного увеличения затрат другого фактора. Это утверждение легко продемонстрировать на примере одного офиса. Увеличивая число работников, но не меняя площадь помещения, вы с каждым новым сотрудников ухудшаете условия труда, снижая прирост эффективности бизнес-процессов.

Дедупликация – четко определенный термин

Механизм сжатия, лежащий в основе дедупликации, заключается в удалении повторяющихся последовательностей данных. Процесс осуществляется на нескольких уровнях – файла, блока, контента или приложения. С целью повышения эффективности сжатия большинство решений сочетают дедупликацию и компрессию. Некоторые вендоры отождествляют эти термины, другие же выделяют особую технологию, предлагая продукты с функцией «уплотнения» (дедупликация+сжатие). Единого определения дедупликации не существует, но ее роль в процессах обработки массивов данных четко определена. Она помогает заказчикам экономично использовать пространство систем хранения и резервного копирования.

Линейка продуктов от HPE отличается функциональностью. Для СХД в массивах 3RAR создан программный комплекс под названием HPE 3PAR Thin Technologies, представленный следующими механизмами.

Thin Deduplication. Решение, позволяющее выполнить дедупликацию продуктивного массива в режиме онлайн без ущерба для показателей производительности.
Thin Provisioning. Технология для систем хранения 3PAR с функцией виртуализации дискового пространства, использующая внутреннюю карту хранимых блоков. Администратор получает к освобожденным ресурсам мгновенный доступ, так как массиву не потребуется проводить ревизию.
Thin Persistence и Thin Copy Reclamation. Технологии, позволяющие массиву 3PAR при освобождении физических ресурсов переводить блоки в соответствующий пул.
Thin Conversion. Решение, облегчающее процесс трансформации томов со старых массивов данных различных вендоров в «тонкие» тома для экономии ресурсов целевого хранилища.

Технологии можно использовать бесплатно без ограничений по функциональности и времени для всех СХД 3PAR.

Коэффициенты дедупликации продуктивных массивов и массивов с резервными копиями одинаковы

Алгоритмы дедупликации разных типов массивов отличаются. Некоторые задачи требуют большего числа ресурсов, поэтому коэффициенты сокращения данных сильно варьируются. Наибольшее влияние на этот показатель оказывает объем повторяющихся данных, который в каждом конкретном случае уникален. По

этой причине системы резервного копирования данных, содержащие большой объем повторяющихся данных, имеют наиболее высокий коэффициент дедупликации по сравнению с оперативными массивами.

В продуктах от HPE для оперативных массивов 3PAR используется особый сверхбыстрый алгоритм поиска повторяющихся данных с использованием микросхемы ASIC в каждом контроллере. Такой подход разгружает процессоры, делая их доступными для других важных задач, что обеспечивает непрерывность бизнес-процессов.

Данные ничем не отличаются между собой

Такое мнение ошибочно – все данные разные, что и определяет вариативность коэффициента дедупликации. На его значение оказывают влияние следующие факторы.

Тип данных. Данные, прошедшие программное сжатие, зашифрованные, мета- и потоковые данные отличаются минимальным коэффициентом дедупликации.
Срок хранения. Чем дольше хранится массив, тем больше в нем повторяющихся фрагментов данных, что обеспечивает наиболее высокий коэффициент дедупликации.
Степень изменяемости данных. Чем чаще в течение дня изменяются и обновляются данные массивов, тем меньше в нем повторяющихся фрагментов и ниже коэффициент дедупликации.
Механизм резервного копирования. Массивы с полными копиями сжимаются легче, чем массивы с дифференциированными бэкапами.

Коэффициент дедупликации на резервном массиве всегда выше, чем на основном.

Чтобы повысить уровень дедупликации, нужно сгруппировать несвязные данные.

Смешивая данные разного типа в общем секторе хранения, администраторы пытаются расширить набор уникальных данных, чтобы повысить количество повторяющихся фрагментов. Однако для несвязных данных такой подход не работает, ведь повторяющиеся фрагменты заключены в разных форматах. В этом случае пул становится слишком массивным, что лишь затрудняет процесс поиска повторяющихся данных. Лучшее решение для повышения производительности процесса дедупликации – разделение данных на сектора по типу.

Ожидаемый коэффициент дедупликации можно получить уже после первого резервного копирования

Это ошибочное мнение формируется по результатам сравнения коэффициентов на оперативном массиве и системах резервного копирования. Если вы храните всего одну копию данных, то сможете получить показатель дедупликации, незначительно превышающий единицу. По мере роста количества резервных копий похожих данных вы сможете наблюдать увеличение показателя коэффициента дедупликации.

При первом резервном копировании вы сможете достигнуть определенного показателя дедупликации, но по мере роста числа копий в пуле коэффициент сокращения данных будет увеличиваться. Значительный его рост наблюдается уже после появления второй копии, ведь первые 2 бэкапа очень похожи на блочном уровне.

Уровень дедупликации нельзя увеличить

Искусственно увеличить уровень дедупликации в маркетинговых целях предельно просто – достаточно хранить большое количество копий одних и тех же данных.

Заказчик преследует иные цели и фиктивно высокий показатель дедупликации его не устроит, ему нужна эффективно работающая схема резервного копирования. Сравнение политик показывает, что для достижения наиболее высокого коэффициента дедупликации необходимо использовать механизм создания полных дневных копий. Однако следует понимать, что изменения в политике резервного копирования в значительной мере повлияют на фактический объем хранимых данных.

Заранее спрогнозировать коэффициент дедупликации невозможно

На практике это действительно непростая задача, однако решить ее помогут наборы утилит от различных производителей. Наборы программ для резервного копирования и основных систем, которые помогают получить подробную информацию о типе данных в массиве, сроке их хранения и используемой политики резервного копирования. На основании этих данных можно получить весьма четкие представления об ожидаемом коэффициенте сжатия данных. Для более точного представления прогноза производители также используют данные, полученные от заказчиков при работе в похожей среде и условиях. Несмотря на объективные основания для прогноза, гарантировать, что на практике вы получите эквивалентный показатель дедупликации, вендоры не могут.

Снижение стоимости хранения данных на каждом Гб Flash-накопителей и стремительный рост объемов SSD снижает актуальность использования технологий дедупликации в условиях оперативных хранилищ. Однако для систем резервного копирования эта функция становится все более актуальной.

Компания HPE разработала утилиты, помогающие рассчитать необходимый объем хранилища, что поможет рационально использовать ресурсы бизнеса.

Утилита, позволяющая оценить текущую утилизацию оперативного хранилища данных и оценить преимущества перехода на 3PAR.
Программы для оценки утилизации систем резервного копирования и построения прогноза роста объема данных. Программа бесплатна, достаточно разрешить отправку данных о состоянии массива в службу технической поддержки HPE.

Существует иное видение рационального использования ресурсов в будущем, отличное от метода дедупликации – удаление копий одних и тех же данных. Такой подход потребует кардинальных изменений существующей инфраструктуры с последующим внедрением технических мер и новых правил для приложений с целью минимизации снижения их производительности и защищенности.

Только время покажет, какое направление одержит победу в существующей на сегодняшний день дискуссии об эффективном использовании данных.