Большие Данные начинаются с больших проблем, вызванных необходимостью хранить и обеспечивать доступ к массивам данных, причем оказалось, что требуются новые решения как на уровне архитектур систем хранения (облачное хранение и резервирование, распределенные хранилища), так и на физическом уровне. Сейчас хранение данных распределено по четырем основным типам устройств: жесткие диски (Hard Disk Drive, HDD), оптические диски (Optical Disk Drive, ODD),твердотельные накопители (Solid State Drive, SSD) и магнитные ленты. Принятая прежде двухуровневая схема из дисков SAS, SATA и лент устарела — сегодня требуются новые технические решения. Флэш-память NAND и переход на трехуровневую стали первыми шагами в этом направлении.
Тенденции
На сегодняшний день 70–80% всех данных в мире приходится на HDD, емкость которых растет главным образом за счет повышения плотности хранения — ежегодный прирост составляет 40%. Кроме этого, имеется еще ряд направлений усовершенствования качества HDD — например, для улучшения соотношения сигнал-шум предложена канальная технология IDRC (Iterative Detection Read Channel), развиваются методы передачи данных, использующие коды с исправлением ошибок, усовершенствованные сервомеханизмы в приводах головок.
Современный жесткий диск представляет собой сложную сбалансированную композицию взаимосвязанных технологий, причем изменение одной из них влияет на другие и на систему хранения в целом. Например, улучшение соотношения сигнал-шум открывает возможности к переходу на облегченные коды с малой плотностью проверок на четность (Low-Density Parity-Check code, LDPC code) вместо применения более «тяжелых» кодов Рида — Соломона с исправлением ошибок (Reed-Solomon Error Connection Code, RS-ECC), что позволяет повысить суммарную производительность систем хранения. Однако самая критичная характеристика — плотность записи, и в ближайшие годы ее рост обеспечат несколько новых технологий: размеченный (структурированный) носитель данных ( Bit Patterned Media, BPM), запись с энергетической поддержкой (Energy Assisted Magnetic Recording, EAMR) и черепичный метод записи (Shingled Magnetic Recording, SRM). Менее радикальным будет появление дисков, корпуса которых заполняются гелием. Ожидается, что благодаря этим новациям к 2017 году плотность записи на HDD приблизится к 5 Тбайт на квадратный дюйм.
Диски на флэш-памяти при всех их достоинствах все еще уступают HDD по живучести носителя (write endurance), по числу циклов записи, которое выдерживает ячейка, а также по сохранению записанных данных (data retention). Дальнейшее развитие технологий SSD будет нацелено на компенсацию этих недостатков — будут развиваться методы повышения живучести, способы продления жизни ячеек (wear leveling technique), технологии сборки мусора и консолидации фрагментов, а также другие технологии, попадающие в разряд S.M.A.R.T (Self-Monitoring, Analysis and Reporting Technology). Для продления сохранности данных создаются специальные средства наблюдения (SSD patrol functionality), а комитет инженеров, специализирующихся в области электронных устройств (Joint Electron Device Engineering Council, JEDEC), куда входят все основные производители флэш-памяти, разрабатывает соответствующие стандарты.
Нынешние продукты SSD делятся на клиентские (для персональных устройств) и корпоративные (для серверов и систем хранения). В клиентских используется дешевая многоуровневая технология (Multi Level Cell, MLC), а в корпоративных — одноуровневая (Single Level Cell, SLC) и (реже) MLC, гарантирующие в 3–5 раз больший срок жизни [1]. Корпоративные SSD используются в критически важных приложениях, поэтому имеют более высокую надежность и производительность. Переход с SLC на MLC связан с необходимостью уменьшения стоимости хранения.
SSD и HDD удачно дополняют друг друга, а если учесть, что HDD делятся на две категории — более медленные, но емкие 3,5-дюймовые, вращающиеся со скоростью 7,2 тыс. оборотов в минуту, и более быстрые, но менее емкие 2,5-дюймовые, вращающиеся со скоростью 10–15 тыс. оборотов в минуту, — то появилась возможность строить трехуровневые системы хранения. На Tier-0 размещают SSD — 80% всех данных системы хранения, а оставшиеся 20% — на всех остальных уровнях.
HDD
Из распространенных определений Больших Данных (например, «4V»: Volume — объем, Velocity — скорость, Veracity — достоверность, Variety — разнообразие) следует, что поддерживающие системы хранения должны сочетать два качества — быть одновременно емкими и быстрыми. Однако сегодня нет какой-то одной единственной предпочтительной технологии хранения, отвечающей сразу двум этим требованиям: классические HDD удовлетворяют первому, а SSD — второму. Потенциал HDD далеко не исчерпан, а потенциал SSD еще только раскрывается.
За восемь лет, прошедших с момента публикации [2], многое изменилось — тогда о вертикальной или перпендикулярной записи (Perpendicular Magnetic Record, PMR), обеспечивающей большую плотность, чем традиционная горизонтальная или продольная, говорилось в будущем времени, а сегодня этот метод стал основным. Одновременно многие из названных тогда технологий стали реальностью и нацелены на так называемую трилемму магнитной записи: способность к чтению (Readability), способность к записи (Writeability) и стабильность (Stability).
Гелиевые диски
Заполненные гелием диски представляются сегодня наиболее простым и, следовательно, практичным решением. Если корпуса дисков сделать герметичными и заполнить гелием, то в результате уменьшится внутренняя турбулентность, возникающая вокруг головок, а значит, откроется возможность увеличить число пластин и головок, что, в свою очередь, позволит увеличить емкость накопителя (в первых версиях до 6 Тбайт) и повысить производительность. Одновременно уменьшается трение вращающихся поверхностей о воздух — значит, уменьшается энергопотребление и открывается возможность устанавливать в стойку больше дисков при той же системе питания.
Размеченный носитель
Начиная от первого диска IBM RAMAC 350 (Random Access Method of Accounting and Control), имевшего плотность записи примерно 2 Кбит на кв. дюйм, и до современных дисков с перпендикулярной записью, у которых теоретический предел плотности равен 1 Тбит на кв. дюйм, поверхность носителя представляет собой непрерывное пространство магнитных доменов, способных менять магнитную ориентацию. При записи одного бита осуществляется перемагничивание группы из нескольких десятков или нескольких сотен доменов, и чем меньше размер доменов и меньше число доменов в группе, тем плотнее запись. Непрерывность предполагает использование группы доменов, что десятилетиями сохранялось неизменным, однако любое масштабирование вверх или вниз не бесконечно — рано или поздно возникают физические ограничения, например: соотношение шум-сигнал (signal-to-noise ratio, SNR) и термостабильность. Чем меньше размер домена, тем менее стабильно его состояние, размер одного домена определяет предел миниатюризации, ниже которого опускаться невозможно. Однако это не тупик в развитии магнитной записи — есть близкое по смыслу решение, построенное на примерно тех же принципах магнитной записи. Можно увеличить размер доменов, но уменьшить их число в группе до одного: в итоге плотность заметно повысится — в соответствие одному записываемому биту можно поставить один, но достаточно крупный и, следовательно, более стабильный магнитный домен. Этот домен может быть как однокристаллическим, так и поликристаллическим. Теоретически плотность записи можно повысить на порядки по сравнению с вертикальной записью, но в первых экспериментальных дисках полученная плотность была существенно ниже — 2–3 Тбит на кв. дюйм.
Рис. 1. Диск BPM |
Для того чтобы одному биту соответствовал один домен, нужен предварительно размеченный носитель данных, и первый патент на BPM был получен японскими учеными еще в 1989 году. Однако более двадцати лет ушло на преодоление трех видов проблем: физика на уровне отдельно взятого домена; литография для нанесения магнитного слоя на носитель; принципиально новая механика головок. Ключевым моментом в технологии BPM является электронно-лучевая литография (Electron Beam Lithography, EBL), и основная сложность состоит в том, что прецизионную технологию надо распространять на изделия, выпускаемые миллионными тиражами. В 2007 году компания HGST, ныне входящая в Western Digital, вместе с Seagate разработала план производства дисков по технологии BPM, в основе которого была технология тиражирования. Сначала изготавливается один эталонный шаблон (master template), затем он копируется в 10 тыс. экземплярах, в свою очередь служащих шаблонами, и, наконец, по каждому из них может быть воспроизведено еще 10 тыс. рабочих дисков. Изготовление эталонного шаблона и его копирование — два совершенно разных технологических процесса, причем первый с научной точки зрения более сложен. Потребовалось создать новые методы литографии и использовать материалы, обладающие способностью к «самосборке» (Self-assembling). Не последнюю проблему составляет и принципиально новая механика BPM, которая должна обеспечивать взаимодействие с управляющими серводорожками, расположенными на диске (рис. 1).
Запись с энергетической поддержкой
Если повысить стабильность хранения, то можно снизить размер домена ниже порога, допускаемого сегодняшней технологией PMR. Для этого следует в момент записи передать в магнитную точку некоторую дополнительную энергию, временно понижающую коэрцитивную силу ферромагнетика. Энергия передается в момент записи, а затем коэрцитивная сила восстанавливается до исходного значения, обеспечивая более высокую стабильность. Такие решения получили название «запись с энергетической поддержкой» (Energy Assisted Magnetic Recording, EAMR). Сегодня известны две возможные реализации EAMR, одна — запись с разогревом при помощи лазерного луча (Heat Assisted Magnetic Recording, HAMR), другая — запись с воздействием высокочастотным излучением (Microwave Assisted Magnetic Recording, MAMR).
Рис. 2. Запись с энергетической поддержкой (метод HAMR) |
Общие соображения о том, что подогрев улучшает запись, известны с 50-х годов, но только недавно появились миниатюрные лазеры, которые могут мгновенно разогреть поверхность носителя (рис. 2), понизив коэрцитивную силу ниже значения, позволяющего головке осуществить запись. Хотя сказанное звучит просто, реализация HAMR на практике связана с серьезными исследованиями, особенно в оптике ближнего поля (near field optics) и материаловедении, требующими разработки качественно новых головок, сочетающих в себе два инструмента: магнитный и оптический. Дальше всех в этом направлении продвинулась Seagate — возможно, через пару лет появятся ее первые готовые продукты на базе HAMR.
Первые работы по замене тепла на высокочастотное излучение начались несколько лет назад, и здесь лидирует компания Hitachi. В MAMR все примерно то же, что и в HAMR, за исключением способа воздействия на носитель — вместо оптики применяется излучение.
Черепичные диски
Технологии BPM и EAMR чрезвычайно наукоемки и требуют для своей реализации создания принципиально новых производств, поэтому ожидать их скорого и быстрого распространения сложно. К счастью, в дополнение к ним есть еще одна технология, образно названная черепичной, которая может обеспечить близкие по плотности показатели, не требуя радикальных технологических трансформаций. Однако черепичная запись не поддерживает полноценного прямого доступа к данным.
Рис. 3. Расположение треков в SRM |
В SRM используются практически те же самые технологии магнитной записи, что и в PMR, — отличие в ином расположении треков на поверхности дисков (рис. 3). На всех существующих ныне дисках треки представляют собой концентрические окружности шириной w, разделенные промежутком g. В SRM же слои шириной w накладываются со сдвигом r. В результате виртуальная магнитная поверхность увеличивается за счет большей величины w и за счет большего числа слоев — следовательно, при равной плотности записи на ней можно разместить больше данных. Из нескольких треков, наложенных друг на друга, образуется своего рода супертрек. Очевидно, что рабочим участком, на котором работают головки чтения-записи для каждого трека, кроме самого верхнего в супертреке, является зона r. Достоинство технологии SRM в том, что она позволяет, работая только с областью r, записывать по всей ширине w, а недостатком является то, что запись ведется одновременно в сегменты всех треков, входящих в супертрек. В результате диск нельзя рассматривать как устройство с полноценным прямым доступом к данным — все его пространство хранения разделено на короткие последовательности с длиной, равной числу треков в супертреке. Для преодоления этого недостатка можно пойти примерно тем же путем, как во флэш-памяти, где блоки освобождаются перед записью с помощью ПО Flash Translation Layer. В SRM можно использовать аналогичное ПО Shingle Translation Layer или нечто подобное.
Двумерная запись
Качественно новым словом в развитии HDD может стать двумерная магнитная запись (Two-Dimensional Magnetic Recording, TDMR), отличающаяся принципиально новыми алгоритмами обработки сигналов, включая обнаружение и декодирование. Конечная задача состоит в хранении в одном домене одного бита, причем, в отличие от BPM, домены являются естественными и небольшими. То есть в TDMR ставится сложная задача — до полного физического предела использовать потенциальную возможность магнитного носителя хранить биты. Теоретически в такую память можно записать ровно столько битов, сколько имеется доменов, причем это не искусственно созданные крупные домены, как в BPM, а кристаллы намного меньшего размера. На пути к TDMR необходимо преодолеть массу сложностей. По замыслу это решение напоминает магнитную память на ферритовых ячейках с тем отличием, что размеры ячеек в миллионы раз меньше и расположены не в виде регулярной матрицы с прошивкой проводами, а случайным образом и не на одной поверхности. Здесь придется решить два рода проблем, одна из них физическая, другая математическая. Физическая состоит в том, как адресоваться к отдельно взятому домену, для этого потребуются двумерные датчики и двумерные кодеры/декодеры. Решение математической проблемы связано с созданием алгоритмов обработки двумерных сигналов, и здесь предлагается использовать диаграмму Вороного, названную по имени российского математика Георгия Вороного (1868—1908). (Если имеется множество из n различных точек плоскости, то диаграмма Вороного — это такое деление плоскости на n ячеек, по одной на каждую точку, при котором точка принадлежит ячейке, если расстояние от нее до точки плоскости ячейки меньше, чем расстояние до любой другой точки плоскости. — Прим. ред.)
Проблемы и альтернативы флэш-памяти
Миниатюризация флэш-памяти уже перешла порог 10 нм. Ообъявлена новая технология TLC (Triple Level Cell), позволяющая хранить три бита в ячейке; TLC дешевле и плотнее, чем SLC и MLC. Однако корпоративное будущее флэш-памяти далеко не безоблачно — например, обеспечение надежности и долговременности хранения требует усложнения системного ПО и увеличения объемов резервной памяти, которой уже сейчас может быть вдвое больше, чем основной. Вместе с тем на текущий момент серьезной конкурентоспособной альтернативы по отношению к флэш-памяти нет, но имеется ряд перспективных подходов.
Резистор с памятью (Memristor). Эффект перехода проводника в измененное состояние при прохождении электрического тока был обнаружен сэром Хэмфри Дэви , учителем Майкла Фарадея, раньше, чем получили свои названия три основных пассивных элемента: сопротивление, индуктивность и конденсатор. Но до 2008 года, то есть 200 лет, этот эффект не находил практического применения, пока в HP Labs не занялись исследованием тонких пленок из диоксида титана. Оказалось, что мемристоры могут стать заменой не только флэш-, но и других типов памяти, причем на пути мемристоров, по утверждению исследователей, нет серьезных технологических проблем, и к исходу нынешнего деятилетия они могут стать основой для коммерческих изделий. Через тонкую пленку двухкомпонентного полупроводникового материала TiO2 $2 нижний индекс$ пропускают ток, приводящий к изменению кристаллической структуры и увеличению сопротивления на несколько порядков, причем при отключении источника тока это изменение сохраняется.
Магнито-резистивная память с произвольным доступом (Magneto-resistive Random-Access Memory, MRAM). Создание MRAM стало возможным благодаря открытию в 1988 году эффекта гигантского магнитного сопротивления, за которое в 2007 году физикам Альберту Феру и Петеру Грюнбергу была присуждена Нобелевская премия. MRAM объединяет преимущества традиционных полупроводниковых и магнитных технологий. В отличие от DRAM, в MRAM данные записываются не с помощью электрических зарядов, а путем магнитной поляризации элементов памяти, что обеспечивает энергонезависимость — возможность сохранять записанные в ячейки данные при отключении питания. MRAM состоит из двух ферромагнитных слоев, разделенных тонким слоем диэлектрика. Один из слоев представляет собой постоянный магнит определенной полярности, а намагниченность другого слоя изменяется под действием внешнего поля. Логически MRAM организована как сетка из отдельных ячеек, содержащих элемент памяти и транзистор. Известно несколько способов записи — от простейшего (но энергоемкого) до технологии переноса спинового момента. Считывание намного проще — достаточно измерить электрическое сопротивление ячейки.
С 1995 года агентство DARPA финансировало работы в этой области с участием компаний IBM, Motorola и Honeywell, а Hewlett-Packard, Matsushita, NEC, Fujitsu, Toshiba, Hitachi и Siemens вели собственные исследования. Однако пока до серьезной коммерциализации никто не дошел. Стоит отметить, что компания «Крокус Наноэлектроника», совместное предприятие Роснано и франко-американской Crocus Technology, запустила первую очередь MRAM на территории технополиса «Москва».
Память с изменением фазового состояния (Phase-change memory или PRAM). Появлением PRAM мы обязаны Стэнфорду Овшинскому, которого за его преданность науке и независимость мышления сравнивают с Эйнштейном, а за количество изобретений — с Эдисоном. Овшинский изучал способность халькогенидного стекла (chalcogenide glass) переходить из аморфного в кристаллическое состояние и обратно под воздействием тепла. В середине 50-х независимо от Овшинского халькогенидные стеклообразные полупроводники были открыты Б. Т. Коломийцем и Н. А. Горюновой в Физико-техническом институте им. А. Ф. Иоффе — признано, что это открытие положило начало физике неупорядоченных полупроводников.
В PRAM используется тот факт, что в кристаллической фазе электрическое сопротивление халькогенида мало, а в аморфной — велико, что можно применить для двоичной записи. Переключение состояний осуществляется путем нагрева материала электрическими импульсами. Такая операция записи в отличие от флэш-памяти не требует стирания записанных ранее данных, что сокращает время. Скорость записи составляет порядка 10 наносекунд, что вполне сопоставимо со скоростью DRAM, при том что PRAM энергонезависима. Однако запись производится путем нагрева ячейки памяти — как следствие, для работы микросхемы требуется больше энергии, что означает повышенные токи и напряжения по сравнению с флэш-памятью. Долгое время лидером в области PRAM была компания Numonyx, но с 2014 года (после поглощения ее компанией Micron) это направление развивает только Samsung.
Память на доменной стене (Domain-Wall Memory, DWM). В основе DWM лежит перемещение магнитных доменов в нанотрубках с помощью спиновых токов (отсюда ее второе название — «беговая дорожка»). Магнитные домены перемещаются вдоль наноскопических трубок, и когда домен проходит мимо магнитных головок, расположенных вдоль трубки, происходит его переориентация. Первый образец такой памяти был продемонстрирован в 2008 году, и потенциально она может обеспечить существенно большую плотность записи, чем флэш-память, однако имеются проблемы, связанные с низкой скоростью перемещения магнитных доменов по нанотрубкам. На скорость передвижения влияют неоднородности в трубках.
Атомная память (Atomic memory). В январе 2012 года группа исследователей из IBM объявила о создании памяти, в которой для хранения одного бита достаточно 12 атомов — такая плотность на два порядка превышает все известные способы хранения. Работа выполнена совместно с немецким исследовательским центром German Center for Free-Electron Laser Science. Пока речь не идет о практическом применении этой памяти — ученым удалось лишь с помощью сканирующего туннельного микроскопа собрать атомную структуру и записать в нее девиз корпорации IBM «Think» в коде ASCII. Важно, что эта работа открывает возможность классическим цифровым компьютерам выйти на атомарный уровень, доступный квантовым компьютерам.
***
Эйфория по поводу возможностей Больших Данных сменилась осознанием того, что уже известные технологии не в состоянии избавить от всех связанных с ними проблем. Решения на основе традиционных систем хранения не позволят создать комплексы, обрабатывающие огромные массивы разнообразных данных по мере их поступления. Вместе с тем Большие Данные стали отличным стимулом для поиска перспективных подходов к преодолению проблем флэш-памяти и расширения пределов использования магнитных носителей.
Литература
- Леонид Черняк. Флэш-память в лицах // Открытые системы.СУБД. — 2013. — № 2. — С. 12–16. URL: http://www.osp.ru/os/2013/02/13034536 (дата обращения 22.05.2014).
- Леонид Черняк. Что диск грядущий нам готовит? // Открытые системы.СУБД. — 2006. — № 6. — С. 35–37. URL: http://www.osp.ru/os/2006/06/2700485 (дата обращения 22.05.2014).
Леонид Черняк (osmag@osp.ru) — научный редактор, «Открытые системы. СУБД» (Москва).