Современные инновационные технологии достигли запредельных высот. Пиковая производительность самых мощных вычислительных машин в мире согласно рейтингу ТОП—500 превышает сотни ПФлопс. Ожидается, что в ближайшие несколько лет будут созданы супервычислительные системы уровня ЭФлопс. Сами по себе эти машины используются в весьма широком спектре исследовательских областей. К ним можно отнести исследование и прогнозирование свойств новых материалов, инженерию нового поколения в области нано— и био-, исследование космоса, финансы, страхование, потребление, ритейл и многое другое.
Ряд из этих задач решается в контексте глобальной проблемы BigData несмотря на то, что сами по себе большие данные не входили изначально в сферу приложения супервычислительных комплексов. Эти комплексы никогда не были предназначены для обработки больших и сверхбольших массивов данных, но использовались для ресурсоемких сложных модельных задач. Тест Linpack, который используется для ранжирования суперкомпьютерных систем, представляет собой решение чисто математической задачи, связанной с вычислением многомерной системы линейных уравнений. Грубо говоря, в вычислительный комплекс загружается одна задача, которая «гоняется» по процессорам многократно, но подгрузка или выгрузка крупных массивов данных в этом случае не происходит. В этом смысле, суперкомьютеры и BigData развиваются перпендикулярно. Они дополняют друг друга, предоставляя исследователю массу возможностей для детального погружения в прикладные и фундаментальные задачи. Глобально эти задачи сводятся к поиску новых смыслов, которые часто связывают с такими терминами, как сведения, данные, метаданные.
Если попытаться заглянуть в будущее новейших прорывных технологий, то тандем Supercomputing и BigData представляется весьма востребованным. Дело в том, что этот высокотехнологичный тандем позволит в будущем решать пласт принципиально новых исследовательских задач. К ним можно отнести DataMining нового поколения, в рамках которого осуществляется измерение и сопоставление ключевых характеристик сверхбольших многомерных матриц данных, автоклассификация, поиск неявных форм, автомоделирование, долгосрочное поточное прогнозирование и запланированные открытия.
На сегодняшний день не существует информационных средств и систем, позволяющих составить правдоподобный прогноз в гуманитарной и технической среде на перспективу 20—25 лет. Это является существенной проблемой при проектировании и прогнозировании развития глобальных систем.
Основными препятствиями на пути точного долгосрочного развития является нехватка комплексированных данных, сложность в организации процессов структурирования данных и организации информационных пространств, нехватка формализованных моделей вычислений в условиях высокой неопределенности. В то же время, сочетание уже существующих систем сбора, хранения и предоставления BigData с технологиями распределенных суперкомпьютерных вычислений может обеспечить комплексное решений таких задач. Для этого необходимо совместить массивы первичных данных с миллионами потенциальных пользователей суперкомпьютеров во всем мире, каждый из которых имел бы тогда возможность вычленения и использования полезной информации, содержащихся в больших информационных массивах. Если сегодня и существуют прообразы таких информационных организмов, то они возникают и исчезают пока хаотично.
В этом смысле большой интерес представляет собой проблема использования супервычислений в формате центров коллективного пользования. Какими должны быть эти центры? Что они должны предоставлять пользователю, какие задачи решать?
Для ответа на подобные вопросы имеет смысл обратиться к опыту передовых участников процесса, в том числе США, Китая, Германии, Японии и других. Как показывает анализ их проектов по супервычислениям, они стремятся создавать очень крупные вычислительные кластеры в единичном количестве, а обеспечивать доступ к ним удаленно откуда угодно. Иным путем идут другие страны, которые сохраняют накопленный ранее вычислительный потенциал в своих регионах. К таким странам можно отнести Россию, Бразилию, Индию, Австралию и другие. Какой подход лучше и продуктивнее? Покажет время.
Но уже сегодня понятно, что тенденция развития удаленного доступа к вычислительным мощностям усиливается. Не исключено, что она уже через пару лет начнет исчерпывать себя. Основная идея удаленного доступа к вычислениям состоит в том, что содержать у себя локально всю требуемую инфраструктуру очень дорого и неудобно. Это похоже на то, как если бы обычный автомобилист всякий раз возил бы грузовик топлива с собой. Сеть распределенных заправок или оптимальный расход топлива позволяют решить проблему доступа к материальному топливному ресурсу. Похожим образом сеть суперкомпьютерных центров по всему миру в сочетании с правильной постановкой вычислительных задач позволяет решить проблему доступа к информации, данным и знаниям.
В такой аналогии BigData – это информационное топливо, а Supercomputing – это двигатели для переработки данных и генерации смыслов