В современном мире бизнес все больше осознает, что его главная ценность заключается не в активах или производстве, а в данных. Компании любых размеров и любых сфер деятельности приходят к пониманию, что исследование, обработка и анализ информации позволяют выстроить процесс работы максимально эффективно.
Портал Сomnews поговорил с архитектором облачной платформы Mail.ru Cloud Solutions Александром Волынским о том, как в бизнесе происходит выстраивание культуры работы с массивом данных.
По словам эксперта, компании, начиная с работы в ERP и CRM-системах, постепенно приходят к понимаю, что большой объем разрозненной информации эффективнее собирать и хранить в одном месте, чем отыскивать ее в различных базах данных. Так создается Data Lake (озеро данных), которое становится основным хранилищем разного рода корпоративных данных, собранных со всех ресурсов компании.
При этом собеседник портала обращает внимание, что при наполнении Data Lake компания может столкнуться с рядом ошибок. «Например, загружаемая информация может дублироваться из-за того, что разные отделы выгружали в хранилища данные из одних и тех же источников. На этапе выгрузки компании часто жертвуют безопасностью данных в угоду скорости реализации проекта. В итоге доступ к хранилищу предоставляется большому количеству сотрудников, а на проверку и чистку загружаемой информации закрывают глаза», — цитирует его слова Сomnews.
Таким образом Data Lake может превратиться в Data Swamp (болото данных), которое не несет никакой пользы для организации. Среди собранных вместе, но не структурированных данных найти необходимую информацию становится тяжело. Это может привести к тому, что пользователь разочаруется в новой системе и вернется к ручной обработке данных.
Чтобы избежать «заболачивания» специалист рекомендует:
— систематизировать подход к построению Data Lake;
— контролировать процесс подключения источников и сбор информации;
— помнить об информационной безопасности и следить за уровнями доступа.
Если погружения в «болото» избежать не удалось, эксперт советует создать хранилища данных или Data Warehouse (DWH). Если же «заболачивания» не произошло, интеграция DWH с Data Lake может стать следующим этапом развития культуры работы с данными.
С помощью Data Warehouse можно сформировать единый источник информации, исключающий ошибки и неточности, в том числе дублирование. «Решение предполагает очистку данных, приведение данных к определенным единым стандартам, что помогает структурировать систему и упростить дальнейший поиск. Минимизируются и угрозы информационной безопасности, так как зона ответственности по предоставлению доступа и загрузке закреплена за конкретными специалистами», — отмечает специалист.
При всей пользе такой подход усложняет систему. Некоторые сегменты должны будут иметь индивидуальный подход узкоспециализированных сотрудников. Дополнительная нагрузка ляжет и на аналитиков: для получения необходимой информации они сначала должны будут найти специалистов, ответственных за конкретную часть системы, и только за тем получить необходимую информацию.
Следующим этапом развития культуры работы с данными эксперт считает Data Governance (DG) — стратегическое управление информацией на корпоративном уровне. В этот период компания разрабатывает стратегию работы с данными, которая подходит именно ей, и структурирует информацию. DG в свою очередь становится основой для подхода Data Management (DM). Этот этап подразумевает управление данными на уровне практического применения.
Специалист отмечает, что высокий уровень культуры работы с данными характеризуется созданием каталогов информации с функцией Self-Service (самообслуживание). Такой подход позволяет создать структуру, которая будет удобна любому сотруднику компании, без ущерба для безопасности: источникам автоматически присваиваются теги и документация, пользователям предоставляются ограниченные сэмплы, формируется user interface. Подобные каталоги разрабатываются для того, чтобы работа с Data Lake и Data Warehouse стала доступной.
Для создания решения, которое поможет увидеть полную картину развития компании, эксперт рекомендует двигаться в сторону data-driven подхода (стратегии управления, основанной на данных). На этом этапе важны облачные сервисы, на базе которых можно автоматизировать задачи и получать масштабируемую инфраструктуру для обработки больших данных.
Эксперт Mail.ru Cloud Solutions обращает внимание на то, что у компаний разных масштабов подход к выбору облака отличается. Крупные организации отдают предпочтение частным облакам, которые размещаются в их центрах обработки данных. Причина кроется в повышенном внимании к информационной безопасности. Сегмент МСБ чаще выбирает публичные облака и решения по моделям PaaS и SaaS. Такие возможности предлагают различные варианты тарификации и возможности гибкого управления ресурсами, что удобно для компаний, не обладающих большим количеством узких специалистов.