banner
Дом / Блог / Сетка данных по сравнению с другими вариантами управления данными
Блог

Сетка данных по сравнению с другими вариантами управления данными

May 01, 2023May 01, 2023

Гетти Изображения

У организаций, которые стремятся получить больше пользы от данных, есть множество стратегий, из которых можно выбирать. Обязательно ознакомьтесь с вариантами и их соответствующими ограничениями, чтобы выбрать правильную архитектуру данных.

Организации не должны упускать из виду потребности в данных и стратегию обработки данных при покупке инструментов. Если они это сделают, они могут сделать неоптимальный выбор технологий и недооценить управление данными, безопасность и конфиденциальность, говорит Сруджан Акула, генеральный директор The Modern Data Company, которая предоставляет операционную систему данных.

«Профессионалы должны уделять приоритетное внимание общению, привлекать заинтересованные стороны и обеспечивать всестороннее понимание целей и требований своей организации, прежде чем внедрять какое-либо решение по архитектуре данных», — сказал Акула. Кроме того, обучение персонала и развитие навыков являются важными частями внедрения технологий.

Сетка данных — это последняя глава в эволюции архитектур данных. Архитектуры анализа данных начинались с хранилищ данных, а затем превратились в озера данных. Сетка данных — это третья версия, которую стоит рассмотреть организациям.

«Сетка данных отвечает как потребностям масштаба и разнообразия данных, так и скорости получения информации из этих систем», — сказал Рави Маюрам, технический директор компании Couchbase, занимающейся базами данных NoSQL с открытым исходным кодом.

В этой статье рассматривается, что такое сетка данных и чем она отличается от других распространенных подходов, включая хранилища данных, озера данных и фабрики данных. Он также предоставляет практические советы для организаций, реализующих подход, основанный на ячейке данных.

Сетка данных решает проблемы масштабирования данных и аналитики в сложных организациях. Сетка данных — это децентрализованная архитектура данных, которая организует данные по доменам и преимущественно ориентирована на людей и процессы. Жамак Дегани, генеральный директор Nextdata, впервые разработала эту концепцию, когда работала в технологической консалтинговой компании Thoughtworks.

Он имеет четыре основных принципа:

Этот подход противопоставляет сетку данных централизованным группам и структурам данных. «Эти централизованные команды пытаются решить все проблемы», — сказал Лиор Гавиш, технический директор поставщика решений для наблюдения за данными Monte Carlo Data. Сетка данных должна помочь компаниям масштабировать команды обработки данных. «Как мы можем дать возможность множеству разных команд эффективно и независимо друг от друга использовать данные?» - сказал Гавиш.

Хранилища данных имеют тенденцию быть монолитными и загружают данные в единую среду, функционируя как хранилище данных, которое поддерживает аналитику и принятие решений. Сетка данных позволяет создать распределенную среду, в которой данные не нужно перемещать, чтобы обеспечить ценность для бизнеса. Хранилище данных и сетка данных не являются взаимоисключающими, поскольку хранилище данных может быть частью сетки данных.

Философия хранилища данных состоит в том, чтобы создать единую версию истины и централизовать ее под контролем ИТ-специалистов. Хранилище данных — это платформа данных; именно здесь пользователи хранят и создают продукты данных.

«Сетка данных ориентирована на организационный образ мышления, который рассматривает данные как первоклассные продукты, принадлежащие отдельным доменам», — сказал Дипанкар Мазумдар, защитник разработчиков в Dremio, поставщике решений для открытого озера данных.

У подхода к хранилищу данных есть свои недостатки.

«Монолитные данные управляют сложными процессами управления изменениями и создают длительные сроки освоения новых технических специалистов», — сказал Джон Осборн, полевой технический директор компании Ascend.io, занимающейся автоматизацией конвейеров данных. «[Он также] пополняет нескончаемый поток инженерных работ запросами, которые должны обслуживаться самостоятельно».

Подобно хранилищу данных, озеро данных централизует хранение и обработку данных, хотя озеро данных может хранить как структурированные, так и неструктурированные данные преимущественно в файловом или объектном хранилище. Он также может стать частью сетки данных.

«Концепция сетки данных основана на слое сетки, который объединяет операционные источники данных и озера данных для конкретной предметной области», — сказал Маюрам.

По сути, при оценке подхода «озеро данных» или «ячеистой сети» или их комбинации руководитель обработки данных должен понимать, подходят ли архитектуры управления распределенными данными для его организации. Крупные организации со сложной архитектурой могут страдать от разрозненности данных и проблем с доступностью. Это затрудняет интеграцию данных из разных источников, говорит Боб Одет, партнер и руководитель управления данными в компании Guidehouse, предоставляющей консалтинговые, цифровые и управляемые услуги.