数据湖:数据集市和数据沼泽

image

记得是在2013年的Hadoop Summit上首次看到数据湖Data Lake)。考古了一下,知道Data Lake是Pentaho的CTO James Dixon提出的,这个数据湖是相对数据集市而言的。数据湖是用于存放原始数据的地方,会保留数据的原始格式,同时数据湖也会存放转化后数据,可以是数据库中的表格数据(表)、文件数据(CSV等)和二进制数据(图像等)。数据沼泽:难以提供有效数据查询能力、失去使用价值的数据湖。数据集市则是存放相对干净的表格数据,但是数据集市会造成数据竖井,这也是传统数据库技术扩展性差造成的。而数据湖的则不同,目前数据湖的技术主要是Hadoop,Hadoop最大的优点是HDFS的可扩展性,而且可以承载各种形态的原始数据和表格数据,这个也是前文说过的一个特性,叫做多模数据库。”starting to extract and place data for analytics into a single, Hadoop-based repository.”

 

一、大云数据湖(Big Cloud Data Lake)

苏州研发中心是国内最早研究Hadoop的单位。BCH(Big Cloud Hadoop)是国内最早的Hadoop发行版之一。2007年启动“大云”项目,2010年首次在双业务云中使用BC-HugeTable产品用于存储业务网关的日志数据,算是一种初级形态的数据湖。此后围绕Hadoop提供了大量的工具支持,包括BC-BDPAAS、BC-ETL、BC-PDM(并行数据挖掘)、BC-MPP、BC-Streaming、BC-Crawler、BC-DM、BC-HSmart等各种系统和工具,形成了完整的数据湖解决方案。

随着Hadoop在集中化经分、网络部性能管理系统的大规模商用,大云数据湖的技术日趋成熟。在一个系统中可以承载网络日志文件、Hive 数据库、HBase数据库、SparkSQL、SparkStreaming、Storm、Solr、ElasticSearch等各种数据,而且也存储来自互联网的网页数据。

(1)在源头处可以利用BC-ETL、BC-Streaming、BC-Crawler引入原始数据

(2)用BC-DM对数据进行集中管理,便于开展数据治理

(3)用BC-HSmart对整个数据湖开展健康检查和智能运维

(4)支持与自有BC-MPP和现有主流数据仓库(Teradata、Vertica、GP、Oracle、GBase 8a)等各种数据集市对接

(5)支持和K8S整合,托管各种新型数据应用,并开展统一管理

(6)支持和BC-PDM数据挖掘工具集成,便于数据可视化

image

 

二、公有云服务商提供的数据湖

1、Azure Cosmos DB

Cosmos DB有几个重要的特性使之可以成为数据湖技术。首先是具备较好的可伸缩性;其次是多模数据库(KV、图、文档、列),支持6种公开接口;高性能,可保证第 99 个百分位数上的读取延迟低于 10 毫秒和写入延迟低于 15 毫秒(已编入索引);实现 99.999% 高可用性。

下图是CosmosDB在IOT的用例,可以看到居然用Cosmos DB存放热数据,90天,而SQL DW和Storage却是当做冷数据来使用的

image

2、Amazon S3

这个是耳熟能详的大规模、可伸缩的数据存储技术,但是仅仅是存储而已。那么怎么可能成为数据湖呢,原来Amazon还提供了3种新型技术

S3 Select

Amazon S3 Select 旨在采用更快且更便宜的方式,帮助分析和处理 Amazon S3 存储桶对象内的数据。它的工作原理是,通过使用简单的 SQL 表达式,提供从 Amazon S3 内对象中检索数据子集的功能。您的应用程序不必再使用计算资源即可扫描和筛选对象内的数据,从而使查询性能提升最高达 400%,使查询成本降低最高 80%。您只需将应用程序更改为使用 SELECT 而不是 GET,以使用 S3 Select。

Amazon Athena

Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 表达式分析 Amazon S3 中的数据。Athena 属于无服务器服务,因此您无需管理任何基础设施,只需为您运行的查询付费。

Athena 简单易用。只需指向您存储在 Amazon S3 中的数据,定义架构并使用标准 SQL 表达式开始查询。在数秒内可交最多的结果。借助 Athena,您无需执行复杂的 ETL 任务来准备数据,以便进行分析。这样一来,具备 SQL 技能的任何人都可以轻松快速地分析大规模数据集。

Amazon Redshift Spectrum

Amazon Redshift 还包含 Redshift Spectrum,让您可以对 Amazon S3 中的 EB 级非结构化数据直接运行 SQL 查询。不需要加载或转换,并且您可以使用 Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV 等开源数据格式。Redshift Spectrum 可以根据检索的数据自动扩展查询计算容量,因此针对 Amazon S3 的查询速度非常快,不受数据集大小的影响。

 

 

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注