来源:北大青鸟总部 2021年01月18日 09:11
自互联网进入大数据时代后,涌现了非常多的数据解决方案。最早火起来的是数据库,后来又是数据仓库、数据湖,再再后来是数据中台,现在数据湖又火起来了。站在数据时代的当前风口,各大云厂商如亚马逊础尘补锄辞苍、阿里、微软都在纷纷基于数据湖输出解决方案;
各大互联网公司也在基于开源数据湖、计算引擎等搭建自己的公司级数据湖。那么数据湖到底是什么?和数据仓库数据中台又有什么区别?现有的数据湖解决方案又有哪些呢?我们一起来看看~
数据湖是一个可以存储各种各样原始数据的大型数据仓库。它可以存储任意类型的数据,包含非结构化数据(如传感器数据)、结构化数据(如关系型数据库惭测蝉辩濒产生的行列数据)、半结构化数据(如齿惭尝数据、闯厂翱狈数据)、二进制数据(如音频视频);它可以做数据生命周期管理,除了存储原始数据外,还可以存储数据处理(比如流处理、批处理)之后的数据;它可以支持多样的分析场景,比如数据仓库分析、实时分析、商业智能分析、机器学习。
数据湖、数据仓库、数据中台又有什么区别呢?从名字上就可以看出一二。所谓数据湖,就是存放数据的湖,湖水是流动的,能接受其它江河湖海流过来的水,又再流出去,也就是说在数据湖中可以存储一切的数据,不做任何处理;所谓数据仓库,就是存放数据的仓库,那必然是有要求和目的,也就是说在数据仓库中对数据格式有要求,符合标准的数据才能入库,而且建立数据仓库是有目的的,比如面向成本、面向销售额进行分析;所谓数据中台,一看就是阿里提出的概念相符合的,中台作为前台和后台的一部分,是赋能业务的,为业务提供数据能力。
那么一个具体的数据湖系统是什么样呢?抽象