当前位置 :首页 >> 时尚

数据湖存储拟议Lakehouse带来数据仓库架构的提升 译

2023-03-13   来源 : 时尚

以及之前的消费层。

消化层是Lakehouse的第一层,负责从各种举例合成统计数据,并将其传送到存储设备层。该层可以常用各种组件来消化统计数据。其中都包括:可用从IoT设备出口处低密度传输统计数据的Apache Kafka、可用从关种系统计数据库里管理工作种系统(Relational Database Management System,RDBMS)出口处导入统计数据的Apache Sqoop、以及赞成的设备统计数据出口处理方式的来得多组件。 由于量度层和存储设备层获取了分开,因此统计数据Lakehouse最适当云存储设备库里公共服务。它可以利用HDFS跨平台在本地得以施行。在其设计上,Lakehouse须要开发人员将各种统计数据保有在诸如AWS S3等高恒星质量取向的存储设备中都,并作为常用标准规范份文件编解码器(例如Apache Parquet)的取向。 Lakehouse中都的元统计数据层负责为湖水存储设备(lake storage)中都的所有取向备有元统计数据(即,备有有关其他统计数据片段信息的统计数据)。此外,它还可以管理工作如下方面: 确保并发各项ACID事务 常用来得快的SRAM(如,出口处理方式路由上的SSD和RAM)寄存器来自云公共服务取向所存储设备的份文件 通过索引,以延缓搜索的平均速度 Lakehouses中都的API层备有了两种类型的API:表示遗憾病态DataFrame API和SQL API。在DataFrame API的设法下,统计数据物理家可以必要常用统计数据,来分派他们的各种领域。例如,TensorFlow和Spark MLlib等数据分析文档库里,可以加载Parquet等开放的份文件编解码器,并必要搜索元统计数据层。而SQL API可以可用为组合业务分析方法、信息检索、统计数据数据分析等娱乐业智能、以及各种调查结果类用以,获取统计数据。 之前,消费层包含了诸如Power BI、Tableau等各种用以和领域。整个跨国公司的所有用户都可以使Lakehouse的消费层,来分派各种分析方法战斗任务。其中都包括:娱乐业智能化仪表板、统计数据数据分析、SQL搜索、以及数据分析作业等。

此外,Lakehouse框架也最适当在民间组织内部,为各种统计数据备有单点式出访。

小结

Lakehouse框架是应对统计数据提纯的技术病态、搜索的兼容病态、刺统计数据的寄存器等供给产生的。以外,该单体框架尚为出口处于初级阶段。但是,在不久的恐怕,Lakehouse作为一种统计数据用以,将都能实现统计数据发现、统计数据常用指标、统计数据管理制度等来得加丰富多彩的功能。

标题标题:The Lakehouse: An Uplift of Data Warehouse Architecture,作者:Gautam Goswami

天津妇科医院哪个最好
口腔溃疡缺少哪种维生素
西安治疗白癜风专业医院
昆明甲状腺权威医院
汉中白癜风治疗费用是多少
有多少的城市慢慢就活成了投行的样子

至把ceo胡明偷偷大大部分所有人都拨打了一遍。时长看下来,这还是那些年靠批地、都用征税特惠卖命吆喝的大多中央政府么 ,已经俨然一个摩根士丹利了。 02 淡圳更是老摩根士...

友情链接