湖仓一体架构解析:数仓架构选择(第48天)
系列文章目录1、Lambda 架构2、Kappa 架构3、混合架构4、架构选择5、实时数仓现状6、湖仓一体架构7、流批一体架构文章目录系列文章目录前言1、Lambda 架构2、Kappa 架构3、混合架构4、架构选择5、实时数仓现状6、湖仓一体架构7、流批一体架构前言本文解析了Lambda 架构Kappa 架构湖仓一体架构流批一体架构以及在大数据场景中如何选择架构。1、Lambda 架构在Lambda架构中为了计算一些实时指标就在原来的离线数仓基础之上增加了一个实时处理的链路并对数据源做流式改造把消息发送到消息队列中大数据中常用Kafka实时计算去消费消息队列中的数据完成实时指标计算推送到下游的数据服务中去由数据服务层完成离线与实时结果的合并。Lambda架构总结 优点: Lambda架构使开发人员能够构建大规模分布式数据处理系统它具备很好的灵活性和可扩展性。也对硬件故障和人为失误有很好的容错性 缺点: 1- Lambda架构最大的问题是需要维护两套计算链路开发和维护成本 2- 计算资源占用增多服务器存储大2、Kappa 架构Kappa 架构可以认为是 Lambda 架构的简化版只要移除 lambda 架构中的批处理部分即可。Kappa架构的核心思想是通过改进流计算系统来解决数据全量处理的问题使得实时计算和批处理过程使用同一套代码。Kappa 架构的重新处理过程1选择一个具有重放功能的、能够保存历史数据并支持多消费者的消息队列根据需求设置历史数据保存的时长比如 Kafka可以保存全部历史数据。2当某个或某些指标有重新处理的需求时按照新逻辑写一个新作业然后从上游消息队列的最开始重新消费把结果写到一个新的下游表中。3当新作业赶上进度后应用切换结果表读取 2 中产生的新结果表。4停止老的作业删除老的结果表。Kappa架构总结 优点: 使用一条计算链路完成离线计算和实时计算节约成本 缺点: 1- Kappa架构最大的问题是需要重新处理历史数据程序处理数据的吞吐量会降低 2- 数据可能丢失 3- 不适用于离线计算和实时计算代码逻辑不一致的情况。举例: 全局去重 4- 消息中间件临时存储的数据量和回溯的数据量有性能瓶颈 5- 无法复用目前已经非常成熟的基于离线计算的数据质量管理体系数据治理3、混合架构Lambda 架构与 Kappa 架构的对比4、架构选择5、实时数仓现状总结 1- Lambda架构的最大缺点是需要维护两条链路维护和计算成本高 2- Kappa架构最大的缺点是数据处理的吞吐量低 3- Kappa架构可以称之为真正的实时数仓目前企业中实时数仓最常使用的计算框架Flink6、湖仓一体架构湖仓一体架构总结 优点: 1- 可以存储海量数据 2- 可以对中间结果进行查询 3- 可以复用离线计算中形成的数据质量管理体系数据治理 4- 数据可以进行update更新操作 缺点 1- 相对Flink实时数仓来说数据湖对数据的处理延迟相对比较高。数据的分析查询耗时基本在10秒及以上 2- 如果基于数据湖搭建Lambda架构这也是相当于需要维护两条线路7、流批一体架构理念使用同一套API、同一套开发范式来实现大数据的流式计算和批量计算进而保证处理过程和结果数据的一致性。数据集成流批一体离线与实时是否使用统一数据采集方式如统一通过 CDC 或者 OGG 将数据实时捕获推送到 kafka批与流在从 kafka 中消费数据载入明细层。数据存储流批一体离线与实时数据是否统一分层、统一存储兼容数据的一致性和实时性。处理逻辑流批一体流与批处理是否使用统一 SQL 语法或者 ETL 组件再通过底层分别适配流与批计算引擎保证数据口径的一致性。计算引擎流批一体流与批使用同一套计算引擎从根本上避免同一个处理逻辑流批两套代码 问题。元数据流批一体流与批使用同一套元数据管理系统一方面方便管理另一方面可以相互访问。

相关新闻

爬虫基础之爬取某基金网站+数据分析

爬虫基础之爬取某基金网站+数据分析

声明: 本案例仅供学习参考使用,任何不法的活动均与本作者无关 网站:天天基金网(1234567.com.cn) --首批独立基金销售机构-- 东方财富网旗下基金平台! 本案例所需要的模块: 1.requests 2.re(内置) 3.pandas 4.pyecharts 其他均需要 pip install 模块名 爬取步骤: …

2026/5/17 11:11:01 阅读更多 →
ROS1中的package.xml文件的作用:

ROS1中的package.xml文件的作用:

1、作用:在 ROS 1 中,package.xml 是一个必需的清单文件,用于描述 ROS 功能包的元数据和依赖关系。它的主要作用包括:定义包的基本信息:包含包名称、版本号、描述、维护者、许可证等,确保包可以被正确识别和…

2026/7/3 10:16:52 阅读更多 →
禁止使用存储过程

禁止使用存储过程

优质博文:IT-BLOG-CN 灵感来源 什么是存储过程 存储过程Stored Procedure是指为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户可通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行。 …

2026/5/17 5:47:24 阅读更多 →

最新新闻

E-Hentai Downloader 项目中的 GP 限制问题解析

E-Hentai Downloader 项目中的 GP 限制问题解析

E-Hentai Downloader 项目中的 GP 限制问题解析 问题背景 在使用 E-Hentai Downloader 脚本下载旧图库时,用户可能会遇到"GP Limit Exceeded"的错误提示。这个问题通常出现在下载较旧的图库(90天以上)时,特别是当用户尝…

2026/7/4 21:56:14 阅读更多 →
AutoUnipus:3分钟搞定U校园网课答题的终极指南

AutoUnipus:3分钟搞定U校园网课答题的终极指南

AutoUnipus:3分钟搞定U校园网课答题的终极指南 【免费下载链接】AutoUnipus U校园脚本,支持全自动答题,百分百正确 2024最新版 项目地址: https://gitcode.com/gh_mirrors/au/AutoUnipus 还在为U校园平台枯燥的网课任务消耗宝贵时间而烦恼吗?Auto…

2026/7/4 21:54:13 阅读更多 →
Sublime Text Orgmode插件常见问题解决方案:从安装到高级使用

Sublime Text Orgmode插件常见问题解决方案:从安装到高级使用

Sublime Text Orgmode插件常见问题解决方案:从安装到高级使用 【免费下载链接】orgmode orgmode is for keeping notes, maintaining TODO lists, planning projects, and authoring documents with a fast and effective plain-text system. 项目地址: https://g…

2026/7/4 21:52:12 阅读更多 →
YOLOv5 vs YOLOv7 vs YOLOv8:gh_mirrors/yo/yolo_research项目中的模型对比与选择策略 [特殊字符]

YOLOv5 vs YOLOv7 vs YOLOv8:gh_mirrors/yo/yolo_research项目中的模型对比与选择策略 [特殊字符]

YOLOv5 vs YOLOv7 vs YOLOv8:gh_mirrors/yo/yolo_research项目中的模型对比与选择策略 🚀 【免费下载链接】yolo_research based on yolo-high-level project (detect\pose\classify\segment\):include yolov5\yolov7\yolov8\ core ,improvement researc…

2026/7/4 21:50:11 阅读更多 →
高效字典生成框架:cook 的完整实战指南与安全研究应用

高效字典生成框架:cook 的完整实战指南与安全研究应用

高效字典生成框架:cook 的完整实战指南与安全研究应用 【免费下载链接】cook A wordlist framework to fullfill your kinks with your wordlists. For security researchers, bug bounty and hackers. 项目地址: https://gitcode.com/gh_mirrors/coo/cook …

2026/7/4 21:48:10 阅读更多 →
NumPy/SciPy 实战:实对称矩阵 4 阶例题的 3 种对角化实现与性能对比

NumPy/SciPy 实战:实对称矩阵 4 阶例题的 3 种对角化实现与性能对比

NumPy/SciPy 实战:4阶实对称矩阵对角化的3种实现与性能分析在数据科学与机器学习领域,矩阵对角化是一项基础但至关重要的运算技术。当我们面对实对称矩阵时,这种运算不仅具有理论上的优雅性,更蕴含着丰富的实际应用价值。本文将以…

2026/7/4 21:48:10 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻