0

0

BigData | 大数据处理基本功(下)

爱谁谁

爱谁谁

发布时间:2025-08-16 08:22:36

|

416人浏览过

|

来源于php中文网

原创

学习笔记

继续巩固蔡老师的课程知识点~

Index

  • Workflow设计模式
  • 发布/订阅模式
  • CAP定理
  • Lambda架构
  • Kappa架构

Workflow设计模式

工作流系统(Workflow System)是将多个不同的处理模块连接在一起,通过有向无环图(Directed Acyclic Graph/DAG)得到所需结果的系统。

4种 Workflow System的设计模式

  • 复制模式(Copier Pattern):将单个数据处理模块中的数据完整复制到两个或多个数据处理模块中,用于对同一数据集进行多种不同的数据处理转换。
  • 过滤模式(Filter Pattern):过滤掉不符合条件的数据,用于针对数据集中的特定数据进行处理。
  • 分离模式(Splitter Pattern):对数据集中的不同数据分别进行处理,分组但不过滤数据,同一数据可划分到不同处理模块。
  • 合并模式(Joiner Pattern):将多个不同的数据集转换集中在一起,形成一个总数据集,并在工作流中处理。

发布/订阅模式(Publish/Subscribe Pattern)

这是在流数据处理中非常流行的设计模式,也被称为 Pub/Sub。

消息与消息队列

  • 消息:在分布式架构中,各组件(如后台数据库、前端浏览器)通过消息进行通讯,消息格式任意。
  • 消息队列:在 Pub/Sub 中,消息队列作为持久化缓冲(Durable Buffer),保存消息直到接收方确认收到。

发布/订阅模式基础概念

发布/订阅模式允许消息发送方异步发送消息给系统中的不同组件,无需知道接收方是谁。发送方称为发布者(Publisher),接收方称为订阅者(Subscriber)。

BigData | 大数据处理基本功(下)

优点

  • 松耦合(Loose Coupling):发布者与订阅者在开发时无需事先知道对方的存在,可以独立开发。
  • 高伸缩性(High Scalability):消息队列可以独立作为数据存储中心存在,适合分布式环境。
  • 组件间通信更简洁:只需定义好消息格式,订阅者即可按此格式接收消息。

缺点

  • 不能保证发布者发送的数据一定会送达订阅者,需开发者实现响应机制。

适用场景

  • 发送方需要向大量接收方广播消息。
  • 组件需要与多个独立开发的组件或服务通信,这些组件或服务使用不同编程语言和通信协议。
  • 发送方在发送消息后无需接收方实时响应。
  • 对数据一致性的要求只需最终一致性(Eventual Consistency)。

CAP定理

简单来说,CAP定理证明了以下三属性:

BigData | 大数据处理基本功(下)

  • C属性(一致性):所有分布式操作都像在单机上完成一样。
  • A属性(可用性):在分布式系统中,任意非故障服务器都必须对客户请求产生响应。
  • P属性(分区容错性):即使部分节点之间无法连通,系统也必须能够返回消息。

衍生的系统

  • CP系统:Google BigTable、Hbase、MongoDB、Redis、MemCacheDB
  • AP系统:Amazon Dynamo、Apache Cassandra、Voldemort
  • CA系统:Apache Kafka

放弃了P属性的Kafka

多奥淘宝客程序API免费版 F8.0
多奥淘宝客程序API免费版 F8.0

多奥淘宝客程序免费版拥有淘宝客站点的基本功能,手动更新少,管理简单等优点,适合刚接触网站的淘客们,或者是兼职做淘客们。同样拥有VIP版的模板引擎技 术、强大的文件缓存机制,但没有VIP版的伪原创跟自定义URL等多项创新的搜索引擎优化技术,除此之外也是一款高效的API数据系统实现无人值守全自动 化运行的淘宝客网站程序。4月3日淘宝联盟重新开放淘宝API申请,新用户也可使用了

下载

Kafka0.8版本引入了Replication,通过将数据复制到不同节点增强数据的持久性(Durability)和可用性(Availability)。所有数据日志存储在同一个数据中心,网络分区错误可能性小。

在Kafka数据副本(Data Replication)设计中,通过Zookeeper选举出领导者节点(Leader),负责维护同步数据副本(In-sync-replica)。数据写入在领导者节点记录,通知副本存储并回复用户写入成功。如果领导者节点挂了,Zookeeper会重新选举健康节点作为新的领导者节点。

Lambda架构

Lambda架构帮助开发人员构建大规模分布式数据处理系统,具有灵活性和可扩展性,对硬件故障和人为失误有很好的容错性。

Lambda架构由三层系统组成:批处理层(Batch Layer)、速度处理层(Speed Layer)、服务层(Serving Layer)。

BigData | 大数据处理基本功(下)

不同的系统层职责

  • 批处理层:存储管理主数据集和预先批处理计算好的视图,计算历史数据,准确性高但实效性低。
  • 速度处理层:实时处理新的大数据,提供实时视图,速度快但数据不是全量,参考价值有限。
  • 服务层:接收批处理层和速度处理层的处理结果,响应用户查询。

案例分析

  • 批处理层:使用停车场历史数据或每半小时获取的停车位数据,构建预测模型,预测剩余车位。
  • 速度处理层:聚集用户GPS数据,建立预测模型,预测附近停车场拥挤程度。
  • 服务层:结合批处理层和速度处理层的预测分数,将最高分数的停车场推荐给用户,提高推荐准确率。

BigData | 大数据处理基本功(下)

Kappa架构

Kappa架构因Lambda架构维护复杂而存在,因为Lambda架构有两个完全不同的分布式系统(批处理和流处理),语法不同但逻辑需相同。

Kappa架构改进了某一层的架构,使其具有另一层的特性。

以Apache Kafka流处理平台为例:

由于Apache Kafka具有永久保存数据日志的功能,可以删除批处理层,仅保留流处理层。

步骤

  • Step1:部署Apache Kafka,设置数据日志保留期(Retention Period)为Forever。
  • Step2:重新启动Apache Kafka作业实例,从头开始计算保存的历史数据,将结果输出到新数据视图中。
  • Step3:当新数据视图处理进度赶上旧数据视图时,应用切换到从新数据视图读取。
  • Step4:停止旧版本作业实例,删除旧数据视图。

其架构如下图所示:

BigData | 大数据处理基本功(下)

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

225

2023.10.07

kafka消费者组有什么作用
kafka消费者组有什么作用

kafka消费者组的作用:1、负载均衡;2、容错性;3、广播模式;4、灵活性;5、自动故障转移和领导者选举;6、动态扩展性;7、顺序保证;8、数据压缩;9、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

165

2024.01.12

kafka消费组的作用是什么
kafka消费组的作用是什么

kafka消费组的作用:1、负载均衡;2、容错性;3、灵活性;4、高可用性;5、扩展性;6、顺序保证;7、数据压缩;8、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

149

2024.02.23

rabbitmq和kafka有什么区别
rabbitmq和kafka有什么区别

rabbitmq和kafka的区别:1、语言与平台;2、消息传递模型;3、可靠性;4、性能与吞吐量;5、集群与负载均衡;6、消费模型;7、用途与场景;8、社区与生态系统;9、监控与管理;10、其他特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2024.02.23

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

200

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

187

2025.11.08

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

954

2023.11.02

虚拟号码教程汇总
虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程,阅读下面的文章了解更多详细操作。

25

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
RunnerGo从入门到精通
RunnerGo从入门到精通

共22课时 | 1.7万人学习

尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.1万人学习

Linux优化视频教程
Linux优化视频教程

共14课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号