0

0

Flink Sink 性能优化:避免阻塞任务执行的正确实践

聖光之護

聖光之護

发布时间:2026-01-04 21:41:03

|

557人浏览过

|

来源于php中文网

原创

Flink Sink 性能优化:避免阻塞任务执行的正确实践

flink 中自定义 sink 阻塞任务执行,往往源于广播操作滥用与同步 i/o 设计。本文详解如何通过移除冗余 broadcast、改用 asyncsink(或 asyncio + discardingsink)彻底解除 sink 对流水线的阻塞。

在您提供的代码中,inProgressSessionStream.broadcast().addSink(new SessionAPISink(...)) 是性能瓶颈的核心诱因。问题本质并非“Sink 本身慢”,而是设计模式违背了 Flink 的并行流处理原则

❌ 错误一:无意义的 .broadcast()

inProgressSessionStream
    .broadcast()  // ⚠️ 危险!将所有数据广播至每个并行子任务
    .addSink(new SessionAPISink(config));
  • broadcast() 会将每一条侧输出数据复制发送到所有 Sink 并行实例(例如并行度为 4,则同一条数据被发送 4 次);
  • 不仅造成网络与计算资源浪费,更导致多个 Sink 实例竞争同一外部服务(如 HTTP 端点),引发连接池耗尽、线程阻塞、超时重试等连锁反应;
  • 即使 Sink 内部使用异步 HTTP 客户端,广播仍强制放大请求量,直接拖垮整个作业吞吐。

✅ 正确做法:移除 .broadcast(),让 Sink 并行实例各司其职

// ✅ 直接 sink,由 Flink 自动按并行度分发数据(keyBy 或 round-robin)
inProgressSessionStream
    .addSink(new SessionAPISink(config))
    .uid("Sessions side output")
    .name("Sessions side output");

❌ 错误二:RichSinkFunction 隐含同步阻塞风险

即使您使用了“异步 HTTP 调用”,若未正确管理生命周期(如未 await 所有请求完成、未限制并发数、未处理异常积压),invoke() 方法仍可能因线程等待而阻塞 Flink 的算子线程——这是 Flink 1.14+ 之前 RichSinkFunction 的固有缺陷。

DeepAI
DeepAI

为天生具有创造力的人提供的AI工具

下载

✅ 推荐方案:迁移到 AsyncSink(Flink 1.15+)或 AsyncSinkFunction(Flink 1.14+) 这是 Flink 官方为高吞吐异步 I/O 设计的专用 Sink 接口,具备:

  • 内置背压感知与缓冲控制;
  • 自动批处理与失败重试策略;
  • 与 Checkpoint 语义对齐(支持 exactly-once);
  • 无需手动管理线程/连接池。

✅ 示例:使用 AsyncSink(Flink ≥ 1.15)

AsyncSink asyncSink = AsyncSink.builder()
    .sinkFunction(new SessionAsyncSinkWriter(config)) // 实现 AsyncSinkWriter
    .bufferSize(100)           // 每批最多缓存 100 条
    .maxBatchSize(50)          // 每次 HTTP POST 最多 50 条
    .maxBatchSizeInBytes(10 * 1024 * 1024) // 10MB
    .build();

inProgressSessionStream
    .map(list -> list.stream().flatMap(Collection::stream).collect(Collectors.toList())) // flatten List
    .addSink(asyncSink)
    .uid("Async Sessions Sink")
    .name("Async Sessions Sink");
? 提示:SessionAsyncSinkWriter 需继承 AsyncSinkWriter,在 write() 中提交异步 HTTP 请求,并在 waitAndHandleErrors() 中聚合结果;Flink 会自动调度、重试和 checkpoint。

⚠️ 若必须使用旧版 Flink(
// Step 1: 异步调用 API,输出结果到侧输出流(成功/失败)
AsyncDataStream.unorderedWait(
        inProgressSessionStream,
        new SessionAsyncFunction(config),
        60, TimeUnit.SECONDS,
        AsyncDataStream.OutputMode.UNORDERED)
    .getSideOutput(new OutputTag("async-failures") {})
    .addSink(new DiscardingSink<>()); // 丢弃失败项(或改写为日志 Sink)

// 注意:主数据流已“消费”完毕,无需再 sink —— 异步逻辑已在 AsyncFunction 中完成

? 关键注意事项

  • 永远避免对非广播场景使用 .broadcast():除非你明确需要每个并行子任务都收到全量数据(如广播配置、规则);
  • 禁用 RichSinkFunction 处理海量 I/O:它不提供背压、缓冲、重试等关键能力,仅适用于调试或极低频写入;
  • HTTP 客户端务必复用连接池:推荐 Apache HttpClient 或 Netty-based 客户端(如 WebClient),设置合理 maxConnectionsPerRoute 和 connectionTimeout;
  • 监控指标不可少:关注 numRecordsOutPerSecond、latency、asyncIOLatency 及 Sink 的 numRecordsInPerSecond 是否显著低于上游,可快速定位瓶颈。

通过以上重构,您的作业延迟将从 10 分钟降至 5 分钟以内——这不是微调,而是回归 Flink 流式架构的并行本质。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1006

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

56

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

345

2025.12.29

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

476

2023.08.10

apache是什么意思
apache是什么意思

Apache是Apache HTTP Server的简称,是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一,由Apache软件基金会开发和维护,Apache具有稳定、安全和高性能的特点,得益于其成熟的开发和广泛的应用实践,被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程,希望对各位有所帮助。

403

2023.08.23

apache启动失败
apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容,可以阅读本专题下面的文章。

928

2024.01.16

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

396

2023.11.14

java学习网站推荐汇总
java学习网站推荐汇总

本专题整合了java学习网站相关内容,阅读专题下面的文章了解更多详细内容。

33

2026.01.08

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
RunnerGo从入门到精通
RunnerGo从入门到精通

共22课时 | 1.7万人学习

尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.2万人学习

Linux优化视频教程
Linux优化视频教程

共14课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号