c++如何利用CPU的预取(Prefetching)指令提升性能？ (内存访问优化)

冰火之心

发布时间：2026-01-14 16:42:54

298人浏览过

来源于php中文网

原创

C++中无原生prefetch语法，需用__builtin_prefetch（便携）或_mm_prefetch（x86专用）等编译器内置函数；适用缓存未命中率高、访存密集场景，预取距离宜为8–64元素。

c++如何利用cpu的预取(prefetching)指令提升性能？ (内存访问优化)

prefetch 指令在 C++ 中没有直接语法，必须靠编译器内置函数或内联汇编

标准 C++ 不提供 prefetch 语句，它属于底层 CPU 指令（如 x86 的 _mm_prefetch、ARM 的 prfm），需通过编译器提供的内置函数调用。主流编译器（GCC/Clang/MSVC）都支持 __builtin_prefetch（GCC/Clang）或 _mm_prefetch（Intel Intrinsics）。直接写内联汇编不仅可移植性差，还容易破坏编译器优化。

使用时注意：

__builtin_prefetch 是最便携的选择，但只接受地址、读写意图（0 读 / 1 写）、局部性提示（0–3，数值越大表示越可能被重复使用）三个参数
_mm_prefetch 需要包含，且只适用于 x86/x64；其第二个参数是预取类型常量，如 _MM_HINT_NTA（non-temporal）或 _MM_HINT_T0
传入的地址必须是有效指针，空指针或非法地址会触发未定义行为（即使只是预取）

什么时候加 prefetch 才真能提速？看访存模式和延迟是否匹配

预取只有在「CPU 等待数据从内存到达」成为瓶颈时才有效。典型适用场景是：遍历大数组、处理链表（尤其非连续结构）、多级间接访问（如树节点跳转）、或计算密集但内存带宽受限的循环。如果数据已在 L1/L2 缓存中，或访存本身不密集（比如每百次计算才读一次），加 __builtin_prefetch 反而增加指令开销、干扰分支预测。

关键判断点：

立即学习“C++免费学习笔记（深入）”；

UP简历

基于AI技术的免费在线简历制作工具

下载

用 perf stat -e cache-misses,cache-references（Linux）观察缓存未命中率是否 >10%；高则值得尝试
预取距离（offset）要足够：太近（如只提前 1 步）没意义；太远（如提前 1024 步）可能导致预取数据被中途挤出缓存；常见经验值是提前 8–64 个元素（取决于缓存行大小和步长）
避免对同一地址重复预取——浪费指令周期，且无额外收益

一个安全有效的 prefetch 循环模板（GCC/Clang）

以下是在遍历 std::vector 时，为下一批数据提前加载的典型写法。它把预取放在循环体靠前位置，并控制偏移量在合理范围：

for (size_t i = 0; i < vec.size(); ++i) {
    // 提前预取 i + 16 处的数据（假设 int 为 4 字节，16×4=64 字节 → 1 个 cache line）
    if (i + 16 < vec.size()) {
        __builtin_prefetch(&vec[i + 16], 0, 3);
    }
    // 实际计算
    sum += vec[i] * vec[i];
}

说明：

0 表示「只读」，3 表示最高局部性（T0 类似语义），适合顺序遍历
用 i + 16 是因为现代 CPU 缓存行通常是 64 字节，int 占 4 字节 → 每行 16 个元素；这样每次预取恰好覆盖下一行
必须加边界检查，否则 &vec[i + 16] 可能越界，导致段错误或静默 UB（尤其 vec 小于 16 时）

容易被忽略的陷阱：prefetch 不保证数据就绪，也不同步执行

__builtin_prefetch 和 _mm_prefetch 都是「提示型」指令，CPU 可以忽略、延迟、甚至乱序执行它。它不阻塞后续指令，也不提供内存屏障语义。这意味着：

不能依赖预取后立刻读取 —— 仍需正常访存，预取只是提高「大概率命中」的概率
不能用它替代 std::atomic_thread_fence 或 __memory_barrier 来保证可见性或顺序
在 NUMA 系统上，预取不会自动跨节点迁移数据；若线程迁移到远端 socket，预取可能加载到错误的本地缓存
开启 -O3 后，编译器可能自动插入软件预取（如 GCC 的 -fprefetch-loop-arrays），此时手动加可能冗余甚至冲突

真正起作用的永远是访存模式 + 数据局部性 + 缓存层级理解，而不是多加几条 __builtin_prefetch。

c++如何实现动态加载dll/so插件_c++ dlopen与GetProcAddress使用【实战】

c++怎么调用web api接口_c++ libcurl库引入与HTTP POST请求【实战】

如何用C++实现一个TCP服务器？C++多客户端网络通信模型【项目实战】

C++如何处理宽字符（wchar_t）和std::wstring？

c++如何获取当前进程CPU占用率_c++ Windows/Linux系统API调用【实战】

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

linux 字节 c++ 常量 int 循环指针线程空指针 linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++中函数重载(Overload)和覆盖(Override)的区别？(编译期与运行期的多态) 下一篇：c++的协变返回类型(Covariant Return Types)是什么？ (多态工厂模式)

作者最新文章

如何使用c++20的std::atomic_ref对结构体成员进行原子操作？ (细粒度同步)

2026-01-14 09:59

必访阅读app如何开启音量键翻页必访app便捷翻页设置方法【教程】

2026-01-14 10:05

20号、30号、40号水泥分别适用于哪些工程？【水泥标号解读】

2026-01-14 10:05

为什么现代c++代码推荐使用#pragma once？ (对比include guard)

2026-01-14 10:13

Laravel的Gate和Policy在授权时如何选择？ (场景与区别)

2026-01-14 10:14

MAC磁盘空间不足如何清理_MAC清理“系统数据”占用教程【超详细】

2026-01-14 10:17

千库网怎么以图搜图千库网图片搜索功能使用【方法】

2026-01-14 10:18

M.2和SATA固态硬盘哪个好如何根据主板接口选择合适的SSD【选购】

2026-01-14 10:26

Windows如何查看端口占用情况？（netstat命令详解）

2026-01-14 10:42

c++的[[nodiscard]]属性有什么用？ (防止返回值被忽略)

2026-01-14 10:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1463

2023.10.24

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

315

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

537

2024.08.29