PCM数据本质是符号整数数组,如16-bit stereo为交错排列的int16_t序列;处理时须严格匹配位宽与类型,增益计算需升维float并饱和截断,避免整数溢出削波。

PCM 数据本质就是有符号整数数组
别被“音频采样”吓住——C++ 里处理 PCM(比如 16-bit stereo 44.1kHz)本质上就是在操作 int16_t(或 int32_t)的连续内存块。每个样本是独立的幅度值,左/右声道交错排列(如 LRLR),没有头、无压缩、无元数据。你拿到的 std::vector 或裸指针 int16_t* 就是全部。
常见错误:直接拿 float* 当作 PCM 处理,结果静音或爆音——必须确认原始数据类型和位宽,否则增益计算会溢出或缩放错位。
- 16-bit PCM → 范围是
-32768到32767,不是-1.0到1.0 - 32-bit float PCM(如 WAV 的 IEEE float 格式)→ 才是
-1.0f到1.0f,但远不如 16-bit 常见 - 读取文件时务必检查 RIFF/WAV header 中的
wFormatTag和wBitsPerSample,不能硬编码假设
用 float 中间计算做增益,再安全截断回 int16_t
直接对 int16_t 乘增益系数(如 *1.5)会导致整数溢出,出现刺耳的削波(clipping)。正确做法是升维到 float 计算,再用饱和截断(saturation clamp)写回。
关键点:不要用 std::clamp 简单截断,它不处理整数溢出前的中间态;也不要依赖 static_cast 的默认截断行为(可能 UB)。
立即学习“C++免费学习笔记(深入)”;
void apply_gain(int16_t* samples, size_t count, float gain) {
for (size_t i = 0; i < count; ++i) {
float amplified = static_cast(samples[i]) * gain;
// 手动饱和:避免 float->int16_t 溢出
if (amplified > 32767.0f) {
samples[i] = 32767;
} else if (amplified < -32768.0f) {
samples[i] = -32768;
} else {
samples[i] = static_cast(amplified);
}
}
} - 增益
gain > 1.0时,必须饱和;gain 一般不用,但也要防负增益导致反相后越界 - 若处理多声道,注意 stride:立体声需按每 2 个样本为一组处理(或分别处理 L/R),不能把左右声道当连续单声道算
- 性能敏感场景可用 SIMD(如 SSE
_mm_mul_ps+_mm_min_ps/_mm_max_ps),但先确保标量逻辑正确
用 libsndfile 读写最省心,别手撕 WAV 头
自己解析/生成 WAV header 极易出错:chunk size 字段要动态更新、data chunk offset 要对齐、fact chunk 在某些格式中必须存在……实际项目里几乎没人手写。
libsndfile 是 C 接口但完全兼容 C++,支持 WAV/AIFF/FLAC/OGG 等,自动识别格式、处理 endianness、校验采样率与位深,并提供缓冲区直读直写。
// 读取 PCM 数据(自动适配位宽) #includestd::vector load_pcm(const char* path) { SF_INFO info; SNDFILE* file = sf_open(path, SFM_READ, &info); if (!file) return {}; if (info.format & SF_FORMAT_SUBMASK != SF_FORMAT_PCM_16) { sf_close(file); return {}; // 非 16-bit PCM,按需扩展 } std::vector buf(info.frames * info.channels); sf_read_short(file, buf.data(), buf.size()); sf_close(file); return buf; }
- 链接时加
-lsndfile,Ubuntu/Debian 安装:sudo apt install libsndfile1-dev -
info.frames是采样点数(不是字节数),info.channels == 2表示立体声 - 写入同理用
sf_write_short(),header 由库全自动填充,无需手动算 chunk size
实时增益调节要防爆音,得用渐变(ramp)
在音频播放循环中突然把增益从 1.0 切到 2.0,会产生直流阶跃(DC step),扬声器“咔”一声——这不是 bug,是物理事实。
解决方法:每次回调只改一点点,让增益在若干毫秒内线性过渡。例如每 10ms 更新一次,共 50ms 完成 ramp:
- 设目标增益
target_gain,当前增益current_gain - 每次处理
N个样本时,按比例插值:step = (target_gain - current_gain) / (N / sample_rate * 1000 / ramp_ms) - 对每个样本应用递增的增益:
gain_i = current_gain + step * i,再更新current_gain
更工业的做法是用一阶 IIR 滤波器平滑参数变化,但对简单增益控制,线性 ramp 已足够。关键是——别跳变。
真正难的从来不是“怎么放大”,而是“怎么放得听不出痕迹”。增益只是入口,后续的 dither、noise shaping、AGC 才是深水区。











