模型训练需构建高效数据流水线、选择匹配损失函数与优化器、监控收敛;保存推荐SavedModel格式;推理注重性能优化;排查问题需检查学习率、数据划分、激活函数等。

模型训练:从数据准备到收敛监控
训练模型的核心是让网络学会从输入映射到目标输出。先用 tf.data.Dataset 构建高效数据流水线,支持批处理、打乱、预取和并行解析。图像任务中常用 tf.image 做归一化(如除以255.0)和基础增强(随机翻转、裁剪);文本任务则需统一长度、构建词表、转换为ID序列。
选择合适的损失函数和优化器很关键:分类任务多用 sparse_categorical_crossentropy + Adam;回归任务常用 mean_squared_error。编译模型时记得指定 metrics=['accuracy'] 或其他评估指标,方便实时观察训练效果。
训练过程中建议开启 TensorBoard 回调,记录 loss 和 metrics 变化;搭配 ModelCheckpoint 保存最优权重;必要时用 EarlyStopping 防止过拟合。注意验证集不能参与训练,且划分要保证类别分布均衡(尤其小样本场景)。
模型保存与加载:确保可复现与部署就绪
训练完成后,推荐使用 SavedModel 格式 保存完整模型(含结构、权重、计算图):
model.save("my_model")
这种方式兼容 TensorFlow Serving、TFLite 和 JavaScript 版本,适合生产环境。若只需权重,可用 model.save_weights("weights.h5"),但加载时需先重建相同结构的模型再载入。
加载 SavedModel 模型非常直接:
loaded_model = tf.keras.models.load_model("my_model")
它会自动恢复所有状态,包括自定义层(只要已注册)和损失函数。注意路径必须存在且有读取权限;跨版本保存/加载时建议固定 TensorFlow 小版本号,避免兼容性问题。
模型推理:本地预测与性能优化要点
推理阶段重在稳定、快速、内存可控。对单样本预测,先用 model.predict() 并确保输入 shape 匹配(如加 batch 维度:np.expand_dims(img, 0));批量预测时,batch size 设置不宜过大,防止 OOM,一般从 16 或 32 开始试。
立即学习“Python免费学习笔记(深入)”;
提升推理效率可考虑以下方式:
- 使用 @tf.function 装饰预测函数,将动态图转为静态图加速执行
- 启用 XLA 编译(tf.config.optimizer.set_jit(True)),尤其对 GPU 推理有明显收益
- 对边缘设备部署,导出为 TFLite 模型,并启用量化(如 int8)进一步压缩体积和提速
- 输入数据预处理尽量在 CPU 完成,避免 GPU 上做图像解码或归一化等非计算密集操作
常见问题排查:训练不收敛、预测不准怎么办
训练 loss 不下降?先检查学习率是否过大(尝试降低 10 倍)或过小(loss 几乎不动);确认标签是否错位(比如用了 one-hot 标签却配 sparse loss);打印前几条数据和 label,验证输入 pipeline 是否正确。
验证准确率远高于测试准确率?大概率是数据泄露——检查 train/val/test 划分是否严格隔离(特别是时间序列或同源图像);确认增强仅应用于训练集;验证集是否被意外用于调整超参(应使用独立 test 集终评)。
预测结果全为同一类?查看输出层激活函数是否匹配任务(二分类用 sigmoid,多分类用 softmax);检查 label 编码是否一致(0-based 还是 1-based);用 model.summary() 确认最后一层输出维度是否等于类别数。










