掌握AI所需线性代数与概率论,应聚焦Python实战核心:向量/矩阵即NumPy/PyTorch张量,重维度、乘法与广播;伯努利、高斯、均匀分布覆盖主流任务;MSE与交叉熵分别对应高斯假设下的最大似然与负对数似然;协方差与特征值支撑PCA降维。

想快速掌握AI所需的线性代数和概率论?不用从头啃数学教材——聚焦Python实战中真正高频、直接调用的核心概念,跳过冗余证明,直击建模与代码落地的关键点。
向量与矩阵:不是符号,是数据的形状
在PyTorch或NumPy里,tensor 和 ndarray 本质就是向量/矩阵。理解它们的维度(shape)、转置(.T)、乘法(@ vs *)比背定义更重要:
-
点积(dot) = 特征加权求和 →
a @ b.T或np.dot(a, b); -
矩阵乘(matmul) = 线性变换 →
W @ x是神经网络一层的前向传播; -
广播机制 不是魔法,是隐式扩展维度对齐(如
(m, n) + (1, n)→ 每行加同一向量); - 别手动写逆矩阵——用
np.linalg.solve(A, b)解方程,更稳更快。
概率分布与随机变量:模型不确定性的表达方式
AI不预测“确定结果”,而输出“可能性”。掌握这几个分布就够了:
- 伯努利分布 → 二分类输出(如sigmoid后值解释为正类概率);
-
高斯分布(正态) → 回归任务误差假设、初始化权重(
torch.nn.init.normal_); - 均匀分布 → 随机采样、Dropout掩码生成;
- 用
scipy.stats或torch.distributions直接采样、算log_prob——避免手推公式。
期望、方差与最大似然:训练目标背后的数学直觉
损失函数不是凭空来的:
立即学习“Python免费学习笔记(深入)”;
- 均方误差(MSE)= 最小化预测与真实值的二阶矩误差,等价于假设噪声服从高斯分布下的最大似然估计;
- 交叉熵损失 = 负对数似然(NLL),本质是在拟合真实标签的经验分布;
- BatchNorm 中的 running_mean / running_var 就是用滑动窗口估计总体期望与方差;
- 贝叶斯视角下,正则项(如L2)≈ 给权重加高斯先验。
协方差、特征值与PCA:降维与表征学习的起点
不必深究谱分解定理,但要懂:
- 协方差矩阵
np.cov(X.T)刻画特征间线性相关性; - 主成分 = 协方差矩阵的最大特征向量 →
np.linalg.eig(cov_mat)可手动实现PCA; - 特征值大小 = 该方向能保留多少原始方差 → 决定保留几个主成分;
- PCA本质是线性投影,和Autoencoder第一层权重有直观对应关系。










