问题在逻辑回归Logistic Regression中我们通常使用交叉熵Cross-Entropy作为损失函数那么为什么逻辑回归要使用交叉熵损失函数原理伯努利分布与极大似然估计 (MLE)在二分类问题中给定输入特征xxx输出真实标签y∈{0,1}y \in \{0, 1\}y∈{0,1}。从概率论视角来看我们可以假设给定xxx时yyy的条件概率服从伯努利分布0-1分布。逻辑回归模型的输出y^\hat{y}y^通过 Sigmoid 函数映射实际上代表了模型预测样本属于正类y1y1y1的后验概率P(y1∣x)y^P(y1|x) \hat{y}P(y1∣x)y^P(y0∣x)1−y^P(y0|x) 1 - \hat{y}P(y0∣x)1−y^为了用一个统一的公式表达上述两种情况可以将其合并写为概率质量函数P(y∣x)y^y(1−y^)(1−y)P(y|x) \hat{y}^y (1-\hat{y})^{(1-y)}P(y∣x)y^y(1−y^)(1−y)当y1y1y1时式子等于y^\hat{y}y^当y0y0y0时式子等于1−y^1-\hat{y}1−y^。具体分析极大似然估计的核心思想是寻找一组模型参数使得观测到的样本数据真实发生的概率联合概率最大。假设我们有NNN个独立同分布的训练样本{(x1,y1),(x2,y2),...,(xN,yN)}\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}{(x1,y1),(x2,y2),...,(xN,yN)}。整个数据集的似然函数Likelihood Function即为所有样本概率的乘积L(θ)∏i1NP(yi∣xi)∏i1Ny^iyi(1−y^i)(1−yi)L(\theta) \prod_{i1}^{N} P(y_i|x_i) \prod_{i1}^{N} \hat{y}_i^{y_i} (1-\hat{y}_i)^{(1-y_i)}L(θ)i1∏NP(yi∣xi)i1∏Ny^iyi(1−y^i)(1−yi)为了方便求导和计算将乘积转化为求和且单调递增不改变极值点我们对似然函数取自然对数得到对数似然函数Log-LikelihoodlnL(θ)∑i1N[yiln(y^i)(1−yi)ln(1−y^i)]\ln L(\theta) \sum_{i1}^{N} \left[ y_i \ln(\hat{y}_i) (1-y_i) \ln(1-\hat{y}_i) \right]lnL(θ)i1∑N[yiln(y^i)(1−yi)ln(1−y^i)]在机器学习优化求解中我们习惯于“最小化”损失函数。因此我们将最大化对数似然函数等价转化为最小化其相反数即负对数似然Negative Log-LikelihoodLoss−1N∑i1N[yiln(y^i)(1−yi)ln(1−y^i)]Loss -\frac{1}{N} \sum_{i1}^{N} \left[ y_i \ln(\hat{y}_i) (1-y_i) \ln(1-\hat{y}_i) \right]Loss−N1i1∑N[yiln(y^i)(1−yi)ln(1−y^i)]结论这个负对数似然函数在数学形式上与信息论中的二元交叉熵Binary Cross-Entropy公式完全一致。因此从概率论的视角来看逻辑回归中最小化交叉熵损失本质上就是在对服从伯努利分布的数据进行极大似然估计。极大似然估计与最大化后验概率贝叶斯公式要从根本上理解 MLE 和 MAP 的区别必须回到概率论的核心——贝叶斯公式。假设θ\thetaθ是我们需要估计的模型参数XXX是我们观测到的数据集贝叶斯公式如下P(θ∣X)P(X∣θ)P(θ)P(X)P(\theta|X) \frac{P(X|\theta)P(\theta)}{P(X)}P(θ∣X)P(X)P(X∣θ)P(θ)P(θ∣X)P(\theta|X)P(θ∣X)后验概率 (Posterior)。在看到数据XXX之后参数θ\thetaθ取某个值的概率。P(X∣θ)P(X|\theta)P(X∣θ)似然 (Likelihood)。在假定参数为θ\thetaθ的前提下观测到数据XXX的概率。P(θ)P(\theta)P(θ)先验概率 (Prior)。在没有看到任何数据之前我们根据“常识”或历史经验认为参数θ\thetaθ应该服从的概率分布。P(X)P(X)P(X)边缘概率证据。对于特定的数据集来说这是一个常数在优化求最大值时可以忽略。最大似然估计 (MLE)MLE 的核心哲学是纯数据驱动。它寻找的是让当前观测数据出现概率最大的参数θ\thetaθ。θMLEargmaxθP(X∣θ)\theta_{MLE} \arg\max_{\theta} P(X|\theta)θMLEargθmaxP(X∣θ)从贝叶斯的视角来看MLE 隐式地做了一个极强的假设参数θ\thetaθ的先验分布是均匀的即P(θ)P(\theta)P(θ)是一个常数。这就意味着模型没有任何“成见”或“常识”完全听信于当前的数据。因此当数据量极少时如只抛了3次硬币MLE 极易得出极端的结论。最大后验概率估计 (MAP)MAP 的核心哲学是数据结合常识。它不仅考虑当前的数据还要结合我们事先对参数的认知。它寻找的是在给定数据和先验知识下最有可能的参数θ\thetaθ。θMAPargmaxθP(θ∣X)argmaxθP(X∣θ)P(θ)\theta_{MAP} \arg\max_{\theta} P(\theta|X) \arg\max_{\theta} P(X|\theta)P(\theta)θMAPargθmaxP(θ∣X)argθmaxP(X∣θ)P(θ)为了方便计算我们对上式取对数将连乘变为相加argmaxθ(lnP(X∣θ)lnP(θ))\arg\max_{\theta} (\ln P(X|\theta) \ln P(\theta))argθmax(lnP(X∣θ)lnP(θ))对比对数形式的公式可以看出MAP 本质上就是 MLE 加上了一个先验项lnP(θ)\ln P(\theta)lnP(θ)。在抛硬币的例子中即使 3 次全是正面导致似然P(X∣θ)P(X|\theta)P(X∣θ)在θ1\theta1θ1时最大但由于我们的先验常识P(θ)P(\theta)P(θ)认为“绝对不均匀的硬币极少见”即θ1\theta1θ1时的先验概率极低MAP 会综合这两项将最终的估计值往 0.5 的方向“拉回”。这就是先验知识对极端结果的修正。MLE极大似然估计假设参数没有先验偏好只最大化数据出现的概率。推导公式Loss−lnP(Y∣X,w)\text{Loss} -\ln P(Y|X, w)Loss−lnP(Y∣X,w)。它直接推导出模型的基础数据损失函数。MAP最大后验估计结合数据的似然与参数的先验概率。推导公式Loss−lnP(Y∣X,w)−lnP(w)\text{Loss} -\ln P(Y|X, w) - \ln P(w)Loss−lnP(Y∣X,w)−lnP(w)。它推导出数据损失函数 正则化惩罚项。基于 MLE 推导机器学习任务概率论假设损失函数适用场景二分类伯努利分布二元交叉熵逻辑回归、二分类神经网络多分类分类分布多分类交叉熵Softmax回归、多分类神经网络回归高斯分布均方误差标准线性回归回归拉普拉斯分布平均绝对误差鲁棒回归正则化惩罚项基于 MAP 的先验推导:参数的先验假设 (P(w)P(w)P(w))推导出的正则化项 (Regularization)核心效果权重www服从高斯分布(Gaussian)L2 正则化(Ridge / 权重衰减)限制权重过大模型更平滑防止过拟合权重www服从拉普拉斯分布(Laplace)L1 正则化(Lasso)促使权重矩阵稀疏化可用于特征选择MAP 下的完整目标函数在实际工程中我们通常是将上述 A 和 B 进行组合。例如假设目标是回归任务岭回归 (Ridge Regression)概率视角似然是高斯分布先验是高斯分布→\to→采用 MAP 估计。损失函数MSEL2 正则化\text{MSE} \text{L2 正则化}MSEL2正则化。Lasso 回归概率视角似然是高斯分布先验是拉普拉斯分布→\to→采用 MAP 估计。损失函数MSEL1 正则化\text{MSE} \text{L1 正则化}MSEL1正则化。