【极大似然估计/最大化后验】为什么逻辑回归要使用交叉熵损失函数
问题在逻辑回归Logistic Regression中我们通常使用交叉熵Cross-Entropy作为损失函数那么为什么逻辑回归要使用交叉熵损失函数原理伯努利分布与极大似然估计 (MLE)在二分类问题中给定输入特征xxx输出真实标签y∈{0,1}y \in \{0, 1\}y∈{0,1}。从概率论视角来看我们可以假设给定xxx时yyy的条件概率服从伯努利分布0-1分布。逻辑回归模型的输出y^\hat{y}y^​通过 Sigmoid 函数映射实际上代表了模型预测样本属于正类y1y1y1的后验概率P(y1∣x)y^P(y1|x) \hat{y}P(y1∣x)y^​P(y0∣x)1−y^P(y0|x) 1 - \hat{y}P(y0∣x)1−y^​为了用一个统一的公式表达上述两种情况可以将其合并写为概率质量函数P(y∣x)y^y(1−y^)(1−y)P(y|x) \hat{y}^y (1-\hat{y})^{(1-y)}P(y∣x)y^​y(1−y^​)(1−y)当y1y1y1时式子等于y^\hat{y}y^​当y0y0y0时式子等于1−y^1-\hat{y}1−y^​。具体分析极大似然估计的核心思想是寻找一组模型参数使得观测到的样本数据真实发生的概率联合概率最大。假设我们有NNN个独立同分布的训练样本{(x1,y1),(x2,y2),...,(xN,yN)}\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}{(x1​,y1​),(x2​,y2​),...,(xN​,yN​)}。整个数据集的似然函数Likelihood Function即为所有样本概率的乘积L(θ)∏i1NP(yi∣xi)∏i1Ny^iyi(1−y^i)(1−yi)L(\theta) \prod_{i1}^{N} P(y_i|x_i) \prod_{i1}^{N} \hat{y}_i^{y_i} (1-\hat{y}_i)^{(1-y_i)}L(θ)i1∏N​P(yi​∣xi​)i1∏N​y^​iyi​​(1−y^​i​)(1−yi​)为了方便求导和计算将乘积转化为求和且单调递增不改变极值点我们对似然函数取自然对数得到对数似然函数Log-Likelihoodln⁡L(θ)∑i1N[yiln⁡(y^i)(1−yi)ln⁡(1−y^i)]\ln L(\theta) \sum_{i1}^{N} \left[ y_i \ln(\hat{y}_i) (1-y_i) \ln(1-\hat{y}_i) \right]lnL(θ)i1∑N​[yi​ln(y^​i​)(1−yi​)ln(1−y^​i​)]在机器学习优化求解中我们习惯于“最小化”损失函数。因此我们将最大化对数似然函数等价转化为最小化其相反数即负对数似然Negative Log-LikelihoodLoss−1N∑i1N[yiln⁡(y^i)(1−yi)ln⁡(1−y^i)]Loss -\frac{1}{N} \sum_{i1}^{N} \left[ y_i \ln(\hat{y}_i) (1-y_i) \ln(1-\hat{y}_i) \right]Loss−N1​i1∑N​[yi​ln(y^​i​)(1−yi​)ln(1−y^​i​)]结论这个负对数似然函数在数学形式上与信息论中的二元交叉熵Binary Cross-Entropy公式完全一致。因此从概率论的视角来看逻辑回归中最小化交叉熵损失本质上就是在对服从伯努利分布的数据进行极大似然估计。极大似然估计与最大化后验概率贝叶斯公式要从根本上理解 MLE 和 MAP 的区别必须回到概率论的核心——贝叶斯公式。假设θ\thetaθ是我们需要估计的模型参数XXX是我们观测到的数据集贝叶斯公式如下P(θ∣X)P(X∣θ)P(θ)P(X)P(\theta|X) \frac{P(X|\theta)P(\theta)}{P(X)}P(θ∣X)P(X)P(X∣θ)P(θ)​P(θ∣X)P(\theta|X)P(θ∣X)后验概率 (Posterior)。在看到数据XXX之后参数θ\thetaθ取某个值的概率。P(X∣θ)P(X|\theta)P(X∣θ)似然 (Likelihood)。在假定参数为θ\thetaθ的前提下观测到数据XXX的概率。P(θ)P(\theta)P(θ)先验概率 (Prior)。在没有看到任何数据之前我们根据“常识”或历史经验认为参数θ\thetaθ应该服从的概率分布。P(X)P(X)P(X)边缘概率证据。对于特定的数据集来说这是一个常数在优化求最大值时可以忽略。最大似然估计 (MLE)MLE 的核心哲学是纯数据驱动。它寻找的是让当前观测数据出现概率最大的参数θ\thetaθ。θMLEarg⁡max⁡θP(X∣θ)\theta_{MLE} \arg\max_{\theta} P(X|\theta)θMLE​argθmax​P(X∣θ)从贝叶斯的视角来看MLE 隐式地做了一个极强的假设参数θ\thetaθ的先验分布是均匀的即P(θ)P(\theta)P(θ)是一个常数。这就意味着模型没有任何“成见”或“常识”完全听信于当前的数据。因此当数据量极少时如只抛了3次硬币MLE 极易得出极端的结论。最大后验概率估计 (MAP)MAP 的核心哲学是数据结合常识。它不仅考虑当前的数据还要结合我们事先对参数的认知。它寻找的是在给定数据和先验知识下最有可能的参数θ\thetaθ。θMAParg⁡max⁡θP(θ∣X)arg⁡max⁡θP(X∣θ)P(θ)\theta_{MAP} \arg\max_{\theta} P(\theta|X) \arg\max_{\theta} P(X|\theta)P(\theta)θMAP​argθmax​P(θ∣X)argθmax​P(X∣θ)P(θ)为了方便计算我们对上式取对数将连乘变为相加arg⁡max⁡θ(ln⁡P(X∣θ)ln⁡P(θ))\arg\max_{\theta} (\ln P(X|\theta) \ln P(\theta))argθmax​(lnP(X∣θ)lnP(θ))对比对数形式的公式可以看出MAP 本质上就是 MLE 加上了一个先验项ln⁡P(θ)\ln P(\theta)lnP(θ)。在抛硬币的例子中即使 3 次全是正面导致似然P(X∣θ)P(X|\theta)P(X∣θ)在θ1\theta1θ1时最大但由于我们的先验常识P(θ)P(\theta)P(θ)认为“绝对不均匀的硬币极少见”即θ1\theta1θ1时的先验概率极低MAP 会综合这两项将最终的估计值往 0.5 的方向“拉回”。这就是先验知识对极端结果的修正。MLE极大似然估计假设参数没有先验偏好只最大化数据出现的概率。推导公式Loss−ln⁡P(Y∣X,w)\text{Loss} -\ln P(Y|X, w)Loss−lnP(Y∣X,w)。它直接推导出模型的基础数据损失函数。MAP最大后验估计结合数据的似然与参数的先验概率。推导公式Loss−ln⁡P(Y∣X,w)−ln⁡P(w)\text{Loss} -\ln P(Y|X, w) - \ln P(w)Loss−lnP(Y∣X,w)−lnP(w)。它推导出数据损失函数 正则化惩罚项。基于 MLE 推导机器学习任务概率论假设损失函数适用场景二分类伯努利分布二元交叉熵逻辑回归、二分类神经网络多分类分类分布多分类交叉熵Softmax回归、多分类神经网络回归高斯分布均方误差标准线性回归回归拉普拉斯分布平均绝对误差鲁棒回归正则化惩罚项基于 MAP 的先验推导:参数的先验假设 (P(w)P(w)P(w))推导出的正则化项 (Regularization)核心效果权重www服从高斯分布(Gaussian)L2 正则化(Ridge / 权重衰减)限制权重过大模型更平滑防止过拟合权重www服从拉普拉斯分布(Laplace)L1 正则化(Lasso)促使权重矩阵稀疏化可用于特征选择MAP 下的完整目标函数在实际工程中我们通常是将上述 A 和 B 进行组合。例如假设目标是回归任务岭回归 (Ridge Regression)概率视角似然是高斯分布先验是高斯分布→\to→采用 MAP 估计。损失函数MSEL2 正则化\text{MSE} \text{L2 正则化}MSEL2正则化。Lasso 回归概率视角似然是高斯分布先验是拉普拉斯分布→\to→采用 MAP 估计。损失函数MSEL1 正则化\text{MSE} \text{L1 正则化}MSEL1正则化。

相关新闻

构建会思考的测试Agent:从自动化到自主智能的演进

构建会思考的测试Agent:从自动化到自主智能的演进

摘要 本文介绍一种面向企业级软件测试领域的质量数字人系统,通过将大语言模型(LLM)、多Agent协同架构与Skill Engine技能框架相结合,实现了从传统自动化测试向自主智能测试的跨越。系统核心能力包括: Skill Engine 技…

2026/7/3 2:32:00 阅读更多 →
(2026)程序员转行大模型学习教程:3个月转型路线图

(2026)程序员转行大模型学习教程:3个月转型路线图

本文分析了2025年程序员转型大模型的最佳时机,指出大模型产业规模已突破5000亿美元,核心岗位缺口超百万,资深算法工程师年薪近200万。文章详细介绍了四大黄金岗位及转行策略,强调基于现有技术栈的"技能嫁接法"和高回报技…

2026/7/4 7:15:08 阅读更多 →
使用OpenClaw时必须警惕的信息安全风险

使用OpenClaw时必须警惕的信息安全风险

OpenClaw是一款近期火爆全球的开源AI智能体(AI Agent),因其图标是一只红色龙虾,也被昵称为“龙虾”。它的特别之处在于,不再像ChatGPT那样只是“动脑”回答问题,而是长出了“手脚”,可以真正替你…

2026/5/17 11:58:28 阅读更多 →

最新新闻

FUSE-Bike平台与BikeActions数据集:骑行视角下的VRU行为识别

FUSE-Bike平台与BikeActions数据集:骑行视角下的VRU行为识别

1. 项目概述:FUSE-Bike平台与BikeActions数据集 在自动驾驶和移动机器人领域,准确理解弱势道路使用者(VRU)的行为意图一直是个棘手难题。传统研究大多聚焦于从车辆视角观察行人过马路行为,却忽视了自行车道、人行道等密…

2026/7/4 11:12:28 阅读更多 →
多维聚合三阶段:Pre-In-Post数据操作实战指南

多维聚合三阶段:Pre-In-Post数据操作实战指南

1. 项目概述:多维聚合中的数据操作,远不止GROUP BY那么简单 “Part 20: Data Manipulation in Multi-Dimensional Aggregation”这个标题乍看像是一门数据库课程的第20讲,但如果你真在业务一线做过报表开发、BI建模或数据中台建设&#xff0c…

2026/7/4 11:10:27 阅读更多 →
从低权限SQL注入到RCE提权:完整攻击链与防御策略

从低权限SQL注入到RCE提权:完整攻击链与防御策略

1. 项目概述:从SQL注入到系统沦陷的完整攻击链在渗透测试和网络安全攻防演练中,我们常常会遇到一些看似“鸡肋”的低权限SQL注入点。很多新手可能会觉得,一个只能查询部分数据、无法直接读写文件的注入点,价值有限。但今天我想分享…

2026/7/4 11:10:27 阅读更多 →
ICM-42688-P与PIC18LF47K40在机器人控制与工业监测中的应用

ICM-42688-P与PIC18LF47K40在机器人控制与工业监测中的应用

1. ICM-42688-P与PIC18LF47K40的黄金组合解析 在机器人控制和工业监测领域,传感器与微控制器的选型直接决定了系统性能上限。ICM-42688-P作为TDK InvenSense推出的6轴MEMS惯性测量单元(IMU),其核心价值在于将三轴陀螺仪和三轴加速度计集成在3x3x0.9mm的封…

2026/7/4 11:08:27 阅读更多 →
SPI EEPROM与PIC单片机数据存储检索实战

SPI EEPROM与PIC单片机数据存储检索实战

1. 项目背景与核心器件选型 在嵌入式系统开发中,快速精确的数据检索是一个常见但颇具挑战的需求。25CSM04作为一款4Mbit容量的SPI接口EEPROM,搭配PIC18F86J15这款高性能8位单片机,能够构建一个稳定可靠的数据存储与检索系统。 25CSM04的主要…

2026/7/4 11:06:27 阅读更多 →
Ceph存储池管理开发:openeuler/ceph_dev中存储池配置与优化完整指南

Ceph存储池管理开发:openeuler/ceph_dev中存储池配置与优化完整指南

Ceph存储池管理开发:openeuler/ceph_dev中存储池配置与优化完整指南 【免费下载链接】ceph_dev ceph_dev is a project focus on some feature developing based on ceph 项目地址: https://gitcode.com/openeuler/ceph_dev 前往项目官网免费下载&#xff1a…

2026/7/4 11:04:26 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻