统计学必备知识:双变量正态投影解析
原文towardsdatascience.com/must-know-in-statistics-the-bivariate-normal-projection-explained-ace7b2f70b5b引言在统计学和机器学习中理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的基本技术之一是双变量投影它依赖于双变量正态分布的概念。这项技术允许通过它们之间的依赖结构来检查和预测一个变量的行为。双变量投影有助于确定一个随机变量在另一个变量特定值下的期望值。例如在线性回归中投影有助于估计因变量相对于自变量的变化。本文分为 3 部分在第一部分我将探讨双变量投影的基础推导其公式并演示其在回归模型中的应用。在第二部分我将提供一些关于投影的直觉和一些图表以更好地理解其含义。在第三部分我将使用投影来推导线性回归的参数。在我推导双变量投影公式的过程中我将使用一些已知的结果。为了不让读者感到过于沉重我将在文章末尾的附录中提供我陈述的证明和参考文献。第一部分双变量正态投影公式设Z为一个服从正态双变量N(μ, Σ)分布的随机向量其中https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7fdab3d5fff877f7db21d52e7ca1299c.pngZ 的形状其中 X 和 Y 随机变量服从正态单变量分布https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a27a3ed2bc89ade4540a3308b0452566.pngZ 的均值和协方差矩阵的公式以 X 和 Y 的均值和方差表示。ρ是 X 和 Y 之间的相关系数。然后给定X x的Y的条件分布是正态的并且由以下给出https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/77db8c900c9e7523509c168fc9765d66.png你可以在文章末尾的附录中找到这个结果的推导这是有条件均值的正态分布密度https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1ea5748b7f7e4b50964e0cff1adf9e1b.png以及条件方差https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/809cd31f00c083fbf9cd473b19329d54.png现在我们可以写出Y在X上的线性投影即给定X x的Y的条件均值https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5f3653e442b159dec5d5f573cc2a8999.png这是Y和X之间的线性关系因为它是Y在X上的线性投影。这个公式告诉我们什么我们可以在实际应用中使用它做什么让我们来看看第二部分解释和模拟二元投影在预测建模中起着至关重要的作用它允许我们根据另一个变量的值来估计一个变量的期望值。我将通过线性回归做一个实际示例。除了其预测能力外二元投影还为两个变量之间关系的性质和强度提供了宝贵的见解。例如当处理试图控制订单流的市商的Kyle 模型时我将在后续文章中使用这个结果。在这个模型中市商试图根据订单流理解证券的期望值。另一个机器学习应用是检测异常或离群值。通过投影这个过程变得更加容易管理因为它突出了变量之间预期关系的偏差。在使用线性回归进行实际示例之前我将运行一些 Python 模拟以更好地突出二元正态分布的形式以及其投影的预期结果。在下面的图中随机变量X和Y服从标准正态分布N(0, 1)。我们将看到当设置它们的相关性ρ的不同值时图的变化情况。一个可能的边缘情况是将ρ 0设置这意味着两个随机变量不相关https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5f2a35db9f15b64b8c73212fa3a386ac.png在这里两个随机变量以它们的均值0为中心它们的散点图呈圆形。这表明变量是独立的。变量之间没有明显的线性关系。在下面的 3D 图中你可以更清楚地欣赏到分布的形状。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/219a22656bc1ea3096a1c28d8cb54e5e.png现在我们应用投影公式看看当X x的不同值时Y的分布会发生什么变化。如我们所想象Y的分布不受x的不同值的影响。Y的均值和方差保持不变。现在我们来看一个更有意义的相关性会发生什么。让我们将ρ 0.9https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/abdbb69a9d750519e250c1b2c65f28b0.png两个变量的均值仍然在0处但散点图显示了明显的线性关系。下面的 3D 图如下你可以欣赏到现在的分布不再像上一个例子那样呈现“圆锥”形状。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/956c2779da1fbe0138cb69af2ae095ba.png绘制投影图后我们可以看到Y的分布实际上受到不同x值的影响。值得注意的是Y的平均值依赖于x因为它的值取决于x和 _μX的差值而Y的方差不随x变化*因为它只依赖于相关系数ρ.此外请注意方差小于 _ρ0的情况*因为它与1-ρ²成比例。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cd4b86204a0af1c5e8fe00e283b96851.png我将要展示的最后一种情况是ρ – 0.9.与前一种情况类似https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/606becc713b734c54f202cb11f92cdd7.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fd4190c624f3dd4883e74b1ae2967ce4.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9ac1bbbf85b8cfe18f2c340e54a92ba2.png第三部分应用 – 线性回归现在我们将投影应用于一个简单的机器学习案例线性回归。假设我们想要构建一个机器学习模型使用其面积 (X变量) 的值来预测房价 (Y变量)。我们有一个包含X和Y历史数据的数据集。假设变量分布如下并且它们之间存在线性关系https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bb3740c2c3584b9d452b034d996b1628.png我们希望构建一个模型能够根据X的特定值预测Y的值https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/df286338d87924a7440cb4d384630a07.png其中beta 代表线性回归的系数就像通常情况一样https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e3a0f3de5ae922102f39c609f1eb5485.png使用投影公式我们有https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ef17625e8e1e1770de016d3ebc7a81e7.png这样我们可以使用从数据集中估计的分布参数来估计线性回归系数。让我们首先将两个表达式相等https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bf8724cd09c5a253f3f864644c926bc2.png将右侧的项重新排列以分离乘以x的项和不乘以x的项https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/105ce70a3337df9ca5d98c24935587b6.png为了使等式成立参数应该是https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0f52574a5cd7868e496abaf6ff762f07.png请注意这些是线性回归参数的估计值结论正如本文所述线性投影是统计学中一个强大的工具。它的应用多种多样你可能会惊讶于它被非显式地使用了多少次。你可以在这里找到生成图表所使用的代码 here。如同往常如果您有任何问题或建议请随时评论或联系我您可以在我的 GitHub 读取说明中找到我的联系方式。参考文献[1] Joel Hasbrouck (2007).实证市场微观结构第七章[2] Alex Tsun,概率与统计及其在计算中的应用第 5.9 章除非另有说明所有图像均由作者提供。附录 – 双变量线性投影推导让我们先定义两个随机变量X和Y的联合密度函数https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1e2d8fb1ce0387dd5bc89945aa9e3604.png参考链接条件概率分布计算协方差矩阵的行列式https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b3f034bb743ee429f1610cc6234e7705.png和协方差矩阵的逆https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/279c4626bd22b7891083f52a6174ebb3.png参考链接寻找矩阵逆的快捷方法将此代入密度函数的表达式中我们得到https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f731dc31df806d464356c18c04c45833.png现在正态双变量的边缘概率密度函数是正态单变量。X的边缘函数由以下公式给出https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/de67ff72b0afe0fa9fd1b231548be736.png参考链接边缘分布现在我们终于可以计算给定Xx的Y的条件分布。请注意这仍然是正态分布https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f5471a7b3f3e768f53feb772600aa679.png参考链接条件概率分布将联合密度函数和边缘密度函数代入我们得到投影密度https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/77db8c900c9e7523509c168fc9765d66.png投影公式现在是给定X x的Y的期望值可以通过积分投影密度函数来计算。请注意指数内的二次项可以解释为随机变量减去其均值。在这种情况下均值是 mu_Y 通过依赖于x的项进行平移。我们在绘制分布时欣赏了这种效果。方差通过1-ρ²进行缩放。分布的期望值随后是https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ef17625e8e1e1770de016d3ebc7a81e7.png那就是双变量投影。

相关新闻

静态HDR vs 动态HDR:一字之差,画质天壤之别!

静态HDR vs 动态HDR:一字之差,画质天壤之别!

高动态范围(HDR)技术已经改变了我们观看图像和视频的方式。通过使色彩更鲜活、细节更清晰,HDR让我们的观影体验更贴近肉眼所见的真实世界。从电视、电影到视频游戏和照片,HDR技术帮助我们创造更具沉浸感和真实感的体验。 但如今市…

2026/7/5 11:50:15 阅读更多 →
2026年AR眼镜出货量飙至95万,五大科技巨头齐发力领跑XR未来入场券!

2026年AR眼镜出货量飙至95万,五大科技巨头齐发力领跑XR未来入场券!

据悉,近日,数据机构TrendForce集邦咨询发布最新近眼显示产业调查。报告指出,在市场资本推波助澜之下,预估2026年全球AR眼镜出货量将跃升至95万台,年增率为53%。 根据TrendForce集邦咨询预估,随着各大厂持续…

2026/7/4 21:55:23 阅读更多 →
负氧离子监测站:守护清新空气,畅享健康生活

负氧离子监测站:守护清新空气,畅享健康生活

在生态环境保护与科普教育日益受到重视的当下,水境传感的负氧离子监测站凭借精准的监测能力、多元的应用价值,成为连接生态保护、健康生活与科普教育的重要桥梁。它不仅能为生态环境评估提供科学数据,更能让人们直观了解空气质量,…

2026/7/4 21:55:22 阅读更多 →

最新新闻

Unity 2019.2.1 Ragdoll 性能优化:10个角色同屏实测,CPU占用降低40%方案

Unity 2019.2.1 Ragdoll 性能优化:10个角色同屏实测,CPU占用降低40%方案

Unity 2019.2.1 Ragdoll 性能优化实战:10角色同屏CPU占用降低40%的完整方案在移动端或中低配PC上实现大规模Ragdoll效果时,性能问题往往成为开发者的噩梦。本文将分享一套经过实战验证的优化方案,通过10个Ragdoll角色同屏测试,成功…

2026/7/5 11:45:28 阅读更多 →
AI时代技术人的核心壁垒:从想法到产品的转化能力实战指南

AI时代技术人的核心壁垒:从想法到产品的转化能力实战指南

这次我们来看一个关于“未来十年,将Idea落地的转化能力为何是人类的核心壁垒?”的深度探讨。这个话题看似偏向思维层面,但在技术领域,尤其是AI技术飞速发展的今天,它变得前所未有的具体和紧迫。我们不再空谈概念&#…

2026/7/5 11:43:27 阅读更多 →
基于YOLOv8的GUI元素自动化检测工具开发实践

基于YOLOv8的GUI元素自动化检测工具开发实践

1. 项目概述:GUI元素检测的自动化解决方案在软件测试和自动化领域,GUI元素检测一直是个痛点问题。传统基于坐标定位或元素树解析的方法在面对动态界面时表现脆弱,而基于计算机视觉的解决方案往往需要复杂的配置。这个项目将YOLO目标检测模型与…

2026/7/5 11:41:27 阅读更多 →
【开源推荐】S标签页 (STab) —— 一款融合双重核心功能的极简高效浏览器起始页(标签页)

【开源推荐】S标签页 (STab) —— 一款融合双重核心功能的极简高效浏览器起始页(标签页)

【开源推荐】S标签页 (STab) —— 一款融合双重核心功能的极简高效浏览器起始页(标签页) 📌 前言 在日常浏览网页时,你是否经常遇到以下痛点: 浏览器原生收藏夹层级太深,查找和管理非常繁琐?…

2026/7/5 11:41:27 阅读更多 →
企业级AI应用实战:基于Hermes Agent与Harness Engineering的智能体开发与工程化部署

企业级AI应用实战:基于Hermes Agent与Harness Engineering的智能体开发与工程化部署

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们聚焦一个在企业级AI大模型应用开发中备受关注的技术组合: Hermes Agent 与 Harness Engineering 。如果你正在…

2026/7/5 11:39:26 阅读更多 →
基于YOLOv10的水果识别系统开发实战

基于YOLOv10的水果识别系统开发实战

1. 项目概述:基于YOLOv10的水果识物系统 水果识物系统是计算机视觉在农业和零售领域的典型应用。这个项目采用YOLOv10算法实现了一套能够自动识别水果种类、统计数量的智能系统。相比传统图像分类方法,YOLOv10在检测速度和精度上都有显著提升&#xff0c…

2026/7/5 11:39:26 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻