语义流形(Semantic Manifold)是理解 embedding 空间最核心的概念之一
语义流形Semantic Manifold是理解 embedding 空间最核心的概念之一。很多人知道 embedding 可以表示语义但不知道语义为什么会在向量空间中形成结构。下面一步一步解释。一、什么是“流形Manifold”先看数学概念。在数学领域Manifold的意思是在整体上很复杂但在局部看起来像简单空间的结构最经典的例子是地球。例子地球表面地球是一个球体。但如果站在地面看看起来是平面可以用二维坐标描述例如经度121° 纬度24°虽然地球整体是3D球体但表面实际上是2D结构。数学上就说地球表面是嵌入在3维空间中的2维流形二、什么是“语义流形”语义流形就是语义数据在高维空间中形成的低维结构换句话说文本 embedding 虽然是几百维甚至几千维但真正的语义变化其实只有少数几个方向。例如主题 情绪 语气 时间 人物所以真实语义其实只需要10维左右。但模型为了表达复杂关系会用768维 1536维因此数据会分布在一个弯曲的低维结构上。这个结构就叫semantic manifold 语义流形三、最简单的二维例子假设 embedding 是二维。有四句话我喜欢猫 我喜欢狗 今天下雨 今天刮风模型可能生成向量猫 (0.8 , 0.2) 狗 (0.75, 0.25) 下雨 (-0.4,0.7) 刮风 (-0.35,0.65)如果画出来动物区域 (0.8,0.2) 猫 (0.75,0.25) 狗 天气区域 (-0.4,0.7) 下雨 (-0.35,0.65) 刮风可以看到动物 cluster 天气 cluster形成两个语义区域。四、真实 embedding 空间是什么样真实 embedding 空间通常是768维 1536维 3072维比如BERTembedding 维度768比如text-embedding-3-largeembedding 维度3072但语义并不是填满整个空间。数据其实集中在某些区域。比如医疗语义区域 金融语义区域 法律语义区域每个区域又包含子结构。例如医疗疾病 药物 症状 治疗这些区域连在一起形成一个“弯曲结构”。这就是semantic manifold五、为什么叫“弯曲空间”假设语义有两个方向动物程度 情绪程度句子猫很可爱 猫很凶 老虎很凶embedding可能形成情绪 ↑ 凶 老虎 猫 | | | 可爱 小猫 → 动物这个空间可能不是直线而是弯曲。所以数学上叫流形而不是简单平面。六、为什么 embedding 会形成语义流形原因来自语言学假设Distributional Hypothesis分布式假设意思是上下文相似 → 语义相似例如猫吃鱼 狗吃肉出现的上下文类似吃 食物 动物因此 embedding 会被训练成猫 ≈ 狗这样大量数据会自动形成结构。七、RAG为什么依赖语义流形RAG系统核心步骤文本 → embedding → 向量数据库 → 相似度搜索如果没有语义流形相似文本不会聚集。搜索会失败。正是因为语义相似文本在空间中靠近向量数据库才有效。例如搜索糖尿病症状embedding 搜索可能找到糖尿病早期表现 糖尿病有哪些症状 血糖高的表现因为它们都在疾病症状流形区域八、一个非常重要的数学事实语义流形通常是低维嵌入高维空间例如真实语义维度10 embedding维度1536数据实际上只在10维弯曲表面上分布。这就是manifold hypothesis 流形假设九、为什么ANN搜索可行向量数据库Milvus、Faiss利用的就是语义流形的性质。例如FAISSMilvus核心思想只搜索数据分布区域而不是整个空间。这样才能做到百万级 千万级向量搜索。十、一个形象比喻embedding 空间像宇宙语义流形像银河系数据不是随机散布在宇宙。而是集中在星系结构向量搜索其实是在银河系内部找星星而不是在整个宇宙乱找。十一、总结一句话语义流形Semantic Manifold就是文本 embedding 在高维空间中形成的语义结构表面相似语义会聚集在同一片区域。换句话说embedding ≠ 随机向量 embedding 语义空间中的坐标

相关新闻

100天精通C语言【第一天】:函数

100天精通C语言【第一天】:函数

目录 1.函数的声明 2.实参和形参 3.函数的递归 1.函数的声明 目的:1.减少频繁定义函数 2.函数嵌套中涉及未定义的函数可以提前使用 2.实参和形参 实参代表着数据的地址和本身,在函数调用的使用就是使用形参, 而在函数定义的时候就是用形…

2026/5/17 11:56:57 阅读更多 →
营销的消亡

营销的消亡

人工智能是互联网最大的用户。 大多数电子邮件首先由人工智能读取。 大多数网站在人类之前先被人工智能抓取。 大多数 API 调用都是软件之间的调用。 大多数内容由逻辑推理模型 (LLM) 消费、解析和总结,然后以简短答案的形式返回。 五年内,我们将把…

2026/7/5 7:33:16 阅读更多 →
轻量高效的 M3U8 在线调试工具,开发者必备的 HLS 播放验证神器

轻量高效的 M3U8 在线调试工具,开发者必备的 HLS 播放验证神器

在 HLS 流媒体开发、调试和日常测试工作中,我们经常需要快速验证 M3U8 链接的有效性、排查播放异常问题,而传统的本地播放器测试不仅步骤繁琐,还可能因环境差异导致测试结果偏差。今天给大家分享一款免安装的 M3U8 在线播放工具 ——m3u8live…

2026/7/5 14:04:13 阅读更多 →

最新新闻

AI智能体开发实战:从Coze到Dify,掌握未来高薪岗位核心技能

AI智能体开发实战:从Coze到Dify,掌握未来高薪岗位核心技能

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们来看一个面向2026年AI训练师和智能体工程师岗位的实战公开课,核心是掌握两大主流平台:扣子(Coze)和Di…

2026/7/5 22:40:55 阅读更多 →
PHP与Java跨语言AES加解密兼容性实现与实战指南

PHP与Java跨语言AES加解密兼容性实现与实战指南

1. 项目概述与核心价值最近在对接一个第三方支付平台的回调接口时,遇到了一个典型的老问题:对方使用Java服务,采用AES-128-CBC模式、PKCS5Padding填充方式对数据进行加密,然后进行Base64编码后传输。而我的后端服务是用PHP7写的。…

2026/7/5 22:38:55 阅读更多 →
东芝TC78H653FTG与PIC18F2458的直流电机控制方案

东芝TC78H653FTG与PIC18F2458的直流电机控制方案

1. 项目背景与核心组件介绍在工业自动化和消费电子领域,直流有刷电机因其结构简单、成本低廉和控制方便等优势,始终占据重要地位。然而,如何实现高效精准的电机控制一直是工程师面临的挑战。东芝公司的TC78H653FTG H桥驱动器与Microchip的PIC…

2026/7/5 22:38:55 阅读更多 →
MC6470与PIC18LF45K22嵌入式姿态控制系统设计

MC6470与PIC18LF45K22嵌入式姿态控制系统设计

1. MC6470与PIC18LF45K22硬件组合概述MC6470惯性测量单元与PIC18LF45K22微控制器的组合,为嵌入式控制系统提供了一套高性价比的硬件解决方案。这套系统特别适合需要实时姿态检测和精密运动控制的场景,如无人机飞控、自平衡机器人、工业机械臂等应用。MC6…

2026/7/5 22:38:54 阅读更多 →
扩散模型在老照片修复中的应用与技术解析

扩散模型在老照片修复中的应用与技术解析

1. 老照片修复的技术挑战与扩散模型优势 从事数字图像修复工作十余年,我见证了从传统手工修复到AI智能修复的技术演进。历史老照片修复一直是个令人头疼的问题——那些发黄、破损、褪色的老照片承载着珍贵记忆,却因年代久远变得模糊不清。传统修复方法主…

2026/7/5 22:36:54 阅读更多 →
3D视觉感知技术:原理、应用与工程实践

3D视觉感知技术:原理、应用与工程实践

1. 3D视觉感知技术:从平面到立体的认知革命2007年第一代iPhone发布时,那颗200万像素的后置摄像头曾让世界惊叹。但如今回头看,那不过是把现实世界"压扁"成二维图像。真正的突破发生在2017年,当iPhone X首次搭载TrueDept…

2026/7/5 22:36:54 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻