图像分割完整概念解析
图像分割Image Segmentation是计算机视觉Computer Vision中最重要的任务之一它可以认为是目标检测Object Detection的进一步升级。如果把整个计算机视觉的发展过程串起来你会发现它们之间是层层递进的图像分类Classification │ ▼ 目标检测Detection │ ▼ 实例分割Instance Segmentation │ ▼ 全景分割Panoptic Segmentation │ ▼ 开放词汇分割Open Vocabulary │ ▼ SAM时代Prompt Segmentation今天我会按照**“为什么需要 → 基本概念 → 各种分割任务 → 模型发展 → 原理 → Loss → 评价指标 → 实际工程”**这条路线系统讲一遍。第一章 为什么需要图像分割假设有这样一张图片------------------------------------ | | | 一只猫坐在草地上 | | | ------------------------------------如果是分类Classification输出Cat只知道这是猫。不知道猫在哪里。如果是目标检测Detection输出┌────────────┐ │ Cat │ └────────────┘得到类别 位置也就是Cat Bounding Box但是################## # # # 猫 # # # ##################框里面还有背景 草地 尾巴外面框非常粗糙。很多任务需要知道每一个像素是不是猫。于是出现了图像分割。第二章 什么叫图像分割一句话给图片中的每一个像素进行分类。例如原图□□□□□□ □□猫□□□ □□猫□□□ □□猫□□□ □□□□□□输出Mask000000 001100 001100 001100 000000这里1 猫 0 背景所以分割最终输出的是Mask掩码而不是Box。Mask是什么就是和原图一样大的二维矩阵。例如图片640×640Mask也是640×640每个像素0 或者 1或者0 1 2 3 ...表示类别。第三章 图像分割有哪些类型这是最重要的一章。很多人把这些搞混。其实只有四种。第一种 Semantic Segmentation语义分割最简单。例如两只猫输出111111 111111 111111 111111所有猫都是类别Cat不区分猫A 猫B所以语义分割回答的是哪些像素属于猫不是哪只猫例如背景 0 猫 1 狗 2 天空 3整个Mask333333333 000111110 000111110 222222220只有类别。应用道路分割医学土地分割卫星遥感代表模型FCNU-NetDeepLabPSPNet第二种 Instance Segmentation实例分割实例分割就是DetectionSemantic Segmentation例如两只猫输出Cat 1 Mask1Cat 2 Mask2也就是说每一只猫都有自己的Mask。例如11110000 11110000 00002222 00002222这里1 第一只猫 2 第二只猫所以实例分割输出的是类别 Box Mask三样东西。代表模型Mask R-CNNYOLACTSOLOYOLOv8YOLO11第三种 Panoptic Segmentation全景分割这是SemanticInstance结合。例如图片天空 树 路 汽车 人其中天空 树 路属于Stuff不可数而人 汽车属于Thing可数Panoptic要求背景全部分类 目标全部区分实例例如天空 天空 天空 树 树 汽车1 汽车2 道路 道路代表模型Panoptic FPNMask2Former第四种 Prompt SegmentationSAM时代这几年最火。代表Segment Anything ModelSAM 2以前输入图片输出Mask现在输入图片 PromptPrompt可以是点●框□□□□□文字dog甚至另一张Mask。然后SAM自动分割。这就是Prompt Segmentation。第四章 图像分割的发展历史2015 FCN ↓ 2017 U-Net ↓ PSPNet ↓ DeepLab V3 ↓ Mask R-CNN ↓ YOLACT ↓ SOLO ↓ Mask2Former ↓ SAM ↓ SAM2 ↓ Grounded-SAM ↓ YOLO11-Seg其中真正改变整个行业的是U-Net医学Mask R-CNN实例分割Segment Anything Model基础模型时代第五章 图像分割的核心原理本质上分割就是Dense Prediction密集预测检测预测几十个框分割预测几十万个像素例如640×640图片640×640 409600 个像素每一个像素都要预测类别。所以输出409600次分类因此最后一层通常输出H × W × Classes例如640 × 640 × 20表示每个像素20分类。第六章 Instance Segmentation 是怎么做出来的例如YOLO11 Seg。除了检测头Box Class Confidence还增加Mask HeadMask Head输出32维Prototype然后每个目标预测32个Mask Coefficient最终Mask Prototype × Coefficient得到实例Mask。所以YOLO不是直接预测640×640Mask。而是预测Prototype Coefficient速度非常快。第七章 常见Loss分割Loss很多。最经典BCE Loss逐像素分类。例如预测 0.9 GT 1计算Binary Cross Entropy。Dice Loss医学最常见。公式思想Overlap越大 Loss越小Dice2×Intersection ------------------ PredictionGT优点类别不平衡非常稳定。IoU LossMask IoUIntersection / Union越来越多模型直接优化Mask IoU。Focal Loss解决背景 目标的问题。Dice BCE医学里几乎标配。第八章 常见评价指标最重要Pixel Accuracy像素准确率预测正确像素 / 全部像素简单。但是背景很多时没有意义。IoUMask 交集 / 并集最经典。mIoUMean IoU。所有类别IoU平均。这是语义分割第一指标。Dice医学第一指标。很多论文直接Dice95%。AP实例分割也是AP50 AP75 mAP和检测类似。第九章 图像分割的数据集经典数据集数据集任务类别数PASCAL VOC语义分割21Cityscapes自动驾驶19ADE20K场景解析150COCO实例分割80LVIS长尾实例分割1200第十章 图像分割在工业中的应用图像分割已经广泛应用于多个行业行业典型任务医疗肿瘤、器官、病灶分割自动驾驶道路、车道线、车辆、行人分割遥感建筑、农田、河流、森林分割工业检测划痕、裂纹、焊缝、缺陷分割农业作物、杂草、果实分割机器人抓取目标、场景理解AR/VR人像抠图、背景替换电商商品抠图、虚拟试穿总结一张图理解图像分割体系图像分类 │ ▼ 知道是什么 │ ▼ 目标检测 │ ▼ 知道是什么 在哪里(Box) │ ▼ 语义分割 │ ▼ 知道每个像素属于什么类别 │ ▼ 实例分割 │ ▼ 知道每个像素属于哪一个具体目标 │ ▼ 全景分割 │ ▼ 整个场景所有像素都有语义所有目标都有实例ID │ ▼ SAM / Prompt Segmentation │ ▼ 通过点、框、文本等提示即可分割任意目标

相关新闻

AI 如何提升工程生产力:高管圆桌会议的关键洞察

AI 如何提升工程生产力:高管圆桌会议的关键洞察

某海外科技公司如何利用 AI 提升研发效能 提升工程效率,是这家海外科技公司工作中的重要组成部分。团队越快向客户交付高质量功能,客户就越能从产品中获得更多价值。随着 AI 编码工具和 AI 工作流逐渐进入 软件开发生命周期,如何利用 AI 提升…

2026/7/3 17:11:50 阅读更多 →
门禁和闸机

门禁和闸机

门禁和闸机经常一起出现,但它们不是同一个东西。 一句话概括:门禁(Access Control)负责"判断能不能进",闸机(Turnstile/Gate)负责"控制怎么进"。在智慧园区、智慧楼宇项目中…

2026/7/3 17:09:50 阅读更多 →
Windows主题缓存

Windows主题缓存

Windows的主题缓存保存在如下文件 %appdata%\Microsoft\Windows\Themes

2026/7/3 17:07:40 阅读更多 →

最新新闻

自动整列机PLC控制系统验证方案设计与ALCOA+实现

自动整列机PLC控制系统验证方案设计与ALCOA+实现

在制药行业,计算机化系统验证(CSV)是设备合规投入生产的必要环节。对于产线后端的自动整列机(或称自动码盘机、整列收瓶机)而言,其PLC控制系统的验证需要覆盖硬件确认、软件功能测试、数据完整性验证等多个…

2026/7/3 17:56:05 阅读更多 →
中外大模型能力对比分析

中外大模型能力对比分析

中外大模型能力差距:结构性成因的深度分析属性说明文档版本v1.0撰写日期2026-07-02文档类型技术战略分析分析视角机制解释,而非榜单罗列 摘要 「国产大模型不如国外」是一个过于粗糙的命题。截至 2026 年上半年,斯坦福 HAI《AI Index 2026》指…

2026/7/3 17:52:04 阅读更多 →
GHelper:如何用开源工具彻底解放你的华硕笔记本性能潜力?

GHelper:如何用开源工具彻底解放你的华硕笔记本性能潜力?

GHelper:如何用开源工具彻底解放你的华硕笔记本性能潜力? 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivoboo…

2026/7/3 17:52:04 阅读更多 →
LENA-R8与PIC18LF45K40的嵌入式通信与精确定位方案

LENA-R8与PIC18LF45K40的嵌入式通信与精确定位方案

1. LENA-R8与PIC18LF45K40的硬件组合解析这个组合的核心价值在于将蜂窝通信与精确定位能力集成到嵌入式系统中。LENA-R8是u-blox推出的多模LTE Cat 1模块,支持14个LTE频段和4个GSM/GPRS频段,这意味着它能在全球绝大多数地区实现网络连接。其内置的u-blox…

2026/7/3 17:52:04 阅读更多 →
心电自监督分类论文分享(1)-read your heart

心电自监督分类论文分享(1)-read your heart

READING YOUR HEART 研究背景与动机 现有心电自监督学习分为对比学习、重构学习两类,但全部把心电当做普通时序信号,采用固定窗口、固定步长切割波形,存在两个核心缺陷: 丢失心电专属形态、节律特征破坏心跳间潜在语义关系 为…

2026/7/3 17:50:04 阅读更多 →
AI编程高效学习路径:从Python速成到文本分类实战

AI编程高效学习路径:从Python速成到文本分类实战

1. 为什么选择这条AI编程学习路径?我见过太多人被AI编程的学习门槛劝退。要么被复杂的数学公式吓跑,要么在环境配置阶段就耗尽耐心,还有人在工具选择上反复折腾却始终无法开始真正编码。经过三年多的AI教学实践,我总结出一条最适合…

2026/7/3 17:50:04 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻