具身智能篇---LLaVA (Large Language-and-Vision Assistant)
LLaVALarge Language-and-Vision Assistant是由威斯康星大学麦迪逊分校等机构在 2023 年提出并在 2024-2025 年间迅速迭代成为多模态大模型LMM领域标杆的开源项目。如果说 CLIP 是连接视觉与语言的“桥梁”那么LLaVA 就是让这座桥梁通车的“车辆”。CLIP 只能做匹配这张图是不是这段文字描述的而 LLaVA 能够进行对话、推理和生成。它将强大的视觉编码器如 CLIP 的 ViT与大语言模型LLM如 Llama, Vicuna, Qwen深度融合赋予了 AI“看懂”图片并像人类一样与之交流的能力。在具身智能领域LLaVA 及其变体如 LLaVA-NeXT, LLaVA-OneVision被视为机器人“大脑”的核心组件使机器人不仅能识别物体还能理解场景中的因果关系、执行复杂的多步指令甚至进行逻辑推理。1. 核心架构简单的力量LLaVA 的设计哲学是极简主义。它没有设计复杂的跨模态注意力机制而是通过一个轻量级的投影层Projector将视觉特征“翻译”成语言模型能听懂的“视觉 Token”。其架构主要由三部分组成视觉编码器 (Vision Encoder)通常预训练好的CLIP ViT-L/14。作用负责“看”。它将输入图像转换为一系列高维特征向量。由于 CLIP 已经在海量图文对上学过丰富的语义LLaVA 直接继承了这种强大的视觉表征能力无需从头训练视觉部分。语言模型 (Language Model)可以是Vicuna, Llama 3, Qwen, Mistral等任何开源 LLM。作用负责“想”和“说”。它拥有强大的世界知识、逻辑推理能力和语言生成能力。在 LLaVA 中它被扩展为可以处理两种输入文本 Token 和 视觉 Token。多模态投影层 (Multi-modal Projector)这是 LLaVA 的“灵魂”组件通常是一个简单的两层 MLP多层感知机。作用负责“翻译”。视觉编码器输出的特征维度如 1024 维与语言模型的词嵌入维度如 4096 维不一致且语义空间未对齐。MLP 将视觉特征映射到语言模型的嵌入空间使得 LLM 可以把这些视觉特征当作特殊的“单词”来处理。2. 训练策略两阶段教学法LLaVA 的成功很大程度上归功于其高效的两阶段训练策略这在计算资源有限的情况下实现了惊人的性能。阶段一特征对齐预训练 (Feature Alignment Pre-training)数据使用约 55 万 - 60 万对的“图像 - 指令 - 回答”数据LLaVA-Instruct-558k。目标冻结视觉编码器和 LLM 的参数只训练投影层 (MLP)。效果让投影层学会如何将 CLIP 的视觉特征“翻译”成 LLM 能理解的格式。此时模型已经能进行基本的图像描述但逻辑推理能力较弱。阶段二指令微调 (Instruction Fine-tuning)数据使用更高质量、更多样化的多模态指令数据集涵盖对话、推理、OCR、代码等。目标冻结视觉编码器同时微调投影层和 LLM或者仅微调 LLM 的部分层取决于显存限制。效果激发 LLM 的推理潜能使其不仅能描述“看到了什么”还能回答“为什么”、“怎么做”、“如果...会怎样”等复杂问题。3. 关键进化从 LLaVA 1.5 到 LLaVA-NeXT/OneVision随着技术演进LLaVA 家族在 2025-2026 年已经具备了以下高级特性极大地推动了具身智能的发展高分辨率支持 (AnyRes)早期的 CLIP 将图像压缩成固定的 336x336 像素丢失了大量细节。新版 LLaVA 采用动态分块策略将高分辨率图像切分成多个小块分别编码再拼接输入 LLM。这使得机器人能看清仪表盘上的小字或远处的路标。视频理解通过引入时间维度的 TokenLLaVA 现在可以处理视频流理解动作的连续性和因果关系这对机器人模仿学习至关重要。OCR 增强集成了专门的 OCR 能力能精准读取场景中的文字如说明书、警告牌弥补了纯视觉模型的短板。纯视觉输入最新的变体甚至去掉了部分文本依赖可以直接通过视觉输入进行思维链CoT推理。4. 在具身智能中的革命性应用LLaVA 是让机器人从“自动化机器”变为“智能体”的关键开放词汇任务规划用户指令“把桌上那个快空的红色杯子拿去洗一下。”LLaVA 分析图像识别出哪个是“红色杯子”通过视觉判断液体高度推断“快空”然后调用规划模块生成动作序列。视觉问答辅助决策 (VQA for Decision Making)机器人遇到未知障碍物。LLaVA 可以自我提问“这个物体是什么它是软的还是硬的我能推得动吗”基于回答调整策略。长程任务记忆结合 RAG检索增强生成或记忆模块LLaVA 可以记住之前的交互历史在多轮对话中保持上下文一致性完成复杂的家务任务。仿真数据生成利用 LLaVA 的生成能力自动为仿真环境中的图像生成高质量的指令 - 动作对数据加速 Sim-to-Real 的训练过程。5. 局限性与挑战幻觉问题 (Hallucination)LLM 固有的毛病可能会“一本正经地胡说八道”描述图中不存在的物体。在机器人操作中这可能导致危险动作。实时性延迟庞大的参数量导致推理延迟较高难以满足高频控制回路如 100Hz 的平衡控制的需求。通常需要云边协同或模型蒸馏。空间定位精度虽然能识别物体但输出精确的 3D 坐标或抓取点Grasping Point仍需要结合专门的检测头或几何算法纯 LLM 输出坐标的能力尚不稳定。LLaVA 模型架构与数据流总结框图图解核心逻辑视觉冻结与继承蓝色的CLIP ViT通常是冻结的或在第二阶段微调它直接利用了 CLIP 在亿级数据上学到的强大视觉语义避免了从零训练视觉部分的巨大成本。模态翻译黄色的MLP 投影层是关键创新。它将视觉特征“伪装”成语言模型的词向量Word Embeddings。对于 LLM 来说这些视觉 Token 就像它词汇表里的新单词一样可以通过自注意力机制Self-Attention与文本 Token 进行交互。统一推理绿色的LLM Core并不区分输入是来自眼睛还是嘴巴它统一处理所有 Token。通过训练它学会了根据视觉 Token 的上下文来生成合理的回答。端到端应用最终的输出不仅是文本还可以直接作为动作规划器的输入例如输出 JSON 格式的动作指令{action: grasp, object: cup}从而驱动具身智能体执行物理操作。LLaVA 证明了不需要重新发明轮子只需要用一种巧妙的方式将现有的最强视觉模型和最强语言模型连接起来就能涌现出惊人的多模态智能。这也是当前具身智能大模型Embodied Foundation Models的主流构建范式。

相关新闻

【Linux系统编程】(四十四)线程同步下篇:条件变量深度解析与 POSIX 信号量实战

【Linux系统编程】(四十四)线程同步下篇:条件变量深度解析与 POSIX 信号量实战

目录 前言 一、灵魂拷问:pthread_cond_wait 为何必须绑定互斥量? 1.1 条件变量的核心作用:线程间的状态通知 1.2 无互斥量的致命问题:错过信号与永久阻塞 1.3 互斥量的核心价值:让 “解锁 等待” 成为原子操作 …

2026/7/4 8:22:51 阅读更多 →
帝国CMS处理Word截图粘贴发布的技巧?

帝国CMS处理Word截图粘贴发布的技巧?

CMS编辑器高级文档导入功能开发日志 1. 需求分析与技术调研 作为广东PHP开发团队的成员,我最近接手了一个企业CMS官网项目的升级任务。客户需要增强新闻发布功能,特别要求支持多种文档格式的直接导入和粘贴功能。 1.1 核心需求梳理 文档格式支持&…

2026/7/4 8:40:16 阅读更多 →
前端如何实现帝国CMS的Word文档一键发布?

前端如何实现帝国CMS的Word文档一键发布?

要求:开源,免费,技术支持 CMS:帝国CMS(EmpireCMS) 版本:EmpireCMS_7.5_SC_UTF8 编辑器:UEditor1.4x 功能:导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word…

2026/7/4 8:57:08 阅读更多 →

最新新闻

5个步骤搭建免费动作捕捉系统:FreeMoCap完全指南

5个步骤搭建免费动作捕捉系统:FreeMoCap完全指南

5个步骤搭建免费动作捕捉系统:FreeMoCap完全指南 【免费下载链接】freemocap Free Motion Capture for Everyone 💀✨ 项目地址: https://gitcode.com/GitHub_Trending/fr/freemocap FreeMoCap是一个免费开源的动作捕捉系统,为所有人提…

2026/7/5 4:17:14 阅读更多 →
Day3 第二章 链表part2

Day3 第二章 链表part2

了解链表 1. 什么是链表 链表是一种通过指针串联在一起的线性结构,每一个节点由两部分组成,一个是数据域一个是指针域(存放指向下一个节点的指针),最后一个节点的指针域指向null(空指针的意思)…

2026/7/5 4:17:14 阅读更多 →
聊城食品洁净车间建设指南,按加工场景适配净化板更耐用

聊城食品洁净车间建设指南,按加工场景适配净化板更耐用

聊城作为鲁西农副产品加工核心区域,形成禽肉屠宰、速冻预制菜、果蔬深加工、杂粮面点、宠物食品五大加工集群,大量新建洁净车间、老旧厂房改造需求持续增多。本地的特殊工况,也让选择板材变得复杂纠结起来。 生产线全天用水冲洗,血…

2026/7/5 4:15:13 阅读更多 →
基于TB9051FTG与MSP432的静音直流电机控制方案

基于TB9051FTG与MSP432的静音直流电机控制方案

1. 项目背景与核心需求在工业自动化、消费电子和机器人领域,直流电机控制一直是个经典课题。传统PWM调速方案虽然简单易实现,但存在明显的电磁噪声和机械振动问题——当PWM频率落在人耳可听范围(20Hz-20kHz)时,电机会发…

2026/7/5 4:13:13 阅读更多 →
Power BI热力图实战:用矩阵+条件格式驱动业务决策

Power BI热力图实战:用矩阵+条件格式驱动业务决策

1. 为什么一张“彩色表格”能成为业务决策的加速器?在Power BI里做可视化,很多人第一反应是柱状图、折线图、饼图——稳妥、熟悉、老板一眼能看懂。但真正让我在客户现场被反复追问“这个怎么做的?”“能不能再加一列?”“能不能按…

2026/7/5 4:11:12 阅读更多 →
轻量级AI智能体:安全、场景与硬件穿透的工程实践

轻量级AI智能体:安全、场景与硬件穿透的工程实践

1. 项目概述:轻量级AI智能体不是“减配版”,而是精准适配的生产力工具最近在技术圈和办公软件社群里,“养龙虾”这个词火了——它不是水产养殖指南,而是对 OpenClaw 架构下各类 AI 智能体(Agent)产品的戏称…

2026/7/5 4:11:12 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻