Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型
标题一次非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器顺便摸索下国产芯片的训练都有哪些坑笔者时隔一年对Reyes《【多模态LLM】Reyes一个从0到1开始训练的多模态大模型技术报告》进行了改造原本的Reyes由8B的参数构成InternViT-300M-448px-V2_5Qwen2.5-7B-Instruct随着端侧模型的发展与手里资源的限制最终笔者将Reyes参数量设置成0.6B训练了一个轻量化的多模态模型最终在MMMU-benchmark取得了38.7的得分。权重开源https://modelscope.cn/models/yujunhuinlp/Reyes-0.6Bgithubhttps://github.com/yujunhuics/Reyes模型架构得益于开源社区优秀的开源模型qwenvl、smolvlm等在模型、代码、训练等提供的思路Reyes-0.6B整体结构遵循经典的Vit两层MLPLLM架构vit视觉编码器SigLIP2-Base-Patch16-512LLMqwen3-0.6B优化trick原生分辨率支持在上个版本Reyes-8B中主要采用了动态分辨率对图像进行预处理包括归一化、缩放、裁剪、根据宽高比动态处理等操作。在《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》和现有多个VLMs如qwenvl、keye-vl等中都使用了原生分辨率。因此本次Reyes-0.6B模型也增加了原生分辨率的支持通过适配集成 2D Rotary Position Embeddings2D-RoPE和双三次插值适配位置嵌入实现。像素洗牌Pixel Shuffle支持在《开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling》提到像素洗牌通过重新排列编码图像以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量同时保持信息密度。训练训练数据得益于开源社区的快速发展如FineVision、《多模态视觉语言模型Molmo2训练数据、训练配方》提到的若干优质的数据集结合一些筛选和净化手段。训练整体分预训练和SFT两阶段预训练训练模型的对齐能力由VQAOCRcaption数据构成。1024x1024低分辨率训练。SFT训练模型的多模态理解能力由纯文本VQA的混合数据进行训练2048x2048高分辨率训练。推理代码import torch from transformers import AutoModel, AutoTokenizer, CLIPImageProcessor model_dir 模型权重 model AutoModel.from_pretrained(model_dir, trust_remote_codeTrue, torch_dtypetorch.bfloat16) tokenizer AutoTokenizer.from_pretrained(model_dir, trust_remote_codeTrue) image_processor CLIPImageProcessor.from_pretrained(model_dir, trust_remote_codeTrue) messages [ { role: user, content: [ {type: text, text: 描述一下这张图片。}, { type: image_url, image_url: { url: test.png }, } ], }, ] res model.chat(messages, tokenizer, image_processor, max_new_tokens1024, do_sampleTrue, temperature0.6) print(res)一些caseVQAprompt描述一下这张图片。输出这张图片展示了一只威尔士柯基犬它正坐在一条灰色的石板路上。狗狗的毛色主要是棕色和白色相间的面部和胸部有明显的白色部分。它的耳朵竖立眼睛半闭嘴巴微微张开露出一点粉色的舌头看起来非常开心和活泼。背景中可以看到一些树木和草地表明这只狗可能在一个公园或类似的户外环境中。整体上这张照片给人一种轻松愉快的感觉体现了狗狗的活力和亲近人心的一面。OCRprompt识别图片中的文字输出markdown格式。输出尾注本次仅记录训练Reyes-0.6B的过程和一些trick的验证。

相关新闻

计算机基础·cs336·MoE

计算机基础·cs336·MoE

MoE 混合专家 核心思想混合专家模型(Mixture of Experts,MoE)是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子…

2026/7/3 15:46:06 阅读更多 →
笔记02:快消公司的赚钱公式:你写的每一行代码,都在利润表上哪个位置?

笔记02:快消公司的赚钱公式:你写的每一行代码,都在利润表上哪个位置?

摘要本笔记将为您打开快消公司的“财务黑匣子”。我们将解剖一个极简却万能的赚钱公式,并完成一次关键思维跃迁:从“我的系统很稳定”到“我的系统是否在赚钱”。您将清晰看到,CDP、ERP、RPA等技术项目,如何在售价、销量、成本、费…

2026/7/3 15:46:07 阅读更多 →
SSM毕设项目:基于SSM的学生选课管理系统(源码+文档,讲解、调试运行,定制等)

SSM毕设项目:基于SSM的学生选课管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 22:54:38 阅读更多 →

最新新闻

Linux服务器安全加固实战:从账户权限到入侵检测的完整防护体系

Linux服务器安全加固实战:从账户权限到入侵检测的完整防护体系

1. 项目概述:为什么Linux安全是每个从业者的必修课最近几年,无论是企业服务器被勒索、云主机被挖矿,还是个人开发机被当成跳板,安全事件听得耳朵都起茧了。很多人觉得,安全是运维或者安全工程师的事,自己就…

2026/7/5 13:24:09 阅读更多 →
林伽一 · AI科技日报 |DSpark MIT开源实现85%推理降本,推理框架迎来技术突破;GPT-5.6受限发布,OpenAI以5%股权绑定美国政府

林伽一 · AI科技日报 |DSpark MIT开源实现85%推理降本,推理框架迎来技术突破;GPT-5.6受限发布,OpenAI以5%股权绑定美国政府

OpenAI 发布 GPT-5.6 但仅限政府批准组织使用,CEO 同时推动 5% 股权出售给美国政府。DeepSeek 发布 MIT 许可的 DSpark 推理框架实现 85% 降本,Meta 宣布进军云计算,SpaceX 收购 Cursor 考验多模型策略。从模型管控到开源策略再到资本重构&am…

2026/7/5 13:24:09 阅读更多 →
边缘计算+PLC融合|TSN+OPC UA FX:消除工控 “七国八制”

边缘计算+PLC融合|TSN+OPC UA FX:消除工控 “七国八制”

#333 第3篇|现场层通信的全球通用语言 在前两篇内容里,我们完整梳理了边缘计算与PLC融合的底层概念、三代工控迭代架构,不少深耕数字孪生落地的工程师、项目负责人都提出了同一个落地痛点: 工厂即便配齐边缘节点、搭建好数字孪生…

2026/7/5 13:24:09 阅读更多 →
SolidWorks 2024 VS FreeCAD

SolidWorks 2024 VS FreeCAD

目录 🆓 免费与开源轻量级软件 💼 商业轻量级软件 ☁️ 云端/浏览器端软件 📝 核心差异速览 SolidWorks 2024 功能强大,但对硬件要求高、价格昂贵且安装包庞大。如果你在寻找更轻量、启动更快、对硬件更友好的替代品&#xff…

2026/7/5 13:24:09 阅读更多 →
OpenWrt SSH双因素认证配置指南:TOTP与备用端口方案

OpenWrt SSH双因素认证配置指南:TOTP与备用端口方案

1. 项目概述:为什么要在OpenWrt上折腾SSH双因素认证? 如果你和我一样,把家里的路由器刷成了OpenWrt,那它大概率已经成了你网络的核心枢纽。除了路由,你可能还用它跑了Docker、挂载了硬盘做轻量NAS,或者部署…

2026/7/5 13:22:08 阅读更多 →
FPGA 工频同步采集 + DDR3 缓存完整实现方案

FPGA 工频同步采集 + DDR3 缓存完整实现方案

目录 整体系统架构功能概述 时钟域划分(核心跨域隔离) 一、50Hz 工频 DPLL 同步模块 dpll_50hz.v 原理 二、ADC 同步采集模块 adc_sync_sample.v 三、异步 FIFO 跨时钟域桥 data_fifo_bridge.v 四、DDR3 MIG 控制器封装 ddr3_mig_top.v IP 配置要…

2026/7/5 13:22:08 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻