CellWhisperer:让单细胞数据分析像聊天一样简单 - 多模态大模型详解
CellWhisperer是能通过自然语言交互探索单细胞数据的多模态大模型框架。它联合学习多模态数据具备细胞注释、差异分析等功能。研究显示其注释准确性接近专家水平优于传统工具。系统与CELLxGENE Explorer集成提供聊天式界面支持用户数据分析为单细胞分析从代码驱动向智能对话式转变提供了新路径。原文链接添加到了文末阅读原文。本研究提出一种多模态大模型框架能够通过自然语言实现单细胞数据的交互式探索。模型联合学习基因表达矩阵、低维嵌入、蛋白与染色质信息并通过专门的数据编码与检索机制使其具备理解细胞状态、识别关键标志物和解释簇间差异的能力。该系统可执行细胞注释、差异分析、轨迹推断及跨模态整合并能自动生成可视化图形。基准测试显示其注释准确性接近专家水平并在多模态推理中优于传统工具。该研究展示了单细胞分析从代码驱动向智能对话式模式转变的可行性为多组学研究的自动化与普及提供了新路径。背景介绍单细胞测序以前所未有的规模和细节表征了生物样本但数据解读仍然面临挑战。文章能找到强调自己工作重要的背景貌似就这一句建模过程配对转录组和文本的多模态训练数据作者首先构建了一个超大规模的人类转录组训练数据集涵盖 GEO 的批量 RNA 测序数据以及 CELLxGENE Census 中衍生的伪批量单细胞转录组。为使模型能够理解生物学背景开发了 LLM 辅助的智能注释流程根据元数据自动抽取关键信息如细胞类型、组织来源、疾病状态、样本处理方式并生成简洁、统一且具生物学语义的文本描述。例如“来自Ⅱ期无转移的男性肾癌组织经 FFPE 保存”。经过 ARCHS4 的统一重处理我们获得 705,430 个 GEO 批量转录组通过对数百个单细胞数据集按元数据分组并取平均表达值又构建了 376,983 个伪批量表达谱。两者合并后共得到 1,082,413 个带结构化注释的高质量训练样本。随后基于 CLIP 框架训练多模态CellWhisperer 嵌入模型使用 Geneformer之前发表的模型 处理转录组使用 BioBERT 之前发表的模型处理文本注释并将两种向量映射到共同的 2,048 维嵌入空间通过对比学习使对应文本与转录组彼此靠近。评估显示其跨模态检索性能优异平均 AUROC0.927并能够通过自由文本查询有效匹配转录组。在此基础上微调了 Mistral 7B LLM使其能够将转录组嵌入作为额外输入进行关于细胞功能、基因调控和生物学过程的自然语言对话。我们构建了 106,610 条训练对话包括事实问答和复杂的转录组解释任务。最终模型不仅能回答自由文本问题还能对细胞状态和基因表达模式作出连贯解释。应用展示中我们对 GEO 的 705,430 个转录组进行聚类并自动注释CellWhisperer 嵌入成功捕获细胞类型、组织、疾病和发育阶段等关键结构。通过“infection”等词语查询还可在 UMAP 中高亮对应的免疫相关样本展示模型在知识检索与大规模数据理解中的能力。CellWhisperer 可预测多种细胞特征为评估多模态 CellWhisperer 嵌入模型的生物学理解能力作者以零样本预测的方式测试其基于转录组自动识别细胞特征的能力。研究选取未参与训练的专家标注数据集对每个转录组计算不同潜在细胞类型的 CellWhisperer 分数并评估其与真实标签的一致性。结果显示在包含 24 个器官、483,152 个细胞的 Tabula Sapiens 数据集中模型在 20 种常见细胞类型上的 AUROC 达到 0.94在全部 177 类别中 AUROC 仍高达 0.91。混淆主要出现在高度相似的细胞亚群之间。对于免疫细胞数据ImmGen 和亚洲人群免疫单细胞数据AUROC 超过 0.99而在具有强批次效应的胰腺单细胞荟萃数据集中仍取得 0.89显示出良好稳健性。尽管模型未专门训练用于细胞类型分类但其零样本表现超越基于标记的 CellAssign并与多种微调后的 scFM 模型相当。进一步测试显示CellWhisperer 在疾病预测229 个亚型AUROC 0.82及组织来源预测中亦显著优于随机水平。此外模型能通过纯文本提示隐式识别基因集相关性表明其学习到了广泛的生物学概念。最终模型在数据整合基准中表现优越并对不同措辞的查询保持高度一致性进一步证明其嵌入空间对细胞状态具有稳健且可解释的生物学表示能力。CellWhisperer 可识别器官发育的标记基因为展示 CellWhisperer 在复杂生物学场景中的应用能力作者将其应用于六个文献来源的人类胚胎发育单细胞 RNA 测序数据的荟萃分析共包含 95,092 个受精后 3–38 天的人类胚胎细胞均未用于训练。模型对这些数据进行处理与注释后利用基于 LLM 的胚胎学阶段描述构建查询结果显示 CellWhisperer 得分能够准确反映四个关键发育阶段的时间顺序。进一步地作者通过“心脏”等器官名称进行零样本文本查询成功捕捉到器官发生过程中关键基因的时序激活模式。模型识别的器官标记基因与胎儿基因表达图谱中已知标记高度重叠并在 PubMed 中表现出显著更高的器官相关共同提及频率且与经典标记基因相当。值得关注的是CellWhisperer 在每个器官中均额外识别出至少 10 个潜在新标记基因这些基因在文献共现分析、生物学功能富集以及三维人类胚胎空间表达图谱中均获得支持。基于聊天功能的单细胞RNA测序数据分析与网页界面为提升 CellWhisperer 在真实场景中的可用性作者将其与单细胞可视化平台CELLxGENE Explorer深度集成形成一个具备聊天功能的交互式分析系统图4。用户可在界面中以自然语言探索细胞特征包括自由文本搜索、自动簇注释和基于聊天的细胞解析。以 Tabula Sapiens 数据集为例研究者输入查询“具有免疫功能的结构细胞”系统即在 UMAP 上高亮评分较高的细胞群并显示其多为已知具有免疫调节功能的内皮细胞、上皮细胞、成纤维细胞和周细胞。随后用户可圈选细胞簇并让 CellWhisperer 生成更深入的自然语言描述内容涵盖细胞类型、器官归属、发育阶段、高表达基因与潜在免疫功能。模型给出的关键基因与功能特征在 UMAP 基因表达投影中得到验证。作者进一步使用困惑度评估聊天模型与转录组嵌入的一致性。在 200 条问答对中匹配转录组的偏好达 90%并在分布外的细胞类型上仍保持最低困惑度优于 Mistral 7B 和 Llama3.3 70B 的基础文本能力证明模型有效融合转录组信息。加入高表达基因提示有轻微增益并已纳入在线工具。对用户提供的单细胞RNA测序数据进行探索性分析为支持用户上传的数据分析作者构建了一个可自动计算 CellWhisperer 嵌入与注释的数据处理流程并与在线工具无缝集成。研究以炎症性肠病患者与健康对照的结肠单细胞 RNA-seq 数据为案例。在将数据导入 CellWhisperer 后系统自动生成聚类标签识别出包括上皮前体细胞、杯状细胞、活化 CD8⁺ T 细胞等关键细胞群。通过查询“显示干细胞”模型在“循环回肠上皮前体细胞”簇中定位到高评分子集并在随后的对话中给出其生物学解释指出这些细胞具有典型的干细胞特征包括高表达 LGR5。进一步比较炎症与非炎症组织可见后者具有更高干细胞评分提示慢性炎症削弱 LGR5⁺ 上皮干细胞这与原始研究和体外实验相符。为对比作者使用传统生信流程重现分析包括数据预处理、scVI 批次校正、CellTypist 注释及差异基因分析。尽管结论一致但该流程需 400 行代码及多款工具显著耗时且对经验要求高。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

相关新闻

软件的终结与重塑:Sam Altman 眼中的 AI 原生时代生存指南

软件的终结与重塑:Sam Altman 眼中的 AI 原生时代生存指南

在最近的一场OpenAI Town Hall活动中,Sam Altman 与开发者们进行了一场高密度的对话。这场交流不仅关乎下一个版本的 GPT 模型,更揭示了软件工程、创业逻辑以及人类创造力在 AI 浪潮下的根本性位移。当“写代码”不再是稀缺技能,当软件可以根据用户需求实时生成,我们所熟知…

2026/7/5 16:37:07 阅读更多 →
收藏必备!AI Agent全栈开发指南:从入门到实战

收藏必备!AI Agent全栈开发指南:从入门到实战

文章全面介绍了AI Agent的概念、核心组件与架构设计。通过"汉堡模型"详解了六大核心组件(模型、工具、知识记忆、语音、护栏、编排),并分享了5种实用的Agent工作流架构。强调简洁设计的重要性,提供编写Agent提示词的六要…

2026/7/3 17:08:05 阅读更多 →
【开题答辩全过程】以 基于SSM的海西蒙古族藏族自治州旅游攻略系统设计与实现为例,包含答辩的问题和答案

【开题答辩全过程】以 基于SSM的海西蒙古族藏族自治州旅游攻略系统设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

2026/7/5 12:22:37 阅读更多 →

最新新闻

3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略

3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略

3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略 【免费下载链接】kcc KCC (a.k.a. Kindle Comic Converter) is a comic and manga converter for ebook readers. 项目地址: https://gitcode.com/gh_mirrors/kc/kcc 还在为电子阅读器上看漫…

2026/7/5 18:37:29 阅读更多 →
hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图

hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图

hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图 【免费下载链接】hexo-tag-aplayer Embed aplayer in Hexo posts/pages 项目地址: https://gitcode.com/gh_mirrors/he/hexo-tag-aplayer hexo-tag-aplayer是一款强大的Hexo标签插件,…

2026/7/5 18:35:29 阅读更多 →
网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案

网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案

网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中…

2026/7/5 18:33:28 阅读更多 →
如何扩展Runno:添加自定义编程语言运行时的完整指南

如何扩展Runno:添加自定义编程语言运行时的完整指南

如何扩展Runno:添加自定义编程语言运行时的完整指南 【免费下载链接】runno Sandboxed runtime for programming languages and WASI binaries. Works in the browser, on your server, or via MCP. 项目地址: https://gitcode.com/gh_mirrors/ru/runno Runn…

2026/7/5 18:33:28 阅读更多 →
对字符串排序的影响

对字符串排序的影响

字符串的大小比较并不是如C那样按照字符串字符内码大小顺序从头到尾来比较的。由于我是从C/C转过来的,我一直以来都以为.net 下字符串的比较规则和C是一样的,直到有一天我的程序在英文操作系统下出错。 .net 下,字符串的排序受 System.Threa…

2026/7/5 18:29:28 阅读更多 →
Runno高级调试技巧:解决复杂代码执行问题的完整方法

Runno高级调试技巧:解决复杂代码执行问题的完整方法

Runno高级调试技巧:解决复杂代码执行问题的完整方法 【免费下载链接】runno Sandboxed runtime for programming languages and WASI binaries. Works in the browser, on your server, or via MCP. 项目地址: https://gitcode.com/gh_mirrors/ru/runno Runn…

2026/7/5 18:29:28 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻