DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」
来源AI思想会【前言】AI 正以前所未有的速度发展新的机遇不断涌现如果你希望与技术专家、产品经理和创业者深度交流一起探索 AI如何改变各行各业。欢迎在文末扫二维码加入「AI思想会」交流群和一群志同道合的伙伴共同学习、思考、创造今年 1 月DeepSeek 发布了一项名为 Engram条件记忆的技术在大模型圈子里掀起不小波澜。它的核心思想很简单别让模型死记硬背常识直接给它一个「外挂记忆库」。具体做法是把常见的 N-gram比如「人工智能」、「光合作用」预先存进一个哈希表模型需要时查表即可省下大量算力专注推理。这个思路能不能用在其他领域的模型训推上答案是能且效果惊人。就在 Engram 论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》发布仅 16 天后同样 base 在杭州的一支研发团队推出 GengramGenomic Engram模块把「外挂字典」搬进了基因组世界。代码链接 https://github.com/zhejianglab/Gengram模型链接 https://huggingface.co/ZhejiangLab/Gengram论文链接 https://github.com/zhejianglab/Gengram/tree/main/paper传统方法的困境为每个碱基「重复造轮子」当前主流的基因组基础模型Genomic Foundation Models, GFMs如 Deepmind 的 AlphaGenome 等普遍采用一种叫「单碱基分词」的策略也就是把 DNA 序列拆成一个个单独的字母A/T/C/G来处理。这听起来非常符合生物学逻辑并且操作精度更高然而代价也是巨大的。首先是效率低下。要识别一个关键功能片段比如启动子或剪接位点模型得靠多层注意力机制从零开始「拼凑」出像「TATAAAA」这样的经典碱基组合Motif。其次是容易迷失。在动辄几万甚至几十万碱基的长序列中模型常常「只见树木不见森林」何况人类的基因组是一串长达 30 亿字符的连续序列。用更容易理解的方式来打个比方人类学习「魑魅魍魉」时一眼就能理解这是个成语。但传统的基因组模型却得先分析每个「鬼」字究竟是什么鬼…… 既要区分又要预测最终结果就是既费力又不准。Gengram 是怎么工作的Gengram 的核心逻辑承袭自 Engram将「静态的 Motif 识别」与「动态的上下文推理」进行解耦处理。Gengram 预先构建了一个可微分的哈希表存储所有长度为 1 到 6 的 DNA 片段称为 k-mer如「ATG」、「CGTA」对应的语义向量。这些 k-mer 很多就是已知的生物学功能单元比如转录因子结合位点相当于给 AI 配了一本《基因组学实用短语手册》。与其他领域相比DNA 只有 4 个字母A/T/C/G及少量未知碱基N构成整个字符集极小。Gengram 无需承担复杂的 Tokenizer 压缩负担查表速度极快几乎不增加计算开销。事实上由于功能重要性不同并非所有 Motif 都需要这本「字典」的加持。为此Gengram 引入了动态门控机制。模型可以结合上下文语境自主决定何时「查字典」在遇到外显子、启动子等关键 Motif 区域时激活检索功能在通过非编码背景区域时关闭检索依赖推理优化资源。经团队测试这个门控目前已经掌握了「什么时候该查询参考资料什么时候该独立思考」的判断能力。小模块大提升事实上Gengram 只是一个仅约 2000 万参数的轻量化插件对于百亿级规模的模型来说微不足道但它带来的性能提升却令人振奋。在 8k 和 32k 两个上下文版本中同等训练设定下应用了 Gengram 的模型几乎在所有任务里领先未应用的版本。其中剪接位点预测 AUC 提升了 16.1%从 0.776 到 0.901表观遗传预测任务H3K36me3 AUC 提升了 22.6% 从 0.656 到 0.804。这种跨越式的性能飞跃赋予了模型惊人的数据杠杆效应。在与多款主流 DNA 基础模型的横向测评中集成 Gengram 的模型仅需极小规模的训练数据和较小的激活参数量便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型大幅提升了模型训练的数据能效比。同时Gengram 展现出了卓越的通用适配能力能够跨越 Dense稠密 与 MoE混合专家 等不同模型架构实现无缝部署。无论采用何种注意力机制变体Gengram 均能在有效降低训练损失的同时显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡这一顽疾Gengram 通过吸收局部高频噪声显著改善了专家负载均衡实现了模型性能与架构效率的协同跨越。跨稀疏度负载均衡在 Top-2 / 128、64 和 32 专家配置下使用与不使用 Gengram 模块的负载均衡损失曲线对比表明其在多种稀疏度设置下均能实现稳定性能。此外模型开始「涌现」出对 DNA 物理本质的理解。当团队为 Gengram 局部聚合窗口Local Window Aggregation测试窗口大小策略时结果显示窗口大小参数设置为 21bp 时其性能达到峰值。为什么偏偏是 21因为 DNA 双螺旋结构每 10.5 个碱基旋转一圈而 21 个碱基正好对应两个完整的螺旋周期。这意味着每相隔 21bp 的碱基在物理空间上其实位于螺旋的同一侧具备相似的生化环境和特征。换句话说Gengram 在没有学习过任何结构生物学知识的前提下通过计算自己悟到了 DNA 序列信息和空间相位规律。DNA 双螺旋结构示意图展示了 B 型 DNA 的结构参数DNA 双螺旋每 10.5 个碱基对旋转一圈。不同 Gengram 窗口大小下的验证损失由此选择了 21 宽度的窗口范式启示Gengram 为 AI 科学模型提供新探索路径Gengram 的成功远不止于解决基因组建模的特定难题。它更像一个精巧的概念验证为如何构建新一代懂科学的 AI 探索了一种新的模式。从「暴力记忆」到「结构化知识外挂」效率范式的转变。传统 AI 模型增强能力主要靠扩张参数与数据本质是让网络更费力地「记住」 一切。Gengram 则将领域内确凿的、结构化的先验知识如功能 Motif做成一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱专注于更高级的上下文推理与组合创新。这预示着未来科学基础模型的架构可能是「通用模型核心多个领域专用插件」的协同形态。「归纳偏置」注入生物物理规律的「硬编码」。通过将 B 型 DNA 双螺旋每 10.5 个碱基完成一个旋转周期即约 21 bp 的双圈周期这一结构特性显式转化为模型内部的局部窗口机制Gengram 成功地将这种物理空间相位的周期性作为先验知识注入模型使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。可解释性的内生设计让 AI 的「思维过程」透明化。模型不再仅仅进行隐式的统计拟合而是通过显式的 Hash 查询和门控记忆通路在浅层即展现出对 TATA-box、poly (T) 等关键功能基元的高度敏感性其内部残差强度的峰值与基因组功能边界精准对齐实现了从「黑盒计算」向「具备生物学认知足迹」的演进。解决长程依赖的新路径从局部最优到全局洞察。实验证明Gengram 使得仅在 8K 长度上训练的模型却获得了处理 32K 长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题开辟了精细化局部感知驱动全局理解的新途径。Gengram 建立了一种将领域特有规律转化为显式架构约束的创新范式证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限实现低成本且高效的长程依赖建模。低调的 Genos Team 是啥背景尽管论文署名低调地使用了「Genos Team」但从开源代码库的 Zhejianglab 和 BGI-HangzhouAI 能够推断出这支团队的硬核背景一家是坐落在杭州的专注于智能计算的新型研发机构之江实验室另一家是杭州华大生命科学研究院。两个团队的融合构建起「AI 生命科学」的交叉创新壁垒这是纯 CS 团队或纯基因团队无法比拟的优势。论文里的实验大多基于人类基因组基础模型 Genos 实现从可公开获取的信息来看Genos 多数指标都超越了目前的业界顶流 Evo-2。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

相关新闻

学生党论文写作效率提升工具全攻略(不走弯路)

学生党论文写作效率提升工具全攻略(不走弯路)

高效完成论文的核心在于选对工具用对方法。以下按写作全流程分类推荐2026年实测好用的工具,覆盖选题、文献、写作、排版、查重五大核心环节,特别适合论文小白快速上手、少走弯路。 一、全流程AI助手(一站式解决所有痛点) 1. Pap…

2026/7/3 4:57:36 阅读更多 →
移动端前端适配:Rem、VW/VH 与媒体查询的综合应用指南

移动端前端适配:Rem、VW/VH 与媒体查询的综合应用指南

随着移动互联网的飞速发展,移动设备已成为用户访问互联网的主要入口。根据StatCounter 2024年最新统计数据显示,全球移动设备访问互联网的比例已达到62.8%,在中国这一比例更是高达75.3%。这一趋势对前端开发提出了新的挑战:如何确…

2026/5/17 1:58:41 阅读更多 →
告别黑盒!清华发布FaithLens,首创强可解释性的大模型幻觉检测利器

告别黑盒!清华发布FaithLens,首创强可解释性的大模型幻觉检测利器

近年来,大语言模型在检索增强生成(RAG)和文本摘要等任务中表现出惊人的潜力。 然而,“忠实度幻觉”(Faithfulness Hallucination)——即模型生成的回复与其提供的参考文档不一致或相矛盾——始终是阻碍其大…

2026/5/17 1:58:40 阅读更多 →

最新新闻

基于STM32的智能手环设计与实现

基于STM32的智能手环设计与实现

摘要:为满足对人体基础生理信息与日常活动状态的综合监测需求,设计了一套基于STM32的智能手环系统。系统以STM32F103C8T6为控制核心,结合MAX30102心率血氧传感器、DS18B20温度传感器、ADXL345加速度传感器、OLED显示屏、按键、蜂鸣器及ESP826…

2026/7/3 4:57:19 阅读更多 →
2026 年 7 月 openclaw 龙虾替代品推荐 九款分场景商用AI智能体实测对比参考

2026 年 7 月 openclaw 龙虾替代品推荐 九款分场景商用AI智能体实测对比参考

前言 OpenClaw 俗称龙虾,作为海外开源 AI 智能体框架,依托自主操控电脑、多技能扩展的能力积累不少使用者,但原版工具存在部署流程繁琐、国内网络适配度有限、数据跨境存在合规压力、中文长任务运行稳定性一般等现实使用门槛。2026 年国内市场…

2026/7/3 4:57:19 阅读更多 →
JVM 全套面试题整理(由简到难,2026最新完整版)

JVM 全套面试题整理(由简到难,2026最新完整版)

很多同学面试 JVM 很痛苦:知识点杂乱、背了不会用、面试问深一点就崩。本文按照 入门基础 → 内存模型 → GC 垃圾回收 → 类加载机制 → 底层原理 → 线上调优与故障排查 难度逐级递增整理,可直接背诵、可直接口述、可解决线上问题。 适合:J…

2026/7/3 4:53:18 阅读更多 →
生产级机器学习服务架构:特征仓库、模型注册与可观测性实战

生产级机器学习服务架构:特征仓库、模型注册与可观测性实战

1. 项目概述:这不是“部署”,是让模型真正活在业务流水线里“From Notebook to Production: Running ML in the Real World (Part 4)”——光看标题,你可能以为这是系列教程的收尾篇,讲讲怎么把Jupyter里跑通的模型丢进Docker、打…

2026/7/3 4:51:17 阅读更多 →
Python基础数据结构详解

Python基础数据结构详解

Python基础数据结构详解:从字符串到字典的全面指南 Python作为一门简洁高效的编程语言,其内置的数据结构为日常编程提供了强大的支持。本文将深入探讨Python中最常用的几种基础数据结构:字符串(str)、列表(…

2026/7/3 4:49:16 阅读更多 →
销售预测实战:用时间序列分解与SARIMAX提升准确率

销售预测实战:用时间序列分解与SARIMAX提升准确率

1. 项目概述:为什么销售预测不能只靠“拍脑袋”,而必须深挖时间序列的底层逻辑做销售预测这件事,我干了快十二年,从最早拿Excel拉移动平均线,到后来用Python写完整pipeline跑SARIMA,再到如今在生产环境里维…

2026/7/3 4:47:15 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻