基因组基础模型GFMs是解码生命密码的核心工具它们通过分析 DNA 序列解锁细胞功能、 organism 发育等关键生物信息。然而现有基于 Transformer 的 GFMs 存在致命短板依赖大规模预训练和密集计算间接推断多核苷酸基序不仅效率低下还在基序主导的功能元件检测任务中表现受限。近日由华大生命科学研究院与浙江之江实验室组成的 Genos 团队提出的 GengramGenomic Engram模型为这一难题提供了革命性解决方案。这一设计既避免了硬编码生物规则又让模型获得了明确的基因组 「语法」 认知。作为一款专为基因组基序建模设计的轻量级条件记忆模块Gengram 的核心创新在于基于 k-mer 的 hash memory 机制构建了可高效查询的多碱基基序记忆库。与传统模型间接推断基序不同它直接存储 1-6 个碱基长度的 k-mer 及其嵌入向量通过局部窗口聚合机制捕捉功能基序的局部上下文依赖再经门控控制模块gate-controlled module将基序信息与主干网络融合。研究团队表示当集成于 当前SOTA 的基因组模型 Genos 时同等训练条件下Gengram 在多项功能基因组学任务中实现显著性能提升最高达 22.6%。论文地址https://arxiv.org/abs/2601.22203代码地址https://github.com/BGI-HangzhouAI/Gengram模型权重https://huggingface.co/BGI-HangzhouAI/Gengram训练数据覆盖人类与非人灵长类基因组训练数据集包含 145 个高质量的单倍型解析组装序列涵盖人类与非人灵长类基因组。人类序列主要来源于人类泛基因组参考联盟HPRC第 2 版并辅以 GRCh38 与 CHM13 参考基因组。非人灵长类序列则整合自 NCBI RefSeq 数据库以纳入演化多样性。所有序列均使用 one hot 编码处理。词汇表包含四种标准碱基A、T、C、G、模糊核苷酸 N 以及文档结束标记 。最终系统构建了 3 套数据以支撑消融实验及正式预训练50B tokens 8,192消融200B tokens 8k10B 正式预训100B tokens 32k10B 正式预训并且保持 human : non-human 1:1 的数据混合比例。基因组建模从「注意力推导」走向「记忆增强」受 DeepSeek Engram 记忆机制启发Genos 团队快速开发并部署 Gengram为基因组基础模型提供显式 motif 存取与复用能力突破主流 GFMs 缺乏结构化 motif memory、只能通过扩大训练数据「隐式记忆」的限制推动基因组建模从「注意力推导」走向「记忆增强」。该模块架构如下图所示Gengram 架构图建表对 k16 的所有 k-mer 建立 hash memory静态 key 可学习 embedding value检索把窗口内出现的所有 k-mer 映射到表项聚合先在每个 k 上聚合再跨 k 拼接门控gate 控制激活把 motif 证据写入 residual stream然后再进入 attention。一个关键设计Local Window AggregationW21bpGengram 并非在每个位置仅检索单一 n-gram而是采用固定窗口内的多 k-mer embedding 聚合以更稳定地注入「局部、结构一致」的 motif 证据。研究人员通过窗口大小策略搜索进行验证发现 21 bp 在验证集上达到最优性能。一个可能的生物学解释是典型的 DNA 双螺旋周期约为每旋转一圈 10.5 个碱基对因此 21 个碱基对正好旋转两圈这意味着相隔 21bp 的两个碱基在三维空间中恰好位于螺旋的同一侧面对相似的生化环境在该尺度上进行窗口聚合或更有利于对齐局部序列信号的相位一致性。评测提升突出小参数大改变团队采用多标准基准数据集对模型进行了全面评估涵盖 Genomic Benchmarks GB、Nucleotide Transformer Benchmarks NTB、Long-Range Benchmarks LRB及Genos Benchmarks GeB。从中选取了 18 个具有代表性的数据集涉及 5 个主要任务类别序列结构理解 Genomic Structure Understanding、基因调控预测 Gene Regulation Prediction、表观遗传图谱 Epigenetic Profiling、变异效应与临床影响 Variant Effect Clinical Impact 以及进化分析 Evolutionary Analysis。Gengram 作为一个仅约 2,000 万参数的轻量化插件相对于百亿级规模的基座模型而言参数占比极小但其带来的性能提升显著。在 8k 与 32k 两种上下文长度设定下同等训练条件集成 Gengram 的模型在绝大多数任务中均优于未集成的版本。具体表现上剪接位点预测任务的 AUC Score 从 0.776 提升至 0.901增幅达 16.1%表观遗传预测任务H3K36me3的 AUC Score 从 0.656 提升至 0.804增幅为 22.6%。8k 和 32k context 下加入 Gengram 前后的评测结果加入 Gengram 后提升显著此外该性能提升还伴随着显著的「数据杠杆」效应。在与 Evo2、NTv3、GENERATOR-3B 等主流 DNA 基础模型的横向对比中集成 Gengram 的模型仅需极小规模的训练数据和较少的激活参数量便可在核心任务上媲美训练数据规模领先其数倍至数十倍的公开模型体现出较高的数据训练效率。Gengram 模型也主流 DNA 大语言基础模型的评测比较深度剖析 Gengram为什么 Gengram 能加速训练团队引入 KL 散度作为训练过程的表征诊断指标并采用 LogitLens-KL 对不同层的「可预测性prediction-readiness」进行量化跟踪。结果显示引入 Gengram 后模型在浅层即可更早形成稳定的预测分布相较基线模型其层间 KL 更快下降并提前进入低值区间表明有效监督信号更早被组织为可用表征从而使梯度更新更直接、优化路径更平滑最终体现为更快的收敛速度与更高的训练效率。这一现象并非「凭空发生」而是由 Gengram 的结构性设计直接驱动显式的 motif 记忆检索缩短「证据到表征」的路径。 在基因组任务中监督信号往往由短而稀疏的 motif如剪接共识序列、启动子相关片段、低复杂度 tract 等触发。基线 Transformer 需要通过多层 attention/MLP 逐步「推导并固化」这些局部证据而 Gengram 通过对 k-mer 的显式存取把这类高信息密度的局部模式以记忆形式直接提供给网络使模型不必等待深层逐渐形成 motif detectors从一开始就更接近可预测状态。窗口聚合 动态门控使注入的证据「稳定且可控」。 Gengram 不是逐位置硬注入而是在固定窗口内聚合多个 k-mer embedding并通过门控选择性写入 residual stream在功能区域更倾向激活检索在大段背景区抑制检索。这种「稀疏、对齐功能元件」的写入方式一方面减少噪声干扰另一方面让网络更早获得高信噪比的训练信号降低了优化难度。Motif 记忆从何而来详解 Gengram 的写入机制研究团队在下游评测中首先观察到一个明确且跨任务一致的现象在相同训练设定下引入 Gengram 后模型在典型的 motif 主导任务上取得显著提升尤其是在依赖短程序列模式的场景中表现突出例如剪切位点识别与表观遗传相关的组蛋白修饰位点预测。以代表性任务为例剪接位点预测 AUC 从 0.776 提升至 0.901H3K36me3 预测 AUC 从 0.656 提升至 0.804增益稳定且幅度可观。为了进一步回答「这些提升从何而来」团队没有止步于指标层面而是从模型前向传播中提取 Gengram 的残差写入项residual write并将其在序列维度上的强度分布可视化为热图进行分析。结果显示写入信号呈现出高度稀疏且强对比的结构绝大多数位置接近基线只有少数位置形成尖锐峰值更重要的是这些峰值并非随机出现而是显著富集并对齐于功能相关区域与边界包括启动子邻近的 TATA-box 片段、低复杂度 poly-T 片段以及基因/外显子等功能区域边界附近的关键位置。这意味着 Gengram 的写入更像是在「抓住决定功能的局部证据」而非无差别地在全序列范围内注入信息。综合上述现象与证据链研究人员可以将 Gengram 的 motif 记忆机制概括为「按需检索—选择性写入—结构化对齐」模块通过门控控制检索与写入强度在功能信息密度更高的区域更积极地注入可复用的 motif 证据在背景区域则抑制写入以降低噪声干扰。由此模型对 motif 的掌握不再主要依赖更大规模数据带来的「隐式记忆」而是转向一种显式存取、可解释地写入表征的结构化能力。结语近年来基因组建模领域正经历从「序列统计学习」向「结构感知建模」的关键转向。以 Gengram 为代表的条件化基序记忆机制揭示了一条不同于传统密集计算的技术路径通过将多碱基功能基序显式建模为可检索的结构化记忆模型得以在保持通用架构兼容性的同时实现更高效、更稳定的功能信息利用。这一思路不仅在多项功能基因组任务中展现出显著性能优势也为稀疏计算、长序列建模以及模型可解释性提供了统一的工程解法。此外从产业视角看Gengram 所体现的「结构化先验 模块化增强」范式显著降低了基因组大模型在算力、数据与训练周期上的边际成本为其在药物研发、变异筛选、基因调控分析等高价值场景中的规模化部署提供了现实可行性。更长远地看这类可复用、可插拔式的架构组件或将成为下一代基因组基础模型的标准配置推动行业从「更大的模型」走向「更聪明的模型」并加速学术研究成果向产业平台与临床应用的持续转化。