一、先用一句人话讲清这篇论文这篇论文想回答的问题是病理图像里是否藏着足够多的分子信息以至于 AI 只看 HE 染色切片就能猜出很多基因的表达情况传统流程是肿瘤组织 → 做病理切片 → 医生看形态 如果还想知道基因表达 → 还要单独做 RNA-Seq这篇论文想变成肿瘤切片图像 → AI → 直接预测 RNA-Seq 表达谱作者用 TCGA 的配对数据训练模型每个病人同时有whole-slide imageWSI和对应的RNA-Seq。他们最后证明模型确实能在很多癌种里预测出相当数量的基因表达还能把某些基因的高表达区域“画”回切片上形成热图而且学到的内部表示还能帮助小样本场景下的 MSI 状态预测。二、你必须先懂的生物学基础2.1 基因为什么“工作”时会产生 RNA先把细胞想成一家工厂。DNA总说明书长期保存基因说明书里某一段具体功能的指令RNA从说明书抄出来的工作副本蛋白质真正执行功能的成品或机器零件细胞一般不会反复直接“拿总说明书去车间干活”而是先把某段 DNA 的内容抄成 RNA再根据 RNA 去制造蛋白质。这个过程就是DNA → RNA → Protein所以当我们说“某个基因在工作”本质上是说这段 DNA 正在被读取和转录因而会产生对应的 RNA。2.2 RNA 多为什么常常表示基因更活跃因为 RNA 可以理解成“这段基因被调用了多少次”的痕迹。比如如果一个基因经常被细胞使用就会产生很多对应 RNA如果一个基因几乎不用就会产生很少 RNA如果一个基因不表达RNA 可能接近 0所以测量 RNA 的数量就能近似反映这个基因在这个样本里活跃到什么程度论文里要预测的正是这种gene expression也就是基因表达量。作者用的是 TCGA 的 RNA-Seq 表达数据并保留了30,839 个中位表达非零的编码/非编码基因作为预测目标。2.3 RNA-Seq 到底是什么RNA-Seq 可以理解成一种“给样本里所有 RNA 做统计”的技术。它的核心目标不是只看某一个基因而是尽可能全面地得到一张表每个基因 → 对应多少 RNA所以最终会得到一个表达谱例如论文图 1 里画出的那种“一个样本对应很多基因、每个基因一个数值”的表格概念。如果用最直白的话说RNA-Seq 就是在问这个肿瘤样本里每个基因分别说了多少话。2.4 RNA-Seq 实验逻辑是什么对初学者来说理解到这个层次就够了从组织样本中提取 RNA把 RNA 转换成便于测序的形式机器读出大量序列片段把这些片段匹配回参考基因组统计每个基因匹配到多少片段于是可以得到TP53 的 RNA 多不多CD3D 的 RNA 多不多MKI67 的 RNA 多不多论文里使用的是归一化后的 RNA-Seq 表达值并对表达量做了log10(1a)变换原因是原始表达跨越多个数量级如果直接做回归模型会被那些特别高表达的基因主导。2.5 这里有个重要现实问题RNA-Seq 测到的是“整块组织的混合结果”这点和整篇论文最相关。一块肿瘤切片对应的组织里通常不只有癌细胞还混有免疫细胞纤维组织血管相关细胞正常组织成分所以 RNA-Seq 给出的不是某个局部区域、也不是某单个细胞的表达而是整块样本的混合表达结果而论文的图像输入又是整张切片。也就是说模型面对的是输入有空间结构的整张病理图标签没有空间分辨率的整张样本 RNA 表达这正是它必须用弱监督思路的原因。三、这篇论文到底做了什么作者从 TCGA 收集了匹配的 WSI 和 RNA-Seq 数据共8725 名患者、28 种癌症类型并用这些数据训练一个叫HE2RNA的深度学习模型。模型目标是从 HE 染色的 whole-slide image 预测对应样本的 RNA-Seq 表达谱。训练和评估使用了五折交叉验证。作者把这个模型最终做成了三种能力Transcriptome prediction从图像预测转录组Virtual spatialization把预测的基因表达“画”回到图像不同位置Transfer learning / transcriptomic representation把模型内部学到的表示转移到其他任务上例如 MSI 预测四、病理图像为什么可能预测基因表达这是整篇论文最本质的问题。作者的逻辑并不是“图像直接等于基因”而是中间有一条生物学链条基因表达变化 → 影响细胞行为 → 影响组织结构 → 最终体现在病理形态上举例如果免疫相关基因表达高切片中往往会出现更多免疫细胞浸润如果细胞周期/增殖相关基因表达高组织中可能出现更活跃的分裂模式如果某些上皮标记相关基因表达高对应区域可能更像上皮组织作者的结果也确实支持这一点他们发现模型最稳定预测成功的一大类基因与免疫和 T 细胞调节相关在特定癌种中又能预测与细胞周期、DNA 损伤应答等通路相关的基因。五、输入数据是怎么处理的WSI、tile、feature5.1 WSI 是什么WSI 是whole-slide image也就是把整张病理切片扫描成超高分辨率数字图像。论文提到一张 WSI 可达到10 万 × 10 万像素量级。这就带来一个问题图太大不能直接整张送进神经网络。5.2 tile 是什么所以作者先把每张大切片切成很多小块叫tiles。论文里每个 tile 对应实际组织大小是112 × 112 微米在图像上是224 × 224 像素。他们用 Otsu 算法去掉白色背景只保留真正含组织的 tile并且每张 slide 最多采样8000 个 tile。你可以把一张 WSI 想成一张超大地图而 tile 就是把地图切成很多小格子。5.3 CNN 在这里到底做了什么作者并没有从原始像素开始端到端训练一个超大的 CNN。他们的做法是先用预训练的 ResNet50从每个 tile 提取特征每个 tile 变成一个2048 维特征向量。这样一张 slide 最终就可以表示成8000 × 2048的矩阵。5.4 这一步为什么用 CNN因为 CNN 很擅长从图像中提取多层次视觉模式前层边缘、颜色变化、局部纹理中层细胞核密度、腺体轮廓、炎症样区域高层更复杂的组织学结构所以在这篇论文里CNN 更像一个“自动显微镜特征提取器”。它不直接输出基因表达而是先把每个 tile 压缩成 2048 维的图像语义描述。六、supertile 到底是什么为什么要有它这是你之前重点问过的我这里完整讲。论文第一阶段为了提升训练效率没有一开始就用每张图的全部 8000 个 tile而是先做了一个预处理把 tile 聚成100 个 clusters称为supertiles。作者明确说这一步受到了SLIC思想启发但具体实现是用k-means根据 tile 在 slide 上的位置做聚类然后对同一簇内 tile 的 2048 维特征取平均。这样每张 slide 就从8000 × 2048降成了100 × 2048。所以 supertile 不是病理学上的天然实体而是算法里的中间层一个 supertile 一群空间上相近的 tile 的平均表示6.1 为什么这么做原因很现实全量 TCGA 数据非常大直接用10,514 slides × 8000 tiles × 2048 features训练计算代价很高把每张 slide 先压成 100 个 supertiles可以显著加速训练论文写得很直接这是在“性能与训练时间之间折中”的方案。作者先在 supertile 预处理后的全 TCGA 数据上训练 200 个 epoch然后只在少数器官上再用 full-scale data 微调。6.2 supertile 会不会丢信息会丢一部分空间精细度所以作者后面在做精细的空间定位和某些特定基因热图时又会回到更细的 full-scale tile 级别。论文也写到用于 spatialization 的 supertile/ tile 数越多空间分辨率越高极限情况是把 8000 个 tile 全部分开处理。所以你可以把 supertile 理解为训练大规模多癌种转录组预测时的“压缩版输入”细粒度空间可视化时再用更高分辨率 tile七、HE2RNA 的模型结构到底是什么作者明确说HE2RNA 的主体是一个MLPmultilayer perceptron多层感知机它被应用在每个 tile 或 supertile 上。输入矩阵大小是ntiles × 2048输出矩阵大小是ntiles × ngenes。也就是说模型会对每个 tile、每个基因产出一个预测分数。这点很重要HE2RNA 不是“整张图进来直接输出一串基因值”而是每个 tile / supertile → 都先各自产生对每个基因的预测 → 再聚合成 slide-level prediction7.1 MLP 是什么MLP 就是最经典的全连接神经网络。如果说 CNN/ResNet50 负责把图片变成一串 2048 维特征那 MLP 就负责学习这串图像特征如何映射到很多基因表达的预测值作者解释说之所以不用简单线性回归是因为 MLP 可以做多任务学习利用多个基因之间的相关性。论文还提到从实现角度看这相当于对 slide 数据应用一系列kernel size 1 的 1D convolution。激活函数用的是ReLU层间用了dropout。7.2 为什么这算“多任务学习”因为模型不是预测一个基因而是同时预测上万个基因。论文里 transcriptome prediction 阶段针对的是 30,839 个基因。所以这不是输入图像 → 输出一个标签而是输入图像 → 输出一整条转录组表达谱这就是多任务学习一个共享的模型同时完成很多相关的预测任务。八、为什么它叫“弱监督学习”这是整篇论文最难但也最关键的一点。8.1 什么叫强监督最普通的图像分类就是强监督输入一张猫的图标签猫输入和标签是一一对齐的。8.2 这篇论文为什么不是强监督因为模型内部其实在处理很多 tile但是它没有 tile 级标签。它真正拥有的标签只有整张 slide 的 RNA-Seq 表达值换句话说它知道这张切片整体上 CD3D 表达高但它不知道到底是左上角高 还是中间高 还是右下角高所以输入层面是局部 tile标签层面却只有整张 slide这就是弱监督。论文也明确称它是multitask weakly supervised approach。8.3 用一个直觉例子理解想象你吃一锅火锅然后给整锅打分 9 分。但我现在想训练一个模型让它知道牛肉贡献了多少豆腐贡献了多少蘑菇贡献了多少问题是你没有给每种食材单独打分只给了“整锅 9 分”。那模型只能通过很多很多不同火锅的统计规律去反推哪些局部模式更可能对应高总分这就是这篇论文的情况有 slide 总标签没有 tile 局部标签。九、聚合aggregation具体是怎么做的这是你前面第二个重点问题我这里讲到最完整。论文说得非常清楚模型先输出每个 gene、每个 tile 的分数但真实值只有 slide 级所以 tile 预测必须先聚合才能和真实 RNA-Seq 做比较。9.1 训练阶段不是简单平均而是“随机 top-k 平均”论文使用的聚合策略是对某个基因把一张 slide 上所有 tile/supertile 的预测分数从高到低排序在每次训练迭代时随机从一个候选列表里抽一个k只取最高的 k 个 tile 预测做平均作为这个基因在该 slide 上的预测值论文给出的公式是[S(k)\frac{1}{k}\sum_{i1}^{k} s_i]其中 (s_i) 是按从大到小排序后的 tile 预测分数。9.2 这个 k 从哪来对 supertile 预处理数据100 个 supertilek从(1, 2, 5, 10, 20, 50, 100)中随机采样对 full-scale 数据8000 个 tilek从(10, 20, 50, 100, 200, 500, 1000, 2000, 5000)中随机采样9.3 为什么这么设计作者的直觉是他们预测的是log gene expression所以表达最高的那些局部区域应该贡献更大。与其把所有 tile 一视同仁平均不如让模型更关注“最可能高表达的区域”。从机器学习角度看这还有两个好处强调最相关区域通过随机 k 增加任务难度减少过拟合起到正则化作用论文也明确说这种stochastic aggregation会增加任务难度从而降低 overfitting。9.4 推理阶段怎么做训练时随机抽 k但推理时作者会把所有可能的 k 对应的 slide-level prediction 先分别算出来再对这些结果取平均[S\frac{1}{|L|}\sum_{k\in L}S(k)]论文说明这等价于一种带权平均预测高的 tile 会被赋予更大的权重。所以你之前问“论文里说 weighted mean到底怎么实现”更准确的说法是不是先手写一组固定权重而是先做多种 top-k 平均再把这些 top-k 结果平均其效果等价于对 tile 预测做一种偏向高分 tile 的加权平均。十、整个训练流程到底是什么把所有部分拼起来一张 slide 在 HE2RNA 里大致是这样流动的WSI → 切成很多 tile → 用 Otsu 去掉背景 → 用 ResNet50 提取每个 tile 的 2048 维特征 → 大规模训练时按位置聚成 100 个 supertile并平均特征 → 把每个 tile / supertile 的 2048 维向量送入 MLP → 得到每个 tile / gene 的预测分数 → 用 stochastic top-k aggregation 聚成 slide-level gene prediction → 和真实 RNA-Seq 表达计算损失 → 反向传播更新参数训练上作者使用了Adam optimizer学习率3 × 10^-4supertile 预处理时 batch size 16full-scale 时 batch size 4五折交叉验证全 TCGA 上最多训练 200 epoch并用验证集相关性早停。十一、Pearson correlation 到底是什么论文为什么用它论文最主要的性能指标是Pearson correlation coefficient记作 R。作者是按癌种分别、对每个基因计算模型预测值与真实 RNA-Seq 值在病人之间的相关性。11.1 它测量的到底是什么不是“值一模一样”而是真实值高的时候预测值是否也高真实值低的时候预测值是否也低。也就是“同步涨跌程度”。R 1完全正相关R 0没有线性相关R -1完全负相关所以 Pearson R 更看重趋势对不对而不一定要求绝对数值一模一样。11.2 为什么这里不用准确率因为基因表达是连续值不是“有/没有”的分类标签。连续回归问题更适合用相关性均方误差排序一致性这篇论文选择 Pearson correlation 来衡量“预测表达与真实表达是否同步变化”。十二、论文结果到底有多好作者报告在 Holm–Šidák 多重比较校正下平均每种癌症可显著预测3627 个基因若用 Benjamini–Hochberg 调整则平均可达12,853 个基因。结果会随癌种样本量变化很大数据越多统计显著所需的相关性阈值越低。比如 DLBC 只有 44 个样本只显著预测了 7 个基因而 LUNG 有 1046 个样本可显著预测 15,391 个基因。从图 2 的分析看很多最容易预测的基因与免疫和 T/NK 细胞浸润有关比如 C1QB、NKG7、C1QA、CD53 等。此外作者还按通路看结果。对于癌症 hallmark 相关基因集HE2RNA 对B 细胞免疫和 T 细胞免疫通路的预测尤其强在 28 个癌种里分别有75% 和 86%的癌种其通路平均相关性显著优于随机基因集。十三、为什么免疫相关基因最容易预测从论文结果看这是最稳定的一类信号。原因很好理解免疫细胞浸润会显著改变组织形态在 HE 图上淋巴细胞往往有相对清晰的形态特征所以图像更容易“看出”免疫相关表达论文的 pathway analysis 也支持这一点跨癌种稳定预测成功的 156 个基因富集在Th1/Th2 activation、TCR signaling、CD28 signaling、iCOS-iCOSL signaling等免疫通路。十四、Virtual Spatialization 到底是什么这是你之前问“完全没懂”的地方我这里把它讲到透。14.1 一句话版本虽然真实 RNA-Seq 只有整张切片的总表达但模型可以给每个 tile 一个分数把这些分数画回原图于是形成“这个基因大概在哪些区域高表达”的热图。论文图 1 里把它列为 HE2RNA 的第二项能力对每个预测成功的基因可以在切片上计算 tile-level score并把它解释为该 tile 的预测表达用来生成 heatmap。14.2 为什么叫“virtual”因为这不是真正实验测得的空间转录组。真实的空间转录组技术是直接测不同空间位置的 RNA。而这篇论文只有HE 图像整张 slide 的 RNA 标签所以每个 tile 的表达是模型推断出来的不是直接测出来的因此叫virtual spatialization / virtual spatialization map。14.3 它在技术上怎么实现其实很简单平时做 slide-level 训练时需要把 tile 结果做 aggregation但当你要画空间热图时直接省略 aggregation把每个 tile 的分数当作该 tile 的预测表达论文方法部分明确写道为了生成 virtual spatialization map作者simply omit this aggregation step and interpret the score of a tile as the predicted gene expression for this tile。所以 Virtual Spatialization 的本质就是把原本只用于中间计算的 tile 分数直接可视化。十五、这个热图不是“瞎画”吗作者怎么验证它是真的这是论文最漂亮的部分之一。15.1 T 细胞验证CD3作者选了 T 细胞相关基因CD3D、CD3E、CD3G、CD247。在外部 LIHC 样本上他们做了同一张切片的 HE-CD3 双染然后比较HE 图上模型预测的 CD3 表达热图CD3 免疫染色里真实的 T 细胞数量结果 tile-level 相关性达到Rtile 0.51p 10^-4。而且预测值最高的 100 个 tile 里T 细胞中位数是36而整张切片 28,123 个 tile 的中位数只有4。这说明模型认为“CD3 高”的地方真实 T 细胞确实更多。15.2 B 细胞验证CD19 / CD20作者也构建了 B-cell model并在 HE-CD20 双染切片上验证。结果T-cell model 对 B 细胞数量的相关性Rtile 0.19B-cell model 对 B 细胞数量的相关性Rtile 0.23而在多个阈值下区分“B 细胞较多 tile”的 ROC-AUC 上B-cell model 也通常优于 T-cell model比如在最高阈值n 11时B-cell model AUC 达到0.89T-cell model 为0.81。这说明模型不仅能看出“这里有淋巴细胞”还在一定程度上区分了T 细胞 vs B 细胞。15.3 淋巴细胞 tile 分类验证作者还在一个包含 86 张 CRC 切片的标注 tile 数据集上验证发现用这些免疫相关基因预测值来区分“淋巴细胞 tile”和其他类别 tile整体 AUC 达到0.94。15.4 上皮区域验证在 PESO 前列腺上皮分割数据集上作者训练预测TP63、KRT8、KRT18再把 tile-level 预测和真实上皮 mask 的面积比例比较得到Rtile 0.41p 10^-4。15.5 增殖区域验证MKI67在独立的 LIHC 数据集369 张 slide194 名患者上作者训练了MKI67预测。结果发现高 MKI67 预测 tile 几乎总位于肿瘤区预测最高的 10,000 个 tile 中有94%在肿瘤区而整套数据里肿瘤 tile 只占57%。按 slide 区分肿瘤 vs 健康组织的平均 AUC 为0.65中位 AUC 为0.67在 BCLC stage C 的晚期肿瘤中AUC 平均值升到0.74。此外sample-wise 的 MKI67 预测还能以AUC 0.80区分 BCLC stage C 与 A/B。十六、Transcriptomic representation 是什么作者在图 1 和 MSI 部分都强调了一个概念HE2RNA 在学“图像 → 转录组”的过程中不只是吐出预测值还会在最后隐藏层学到一个低维表示论文称之为transcriptomic representation。它对应的是网络最后隐藏层的特征向量。直觉上这个向量可以理解为模型压缩总结出来的、最有助于解释转录组信息的图像表示它比原始图像特征更“分子化”因为它是在预测转录组任务中学出来的。十七、MSI 那部分到底做了什么17.1 MSI 是什么论文介绍MSImicrosatellite instability是由于 DNA 复制错误修复失败导致微卫星区域不稳定的现象。MSI-H已被认为与免疫治疗响应有关因此在结直肠癌、胃癌等肿瘤中具有临床意义。17.2 作者的想法他们并不是只想证明“图像能预测转录组”还想证明学到的 transcriptomic representation 真的有用。所以他们设计了一个“医院 A / 医院 B”的模拟流程在 hospital A 的数据上只训练 transcriptome prediction把学到的 transcriptomic representation 拿到 hospital B在 hospital B 的少量样本上训练 MSI 分类器与“直接用 WSI 做 MSI 分类”相比看谁更好17.3 具体模型怎么设在 MSI 任务中作者用了简化版 HE2RNA每张 slide 先把所有 tile 的 ResNet50 表示做平均相当于只保留1 个 supertile。然后用一个两层隐藏层 MLP1024、256预测 28,334 个基因。这个 256 维隐藏层表示就是迁移到 hospital B 的 transcriptomic representation。然后在 hospital B 上作者比较直接基于 WSI 平均特征训练的 MSI 分类器基于 transcriptomic representation 训练的 MSI 分类器基于 autoencoder 低维表示训练的分类器17.4 结果说明了什么结论是当 hospital B 训练样本很多时直接用 WSI 做 MSI 分类并不差甚至在某些数据集上略好当 hospital B 样本少时先在 hospital A 学转录组再迁移 transcriptomic representation 到 hospital B效果更好例如在 regime 2hospital B 只占 25% 数据时TCGA-CRC-DXTranscriptomic 0.81 vs WSI 0.71 vs Kather 方法 0.68TCGA-CRC-KR0.79 vs 0.72 vs 0.63TCGA-STAD0.66 vs 0.63 vs 0.65这说明 transcriptomic representation 在小样本场景下确实能提供更有用的先验。十八、这篇论文真正的创新点是什么我认为有四个层次。18.1 创新 1从“预测单一分子特征”走向“系统预测转录组”在这篇论文前已经有工作尝试从病理图像预测基因突变肿瘤突变负荷某些特定分子标签而这篇论文把目标升级成系统性预测 RNA-Seq profile。18.2 创新 2把弱监督 tile-level 预测做成可解释热图因为模型先有 tile 级预测再做聚合所以它天然能把预测值映射回空间位置。论文不是只报数字还用 CD3/CD20 双染和外部数据验证了空间热图的真实性。18.3 创新 3学到一个可迁移的 transcriptomic representation这让模型不只是“一个预测器”而更像一个先在大规模分子任务上预训练、再迁移到小样本临床任务的表征学习器。18.4 创新 4把病理形态和分子层面真正接上了它给出的不是“纯黑箱的诊断标签”而是一个更强的论点病理图像里确实包含广泛的分子信号。这对计算病理学是很重要的一步。十九、这篇论文有哪些局限你读的时候要警惕什么虽然论文很强但不能神化。至少有下面几类局限。19.1 标签是 bulk RNA不是空间真值模型学的是整张图对应整块样本的总 RNA所以 tile-level 热图本质上仍然是推断不是真实空间转录组。作者虽然做了外部验证但验证规模仍然有限比如 CD3 和 CD20 双染各只做了单张双染 slide。19.2 性能受样本量影响很大论文结果非常依赖癌种数据量。小癌种由于样本少显著预测的基因数会急剧下降例如 DLBC 只有 7 个显著基因而大癌种 LUNG 则很多。这说明模型并不是“什么癌种都一样强”。19.3 模型擅长的可能主要是形态信号很强的基因比如免疫相关基因、增殖相关基因因为它们的形态后果更明显。而那些对组织形态影响不直接、或空间上更隐蔽的基因可能就不容易预测。这一点也能从 housekeeping gene 的对照实验看出来这些表达变化很小、缺乏明显病理形态差异的基因模型预测并不优于随机基因集。19.4 Pearson 高不等于数值完全精确模型主要说明“趋势能跟上”即真实高时预测也高但这不等于绝对表达量逐点精确重建。论文核心指标也是相关性而不是绝对误差。19.5 临床可用性还需要更大规模、更外部的验证虽然 MSI 转移学习结果很有意思但离真正临床部署还需要更多多中心外部验证更严格的批次/扫描仪差异测试更清晰的亚组分析与现有临床流程的成本-收益比较这些在论文里并没有完全解决。二十、如果你现在要把这篇论文复述给别人最标准的说法你可以这样讲这篇论文提出了 HE2RNA一个基于数字病理的深度学习模型。作者利用 TCGA 中 8725 名患者、28 个癌种的配对 WSI 和 RNA-Seq 数据训练模型从 HE 全切片图像预测转录组表达。技术上作者先把 WSI 切成 tile用 ResNet50 提取每个 tile 的 2048 维特征在大规模训练阶段再把空间相近的 tile 聚成 100 个 supertile随后用 MLP 对每个 tile/supertile、每个基因输出预测分数并通过随机 top-k 平均的弱监督聚合方式得到 slide-level 表达预测。模型在多癌种中平均可显著预测数千个基因尤其对免疫相关和细胞周期相关基因表现较好。由于模型保留了 tile-level 分数作者还能把基因表达“画”回切片形成 virtual spatialization heatmap并用 CD3/CD20 双染、上皮分割和 MKI67 数据做了外部验证。进一步地作者把模型学到的 transcriptomic representation 迁移到 MSI 预测任务在小样本场景下优于直接基于 WSI 的分类方法。二十一、把你之前问过的重点问题最后再压缩成一句话答案1. 为什么基因工作会产生 RNA因为基因被使用时会先从 DNA 转录出 RNA 作为工作副本。2. RNA-Seq 是不是“某段基因工作越多对应 RNA 越多”是的RNA-Seq 正是通过统计 RNA 数量来估计各基因活跃程度。3. CNN 和 MLP 在这篇论文里分别做什么ResNet50 负责把 tile 图像变成 2048 维图像特征MLP 再把这些特征映射成很多基因的预测值。4. 为什么是弱监督因为模型处理的是 tile但只有整张 slide 的 RNA 标签没有 tile-level 真值。5. Pearson correlation 在这里表示什么表示模型预测和真实基因表达在病人之间是否同涨同跌。6. supertile 是什么是把空间上相近的一群 tile 聚成一个簇并把其特征平均后形成的压缩单元。7. aggregation 怎么做训练时随机选一个 k只平均最高的 k 个 tile/supertile 预测推理时对所有 k 的结果再平均等价于偏向高分 tile 的加权平均。8. Virtual Spatialization 是什么就是省略聚合步骤把每个 tile 的预测分数直接画回切片位置形成基因表达热图。下一步最适合做的是我把这篇论文再给你整理成一份“像教材一样的精读讲义”分成背景知识 → 方法流程图 → 关键图表逐页解释 → 可能的考试/面试问答的版本。