问题GWAS分析所需的表型数据该如何得到背景在关注到分析环境互作位点的关联分析算法后如Fast3vmrMLM、FastGXE。我产生了疑惑这些可以分析环境互作效应的算法需要的表型值和以往的算法是相同的吗在一般的关联分析中单个环境时用直接测量值多个环境时用BLUE\BLUP\mean值或者每个环境做一次关联分析。中文互联网上对表型数据的处理讨论并不是很深入简单来说什么“好用”用哪个。然而在考虑环境互作位点时似乎就不得不要考虑不同的算法是怎么处理数据的了需要搞清楚的问题是我们送给GWAS算法的数据中包含哪些信息GWAS算法是如何挖掘主效QTL以及环境互作QTL的我的思考假定一个实验设计为包含500材料的自然群体种植在两个地点环境每个地点两个田间重复采用完全随机区组排布。方差分析表为变异来源 自由度(df) 平方和(SS) 均方(MS) F值地点 3−12 SS_{地点} MS_{地点}SS_{地点}/2 MS_{地点}/MS_{误差}种质 500−1499 SS_{种质} MS_{种质}SS_{种质}/499 MS_{种质}/MS_{误差}地点×种质 2×499998 SS_{地点×种质} MS_{地点×种质}SS_{地点×种质}/998 MS_{地点×种质}/MS_{误差}区组地点内 3×(2−1)3 SS_{区组} MS_{区组}SS_{区组}/3 MS_{区组}/MS_{误差}误差 3×2×(500−1)2994 SS_{误差} MS_{误差}SS_{误差}/2994 -总变异 3×2×500−12999 SS_{总} - -那么第i个材料在第j个地点的第k个田间重复的测量值的拟合方程可表示为yijk μGiEjBjk(GE)ij(GB)ikϵijk其中μ为总体均值即所有材料在所有环境下的平均表型值代表了整个试验的基准水平。Gi为第i个材料的理论真实值反映了材料本身的遗传特性对表型的贡献。Ej为第j个地点的地点效应体现了不同地点环境对表型的影响。Bjk为第j个地点内第k个田间重复区组的田间效应反映了同一地点内不同区组间的环境差异。(GE)ij为第i个材料与第j个地点的互作效应描述了材料对不同地点环境响应的特异性。(GB)ik为第i个材料与第j个地点内第k个田间重复区组的互作效应捕捉了材料在同一地点不同重复间的非系统性差异。ϵijk为随机误差项代表了测量过程中不可控的随机因素对测量值的影响且ϵijk∼N(0,σ2)即服从均值为0方差为σ2的正态分布。那么当我们不关心环境互作时似乎应该把μGi分量提取出来。这时也可以把模型简化为yijk μGiϵijk认为除了Gi外其他效应都是随机误差项直接计算各个地点下的平均值。当我们关系环境互作效应时似乎应该只关注GE分量因为这一部分反映了环境与基因组的互作效应。然而GWAS的算法中没有要求只提供GE分量的GWAS算法设计的可以评估哪些标记是主效位点哪些是与环境互作的位点以及它们的效应值。先考虑单个环境下的关联分析思路一份材料的基因型值可以表示为不同标记的效应和yia1x1a2x2a3x3······anxn其中yi表示群体中的第i份材料an表示为第n个标记xn表示为第n个标记的效应。那么a1-an的排列就是一个基因组的标记分型信息。a1x1a2x2a3x3······anxn可以表示为向量相乘的形式。yiPiX其中Pi [a1,a2,a3…an]由于每份材料的基因组存在差异所以每份材料对应着一个Pi,把这些Pi竖着排列起来就得到了表示整个群体标记信息的基因型矩阵对应的群体材料的全部基因型值组成基因型值向量X组成每个标记的效应值向量。即Y PX求解X向量就可以得到每个标记的效应值。然而现在的问题是要求解的X向量很大而方程组的个数很少方程组不能得到唯一解。显然不能通过增大Y向量的个数来解决问题。由于标记数量极其庞大大部分标记的效应都可以认为为0这样就压缩了向量X中未知量的个数。实现这种压缩X向量的算法有几种包括正则化方法、贝叶斯方法不过本人缺少进一步理解的数学基础。如果GWAS算法进一步考虑环境互作位点拟合方程就需要增加分量。Y PX PE其中X表示每个标记的一般效应向量E表示每个标记的互作效应向量。这样写方程似乎不正确如果是两个环境方程组中就应该包括两个表型向量[Y1,Y2] PXP[E1,E2]或许在两个环境下的互作效应向量E1和E2中若两个标记的效应值差距超过了某个范围就可以认为该标记具备环境互作效应。如果是这样计算多环境联合分析环境互作位点时就应该直接送给GWAS几个环境的数据。欢迎大佬指点