使用表格数据的问答模型的改进问答模型有时需要从表格中检索信息而表格使用的语义线索与自由格式文本完全不同。历史上大多数基于表格的问答工作都集中在提取单个表格单元格的内容作为问题的答案。但有时提问者需要更多上下文来理解答案因此近期关于表格问答的研究已经探索了将表格数据嵌入到句子或句子序列中的可能性。到目前为止最成功的模型是端到端的神经模型该模型将问题和表格作为输入并输出问题的自由格式答案。在今年的AAAI会议上我们提出了一种训练基于表格的自由格式问答模型的新方法该方法在针对真实问答数据集进行微调之前先在合成数据上对模型进行预训练。该模型被称为GenTaP即面向生成的基于表格的中间预训练。该模型在两个目标上同时进行预训练一个是对问题的句子式答案另一个是从单个表格单元格中提取的答案通常是名称或数字。在实验中将该模型与之前的四个端到端模型在五个不同的指标上进行了比较该模型在所有指标上均表现最佳根据BLEU指标相比之前的最优模型提升了14%。数据增强该方法的关键在于生成无需人工参与的合成训练数据以提高预训练流程的效率。为了生成长篇的训练样本识别包含表格的在线文档。从这些文档中提取包含至少两个共享表格中同一行的单元格值的句子。然后使用一个独立的机器学习模型将这些句子转换成问题。作为输入问题生成模型接收一个句子和表格中的相应条目。为了训练该模型使用了一个现有的用于训练阅读理解模型的数据集该数据集包含问题以及提供回答问题所需信息的文档摘录。只是反转了输入和输出之间的关系。问题生成器的输出为我们提供了可用于预训练问答系统的数据三元组集合表格、问题和答案。表格被转换成字符串其中行之间用特殊字符分隔并附加到问题之后作为输入。然后问答模型学习预测答案。除了长篇答案外还用自动生成的问题-答案对来训练模型其中每个答案由表格中的单个单元格值组成。使用一个简单的语法生成这些问答对该语法是一组短语和句子模板从表格中随机采样数据来生成新句子。在预训练期间使用相等数量的长篇和短篇示例。这样做的目的是长篇目标提高问答模型输出的连贯性而短篇目标则提高其事实准确性。实验表明在预训练期间省略短篇目标确实会略微降低模型在测试集上的性能。该模型本身是一个编码器-解码器模型带有两个解码器分别对应两个不同的输出目标。结果在合成数据上对模型进行预训练后使用一个手工标注的问答数据集对其进行了两项实验。在第一项实验中直接测试了预训练模型在数据集测试样本上的表现未进一步微调这是一个零样本实验。在第二项实验中首先在数据集的训练集上对模型进行微调然后重新进行测试。作为基准使用了四个基于T5语言模型的模型和第五个基于BART语言模型的模型。使用了五种不同的评估指标BLEU指标衡量模型输出与手工标注数据集中的目标输出之间的重叠程度三个ROUGE指标均衡量输出与目标之间的短语重叠程度以及METEOR指标它在评估句子匹配时会考虑同义词和词根共享。该模型在所有指标上均表现最佳BLEU分数比第二好的模型基于BART高出14%在其他四个指标上则提高了5%到10%。零样本模型的表现优于基于小型T5语言模型构建的基准模型尽管该T5基准是在数据集的完整训练集上训练的。并且零样本模型的表现仅略逊于基于基础T5模型构建的基准。还在一个不同的任务上测试了预训练模型基于表格数据生成特定领域的句子而非问题答案且训练样本数量有限。在该任务上该模型优于两个基于GPT语言模型的基准表明该方法可能也能很好地适应其他应用。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享