本文摘要 本文系统介绍了自然语言处理中的各类语言资源。重点阐述了语料库的设计要素包括代表性、平衡性、抽样方法和规模控制并以布朗语料库、英国国家语料库等为例展示了语料库规模的发展历程。详细解析了树库语料库的类型语义树库和句法树库及其在计算语言学等领域的应用。此外还介绍了命题库语料库、动词网和词网等重要语言资源包括它们的结构特点和在自然语言处理中的实际应用价值。这些语言资源为自然语言处理系统的开发提供了重要基础。目录自然语言处理 —— 语言资源语料库语料库设计的核心要素语料库的代表性语料库的平衡性抽样语料库的规模树库语料库树库语料库的类型树库语料库的应用命题库语料库动词网词网自然语言处理 —— 语言资源在本章中我们将学习自然语言处理中的各类语言资源。语料库语料库是在自然交流场景中产生的、大规模且结构化的机器可读文本集合其复数形式为 corpora。语料库的获取方式多样包括原生电子文本、口语转写文本、光学字符识别文本等。语料库设计的核心要素语言的表达是无限的但语料库的规模必然是有限的。为构建有限规模的优质语料库需要通过抽样的方式按比例纳入各类文本类型这是语料库设计的关键。接下来我们将学习语料库设计的几个重要要素语料库的代表性代表性是语料库设计的核心特征。以下两位知名学者 —— 利奇与拜伯给出的定义能帮助我们更好地理解这一概念利奇1991提出若基于某一语料库得出的研究结论能够推广至其拟代表的语言变体那么该语料库就具备对这一语言变体的代表性。拜伯1993则认为代表性指的是样本涵盖某一语言群体中语言变异全部范畴的程度。由此可得出语料库的代表性由两大因素决定平衡性语料库所包含的文本体裁范围抽样方式各类体裁下文本片段的选取方法语料库的平衡性平衡性是语料库设计的另一重要要素具体体现为语料库涵盖的文本体裁范围。我们已经了解到通用语料库的代表性取决于其自身的平衡程度。一个平衡性良好的语料库会覆盖能够代表目标语言的各类文本范畴。目前尚无可靠的科学指标来衡量语料库的平衡性实际设计中主要依靠经验估算与专业判断。换言之语料库的合理平衡度仅由其预设的使用场景决定。抽样抽样也是语料库设计的核心要素与语料库的代表性和平衡性高度相关因此抽样是构建语料库过程中不可或缺的环节。拜伯1993指出构建语料库时首先需要考虑整体设计问题例如纳入的文本类型、文本数量、具体文本的选择、文本内部样本片段的提取以及样本片段的长度。这些环节均涉及抽样决策无论该决策是有意识做出的还是无意识的。选取具有代表性的样本时需考虑以下三个要点抽样单位指需要进行抽样的基本单元。例如书面文本的抽样单位可以是报纸、期刊或书籍。抽样框架所有抽样单位构成的清单即为抽样框架。研究总体指所有抽样单位的集合可从语言产出、语言接收或语言产物三个维度进行定义。语料库的规模规模是语料库设计的又一重要要素。那么语料库的规模该如何界定这一问题并无固定答案语料库的规模由其预设用途以及实际操作中的各类因素共同决定具体包括预期的用户查询类型用户研究语料数据所采用的方法数据来源的可获取性随着技术的发展语料库的规模也在不断扩大。以下对比表能直观体现语料库规模的发展变化年代语料库名称规模单词数20 世纪 60-70 年代布朗语料库、LOB 语料库100 万20 世纪 80 年代伯明翰系列语料库2000 万20 世纪 90 年代英国国家语料库1 亿21 世纪初英语银行语料库6.5 亿在后续章节中我们将介绍几种典型的语料库类型。树库语料库树库语料库是对文本进行语言学解析后的语料库主要对句子的句法或语义结构进行标注。“树库treebank” 这一术语由杰弗里・利奇提出这一命名源于树状结构是呈现语法分析结果最常用的方式。通常树库的构建是以已完成词性标注的语料库为基础的。树库语料库的类型语义树库和句法树库是语言学中最常见的两种树库类型接下来我们将详细介绍语义树库这类树库采用规范化的形式来呈现句子的语义结构不同语义树库的语义表征深度存在差异。典型的语义树库包括机器人指令树库、地理查询树库、格罗宁根意义库、机器人世界杯语料库等。句法树库与语义树库不同句法树库系统的输入是对树库解析数据转换后得到的形式语言表达式其输出则是基于谓词逻辑的意义表征。目前已有多种语言的句法树库被构建完成例如阿拉伯语的宾州阿拉伯树库、哥伦比亚阿拉伯树库汉语的中研院句法树库英语的 Lucy 树库、Susane 树库以及 BLLIP《华尔街日报》句法语料库等。树库语料库的应用树库语料库的应用场景主要包括以下方面计算语言学领域树库最核心的用途是研发前沿的自然语言处理系统例如词性标注器、句法分析器、语义分析器以及机器翻译系统。语料库语言学领域树库主要用于句法现象的研究。理论语言学与心理语言学领域树库可作为研究语言交互的实证依据。命题库语料库命题库PropBank全称为 Proposition Bank是对动词命题及其论元进行标注的语料库是一种以动词为核心的语言资源其标注工作更贴近句法层面。该语料库由美国科罗拉多大学博尔德分校语言学系的玛莎・帕尔默等人研发。在广义上任何对命题及其论元进行标注的语料库都可被称作命题库。在自然语言处理领域命题库项目发挥了至关重要的作用是实现语义角色标注的关键资源。动词网动词网VerbNet简称 VN是英语中规模最大、领域无关的层级式词汇资源同时整合了词汇的语义与句法信息。作为覆盖范围广泛的动词词典动词网还与词网、Xtag 句法标注库、框架网等其他词汇资源建立了映射关系。其内部按照动词类别进行组织在莱文动词分类的基础上通过细化分类、增加子类的方式实现同类动词在句法和语义上的一致性。每个动词网的动词类别均包含以下两部分内容句法描述集合句法框架用于描述论元结构的各类表层实现形式适用于及物、不及物、介词短语、结果补语等句法结构以及各类语态转换形式。语义描述集合包含有生命、人类、组织等语义范畴用于限定论元所能承担的题元角色类型同时可添加额外的限制条件以此明确与某一题元角色相关联的句法成分特征。词网词网WordNet由美国普林斯顿大学研发是英语的词汇数据库同时也是自然语言工具包NLTK语料库的重要组成部分。在词网中名词、动词、形容词和副词被划分为不同的认知同义词集合即同义词集Synsets。所有同义词集之间通过概念语义关系和词汇关系相互联结。这一结构特征让词网在自然语言处理领域具备极高的实用价值。在信息系统领域词网的应用场景十分广泛包括词义消歧、信息检索、文本自动分类、机器翻译等。其最重要的应用之一是计算词汇间的相似度目前已有多种算法实现了这一功能并被集成到各类工具包中例如 Perl 语言的 Similarity 包、Python 语言的 NLTK 工具包以及 Java 语言的 ADW 工具包。