Explicit Grammar Semantic Feature Fusion for Robust Text ClassificationAuthors:Azrin Sultana, Firoz AhmedDeep-Dive Summary:显式语法-语义特征融合用于鲁棒的跨域文本分类1 摘要 (Abstract)自然语言处理 (NLP) 通过处理深层的语法和语义特征使计算机能够理解人类语言并高效地分析和分类文本。现有模型捕捉特征的方法要么是利用计算密集型、不适合资源受限环境的 Transformer 模型从大规模语料库中学习要么是使用轻量级的浅层模型。以往的研究忽视了在不求助于全参数 Transformer 模型或沉重的深度学习架构的情况下将全面的语法规则与语义信息结合起来构建鲁棒、轻量级分类模型的重要性。为了填补这一空白我们提出了一种用于跨域文本分析的新型语法感知特征工程 (Grammar-Aware Feature Engineering)框架。该方法的创新之处在于将句子级的语法结构包括句法构成、短语模式和复杂度指标显式编码为紧凑的语法向量然后将其与冻结的上下文嵌入融合。这些异构元素统一为一个表示同时捕获文本的结构和语义特征。研究使用了深度信念网络 (DBN)、长短期记忆网络 (LSTM)、BiLSTM 以及基于 Transformer 的 BERT 和 XLNET 等模型进行训练和评估。实验结果表明该统一特征表示模型优于基准模型 2%-15%能够更有效地在异构领域中进行学习。与以往通过额外注意力层或树编码器注入语法结构的语法感知 Transformer 模型不同本框架将语法视为显式归纳偏置 (Explicit Inductive Bias)而非可学习模块从而产生了一个非常轻量级的模型在边缘设备上表现更佳。2 引言 (Introduction)NLP 结合了人类语言的规则建模与统计及机器学习模型使机器能够识别、理解和生成文本与语音。NLP 市场需求显著增长预计从 2023 年到 2030 年增长约15.1 % 15.1\%15.1%。NLP 任务主要涉及文本的句法和语义分析应用包括情感分析、垃圾邮件检测、命名实体识别 (NER)、问答系统及机器翻译。早期的 NLP 依赖预编程规则而统计 NLP 则引入了将语言元素映射到向量表示的技术支持使用回归和马尔可夫模型进行数学建模。模型性能很大程度上取决于特征工程。传统技术如词袋模型 (BoW) 忽略了词序和句法信息TF-IDF 则衡量词项重要性。随着深度学习的发展Word2Vec、GloVe 和 FastText 等语义特征表示得到广泛应用。尽管 Transformer 模型利用密集上下文嵌入实现了最先进的性能但它们通常隐含地捕捉语法关系且在语言结构迥异的领域间鲁棒性较差。此外Transformer 模型庞大的参数量和计算开销使其难以在资源受限的设备上运行。本文提出的框架通过冻结 Transformer 骨干网络并在表示层注入低维语法向量将语法作为显式归纳偏置从而在不增加计算负担的情况下提高跨域鲁棒性。本文的主要贡献设计了结合文本嵌入和语法特征向量的分类框架。整合了 11 种不同的语法规则来提取特征。在文档级分类和标记级 NER 任务上进行了广泛实验。评估并对比了 LSTM、BiLSTM、DBN 及 BERT、DistilBERT 等模型的表现。使用准确率、精确率、召回率和 F1 分数评估了二分类和多分类性能。3 文献综述 (Literature Review)目前关于 NLP 任务中基于语法的特征工程研究仍然有限。Mohasseb 等人探索了基于语法的问答分类框架有的研究采用了基于萤火虫算法的特征选择POS词性标注在深度学习中被广泛用于提取特征。例如有研究结合马尔可夫模型和 Viterbi 算法或改进祈使句的 POS 标注精度。总结来说现有的基于语法的文本数据特征选择方法虽有潜力但往往是碎片化的、受规则限制的且具有领域特定性。本研究通过将多种语法规则如短语动词等常被忽视的结构统一到可学习的语法嵌入层中并结合 Transformer 嵌入填补了这一空白。据我们所知这是首个将深度语法结构与上下文文本嵌入结合成统一表示的方法。4 方法论 (Methodology)本章节描述了设计和实验所提语法特征识别的过程。4.1 数据集描述 (Dataset description)本研究使用了两个特定领域的数据集邮件分类数据集包含 52,062 条实例用于垃圾邮件识别72.47% 为非垃圾邮件27.53% 为垃圾邮件。GNB 数据集用于 NER 任务包含人名、组织、地理位置等标签采用 IOB 标注系统。4.2 语法作为轻量级和跨域鲁棒学习的显式归纳偏置 (Grammar as an Explicit Inductive Bias for Lightweight and Domain-Robust Learning)虽然 Transformer 理论上能通过自注意力建模句法但这些规律是隐式推断的高度依赖训练数据的词汇构成。在数据有限或噪声较大时模型往往学习到领域特定的词汇相关性而非领域无关的结构模式。相比之下从语法中诱导的特征捕捉了独立于词汇的语言规律如短语层级、依存关系。通过将这些信号引入表示空间本框架建立了对语言合理配置的显式归纳偏置。这种方法不需要重新训练复杂的 Transformer 模型而是通过语法特征提供结构线索来补充语义表示。4.3 模型图示 (Model diagram)提出的混合语法感知框架包含四个步骤数据集预处理、语法和文本特征提取、特征融合、以及模型训练与评估。图 4所提系统的模型图示4.3.1 文本处理 (Text processing)文本预处理是准备原始文本数据的重要步骤涉及清洗和转换文本以确保算法能够准确理解和分析自然语言。Original Abstract:Natural Language Processing enables computers to understand human language by analysing and classifying text efficiently with deep-level grammatical and semantic features. Existing models capture features by learning from large corpora with transformer models, which are computationally intensive and unsuitable for resource-constrained environments. Therefore, our proposed study incorporates comprehensive grammatical rules alongside semantic information to build a robust, lightweight classification model without resorting to full parameterised transformer models or heavy deep learning architectures. The novelty of our approach lies in its explicit encoding of sentence-level grammatical structure, including syntactic composition, phrase patterns, and complexity indicators, into a compact grammar vector, which is then fused with frozen contextual embeddings. These heterogeneous elements unified a single representation that captures both the structural and semantic characteristics of the text. Deep learning models such as Deep Belief Networks (DBNs), Long Short-Term Memory (LSTMs), BiLSTMs, and transformer-based BERT and XLNET were used to train and evaluate the model, with the number of epochs varied. Based on experimental results, the unified feature representation model captures both the semantic and structural properties of text, outperforming baseline models by 2%-15%, enabling more effective learning across heterogeneous domains. Unlike prior syntax-aware transformer models that inject grammatical structure through additional attention layers, tree encoders, or full fine-tuning, the proposed framework treats grammar as an explicit inductive bias rather than a learnable module, resulting in a very lightweight model that delivers better performance on edge devicesPDF Link:2602.20749v1部分平台可能图片显示异常请以我的博客内容为准