Elasticsearch 用于词形还原的开源 Hebrew 分析器
作者来自 Elasticsearch Lily Adler一个开源 Elasticsearch 9.x 分析器插件通过在分析链中对 token 进行词形还原改善 Hebrew 搜索以提高对 Hebrew 形态的召回率。Elasticsearch 拥有丰富的新功能帮助你为你的使用场景构建最佳搜索解决方案。在我们关于构建现代 Search AI 体验的实操 webinar 中了解如何将这些功能付诸实践。你也可以现在开始免费 cloud 试用或在本地机器上试用 Elastic。Hebrew 在形态上非常丰富前缀、词形变化和附着词使得精确 token 搜索脆弱。该项目提供了一个开源 Elasticsearch 9.x 的 Hebrew 分析器插件在分析链中执行神经词形还原使用嵌入的 DictaBERT 模型并通过 ONNX Runtime 以 INT8 量化模型在进程中执行。快速开始下载相关版本或构建并安装Linux 构建脚本会生成与 Elasticsearch 兼容的 zip./scripts/build_plugin_linux.sh在 Elasticsearch 中安装/path/to/elasticsearch/bin/elasticsearch-plugin install file:///path/to/heb-lemmas-embedded-plugin-ES_VERSION.zip测试curl -k -X POST https://localhost:9200/_analyze \ -H Content-Type: application/json \ -u elastic:password \ -d {tokenizer:whitespace,filter:[heb_lemmas,heb_stopwords],text:הילדים אוכלים את הבננות}为什么 Hebrew 搜索不同Hebrew 在形态上非常丰富前缀、后缀、词形变化和附着词都会合并为单一的表面形式。这使得简单的 tokenization 不足。没有真正的词形还原搜索质量会下降用户可能因为形式的简单变化而错过相关结果。该项目通过将 Hebrew 词形还原模型嵌入分析器本身解决了这个问题使每个 token 在索引和查询前都通过神经模型处理。示例用户可能搜索词干 “בית”house但文档可能包含ביתa houseבביתin the houseלביתto the houseבבתיםin housesלבתיםto houses没有词形还原时这些会成为不同的表面 token词形还原会将它们规范化到相同的词干בית提高召回率这个插件的功能该分析器不是依赖规则的词干提取而是在 Elasticsearch 分析链中运行 Hebrew 词形还原模型为每个 token 输出一个规范化的词干。因为模型是神经网络它可以在每个分析段中利用局部上下文在模糊情况下选择合适的词干 —— 同时仍生成适合索引和查询的稳定 token。该分析器在 Elasticsearch 内运行 Hebrew 词形还原模型。为 Hebrew 文本生成更好的规范化 token。支持停用词和标准分析器管道。结果快速、可靠的词形还原该分析器针对实际吞吐量进行了优化使用 ONNX Runtime 进行进程内推理。INT8 量化模型以降低延迟和内存占用。通过 Java Foreign Function InterfaceFFI实现高性能原生推理。结果快速、可靠的词形还原操作行为可预测。为了评估性能我们在 Docker 容器4 核12 GB RAM中对 100 万条大文档5.7 GB 数据进行基准测试数据来源于 Hebrew Wikipedia 数据集。结果如下Metric (search)TaskValueUnitMin throughputhebrew-query-search409.75ops/sMean throughputhebrew-query-search490.65ops/sMedian throughputhebrew-query-search491.85ops/sMax throughputhebrew-query-search496.13ops/s50th percentile latencyhebrew-query-search7.02242ms90th percentile latencyhebrew-query-search10.7338ms99th percentile latencyhebrew-query-search19.0406ms99.9th percentile latencyhebrew-query-search27.165ms50th percentile service timehebrew-query-search7.02242ms90th percentile service timehebrew-query-search10.7338ms99th percentile service timehebrew-query-search19.0406ms99.9th percentile service timehebrew-query-search27.165msError ratehebrew-query-search0%开源且兼容 Elastic该插件完全开源可在以下环境中使用Elastic 开源发行版Elastic Cloud你可以自行构建也可以下载预构建版本并像安装其他插件一样安装。要将分析器插件上传到 Elastic Cloud请在 Elastic Cloud 控制台中导航到Extensions部分然后进行上传。鸣谢该项目是 Korra ai Hebrew 分析插件MIT的一个 fork由 Korra.ai 实现并在 MAFAT 和以色列创新局领导的国家 NLP 项目资助和指导下完成。此 fork 关注 Elasticsearch 9.x 兼容性并通过 ONNX Runtime 完全在进程内运行词形还原使用 INT8 量化模型和捆绑的 Hebrew 停用词。词形还原由 DictaBERT dicta-il/dictabert-lexCC‑BY‑4.0提供支持。特别感谢 Dicta 团队为社区提供高质量的 Hebrew 自然语言处理NLP模型。链接GitHub 仓库版本发布原文https://www.elastic.co/search-labs/blog/elasticsearch-lemmatization-hebrew-analyzer

相关新闻

Java Web Web教师个人成果管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

Java Web Web教师个人成果管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

摘要 随着教育信息化的快速发展,教师个人成果管理逐渐成为高校和教育机构的重要需求。传统的成果管理方式依赖纸质档案或简单的电子表格,存在效率低下、数据易丢失、查询不便等问题。教师在教学、科研、竞赛等方面的成果数量庞大,亟需一套系统…

2026/5/17 5:33:06 阅读更多 →
精品水果线上销售网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

精品水果线上销售网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要 随着互联网技术的快速发展和电子商务的普及,线上水果销售逐渐成为消费者购买生鲜产品的重要渠道。传统的水果销售模式受限于地域和季节因素,难以满足消费者对高品质、多样化水果的需求。线上销售平台通过整合供应链资源,能够提供更丰富的…

2026/7/3 9:46:59 阅读更多 →
前后端分离小区物业智能卡管理设计与实现系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

前后端分离小区物业智能卡管理设计与实现系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

摘要 随着城市化进程的加速和智能社区的普及,传统物业管理模式已无法满足现代居民对高效、便捷服务的需求。传统物业管理系统多采用集中式架构,存在响应速度慢、扩展性差、用户体验不佳等问题。尤其在智能卡管理方面,传统系统缺乏对门禁、停车…

2026/7/3 4:09:19 阅读更多 →

最新新闻

UE5多线程编程:FRunnable与线程局部存储实战

UE5多线程编程:FRunnable与线程局部存储实战

1. UE5多线程编程基础与核心概念在Unreal Engine 5的C开发中,多线程编程是提升性能的关键技术。当我们需要处理耗时计算、网络通信或密集I/O操作时,合理使用多线程可以避免阻塞游戏的主线程(GameThread),保持游戏流畅运…

2026/7/4 1:25:15 阅读更多 →
AI自动识别PSD并一键转换为UGUI预制体:实现思路与实战指南

AI自动识别PSD并一键转换为UGUI预制体:实现思路与实战指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在实际游戏开发或应用开发中,UI界面的制作往往是耗时最长的环节之一。UI设计师使用Photoshop(PSD&#xff0…

2026/7/4 1:19:14 阅读更多 →
基于YOLOv8的军事目标识别系统构建实战:以伯克级驱逐舰为例

基于YOLOv8的军事目标识别系统构建实战:以伯克级驱逐舰为例

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在计算机视觉和军事仿真领域,构建一个高精度、高仿真的图像识别靶标系统,用于模拟和识别特定军事目标&#…

2026/7/4 1:17:13 阅读更多 →
教育硬件AI集成实战:从零构建智能辅导与专注学习系统

教育硬件AI集成实战:从零构建智能辅导与专注学习系统

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在实际教育硬件产品开发中,将AI能力深度集成到学习机这类设备,并确保其稳定、高效地服务于“智能辅导”与“…

2026/7/4 1:15:13 阅读更多 →
浏览器端AI图像修复与超分:Inpaint-Web本地离线处理全攻略

浏览器端AI图像修复与超分:Inpaint-Web本地离线处理全攻略

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 你是不是也遇到过这样的问题:手头有一张珍贵的照片,但分辨率太低,放大后全是马赛克;…

2026/7/4 1:15:13 阅读更多 →
Inpaint-Web:基于WebGPU与WASM的本地化AI图像修复与超分工具实战

Inpaint-Web:基于WebGPU与WASM的本地化AI图像修复与超分工具实战

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在图像处理工作中,我们常常会遇到两类棘手问题:一是手头只有低分辨率的老照片或网络图片,急需放…

2026/7/4 1:15:13 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻