Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力
作者来自 Elastic Sean Handley, Brendan Jugan 及 Ranjana DevajiElastic 现在在 EIS 上提供了 jina-reranker-v2-base-multilingual 和 jina-reranker-v3使得可以直接在 Elasticsearch 中进行快速多语言重排序实现更高精度的检索、RAG 和 agentic workflow无需额外基础设施。动手体验 Elasticsearch现在就可以浏览我们的示例 notebooks、启动免费云试用或在本地机器上尝试 Elastic。今天我们很高兴在 Elastic Inference Service (EIS) 上推出jina-reranker-v2-base-multilingual和jina-reranker-v3实现直接在 Elasticsearch 中进行快速、多语言、高精度的重排序。Jina AI最近被 Elastic 收购是开源多语言和多模态模型领域的领导者提供用于高质量检索和检索增强生成RAG的最先进搜索基础模型。EIS 让你可以轻松在托管 GPU 上运行这些现成模型的快速、高质量推理无需任何设置或托管复杂性。Reranker 通过优化检索结果的排序提高语义精度帮助选择最匹配查询的结果。它们能够在不重新索引或干扰管道的情况下提升相关性对混合搜索和 RAG 工作流尤为重要因为更好的上下文能提高下游任务的准确性。此前 EIS 上已推出jina-embeddings-v3扩展了多语言 reranking 的模型目录。开发者现在可以结合 BM25F 词汇搜索和来自jina-embeddings-v3的多语言向量搜索进行混合搜索再根据具体使用场景使用 Jina Rerankers v2 或 v3 进行重排序从而在 Elasticsearch 中原生实现对召回调优的完全控制。jina-reranker-v2-base-multilingualjina-reranker-v2-base-multilingual 是一个紧凑型通用重排序器具备支持函数调用和 SQL 查询的特性。低延迟大规模推理这是一个 2.78 亿参数的紧凑模型使用 Flash Attention 2 提供低延迟推理在多语言性能上表现出色根据 AIR 指标和其他常用基准甚至优于更大的重排序模型。支持 agentic 用例可以进行准确的多语言文本重排序并额外支持选择与文本查询匹配的 SQL 表和外部函数从而实现 agentic 工作流。无限候选支持v2 可以处理任意大的候选列表通过独立评分文档实现。评分可跨批次兼容因此开发者可以增量重排序大型结果集。例如流水线可以每次评分 100 个候选项然后合并评分并排序综合结果。这使得 v2 在不严格应用 top-k 限制的流水线中非常适用。jina-reranker-v3jina-reranker-v3 提供多语言 listwise 重新排序在 RAG 和 agent 驱动的工作流中实现更高精度和最先进的性能。轻量化、适合生产环境的架构约 6 亿参数的 listwise 重新排序模型优化以实现低延迟推理和高效部署。强大的多语言表现基准测试显示 v3 在多语言任务上性能领先于更大的模型同时在置换情况下保持稳定的 top-k 排序。高效跨文档重新排序与 v2 不同v3 可以在单次推理中对最多 64 个文档进行整体重新排序通过考察候选集合内的关系提升排序质量。通过批量处理候选而非单独评分v3 显著降低推理成本非常适合具有固定 top-k 结果的 RAG 和 agent 驱动工作流。更多模型即将推出EIS 正在持续扩展用于候选重排、检索和 agent 推理的优化模型。下一个是用于多模态重排的 jina-reranker-m0其次是来自 OpenAI、Google 和 Anthropic 的 frontier 模型。开始使用你可以通过几个简单步骤在 EIS 上使用jina-reranker-v2-base-multilingual。使用 jina-embeddings-v3 创建向量POST _inference/text_embedding/.jina-embeddings-v3 { input: [ The Atlantic is a vast, deep ocean., A small puddle formed on the sidewalk. ] }响应{ text_embedding: [ { embedding: [ 0.0061287, ... ] }, { embedding: [ -0.11765291, ... ] } ] }使用 jina-reranker-v2-base-multilingual 重新排序执行推理POST _inference/rerank/.jina-reranker-v2-base-multilingual { input: [puddle, ocean, cup of tea], query: a large body of water }响应结果{ rerank: [ { index: 1, relevance_score: 0.48755136 }, { index: 0, relevance_score: 0.41489884 }, { index: 2, relevance_score: 0.07696084 } ] }使用 jina-reranker-v3 重新排序执行推理POST _inference/rerank/.jina-reranker-v3 { input: [pebble, The Swiss Alps, a steep hill], query: mountain range }响应结果{ rerank: [ { index: 1, relevance_score: 0.06519848 }, { index: 2, relevance_score: -0.05002501 }, { index: 0, relevance_score: -0.09782915 } ] }类似于 jina-reranker-v2-base-multilingual响应结果提供了按相关性排序的输入优先列表。在这个例子中模型将 “The Swiss Alps” 识别为 “mountain range” 的最相关匹配而 “pebble” 和 “a steep hill” 排名较低。然而一个关键区别是 jina-reranker-v3 是列表式重新排序器listwise reranker。与逐个对文档-查询对评分的 jina-reranker-v2-base-multilingual 不同jina-reranker-v3 会同时处理所有输入使模型能够在确定最终排序之前进行丰富的跨文档交互。EIS 新特性通过 Cloud ConnectEIS 可用于自托管集群让开发者能够访问 GPU 集群来快速原型和部署 RAG、语义搜索以及 agent 工作流而无需在自托管集群上采购 GPU 资源。平台团队可以实现混合灵活性数据和索引保留在本地同时在需要时在 Elastic Cloud 扩展 GPU 推理能力。接下来semantic_text 字段将很快默认使用 EIS 上的 jina-embeddings-v3在数据摄取时提供内置推理使采用多语言搜索更简单无需额外配置。试用体验利用 EIS 上的 Jina AI 模型你可以构建多语言、高精度检索管道而无需管理模型、GPU 或基础设施。你将获得快速的密集检索、准确的重新排序以及与 Elasticsearch 相关性栈的紧密集成一站式平台完成。无论你是在构建 RAG 系统、搜索还是需要可靠上下文的 agent 工作流Elastic 现在都提供了高性能开箱即用的模型以及从原型到生产部署的简便运维能力。所有 Elastic Cloud 试用用户均可访问 Elastic Inference Service。现在就可以在 Elastic Cloud Serverless 或 Elastic Cloud Hosted 上体验。原文https://www.elastic.co/search-labs/blog/jina-rerankers-elastic-inference-service

相关新闻

多智能体协同评估企业创新能力

多智能体协同评估企业创新能力

多智能体协同评估企业创新能力 关键词:多智能体协同、企业创新能力评估、智能体模型、创新指标体系、机器学习算法 摘要:本文聚焦于利用多智能体协同方法对企业创新能力进行评估。首先介绍了该研究的背景、目的和预期读者,阐述了相关术语和核心概念。接着详细讲解了多智能体…

2026/7/3 14:43:43 阅读更多 →
大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型 (LLM) 因其在各种任务中的卓越表现而备受关注。 然而大语言模型的部署推理并不简单,尤其是针对在给定资源受限场景下,巨大的计算和内存需求给LLM推理部署带来了挑战,具体如:高延迟、低吞吐、高存储等。 一、前期知识 …

2026/7/3 8:07:57 阅读更多 →
n ^ (n + 1)  (n + 1) ^ n

n ^ (n + 1) (n + 1) ^ n

n ^ (n 1) && (n 1) ^ n n的n1次方 和 n1的n次方 谁比较大

2026/7/3 14:43:47 阅读更多 →

最新新闻

2026年多模态AI爆发的三大工程临界点

2026年多模态AI爆发的三大工程临界点

1. 项目概述:这不是预测,是正在发生的产业切片 “2026年4月下旬AI爆发”这个标题乍看像媒体噱头,但作为连续跟踪大模型产业落地六年的从业者,我必须说:它不是时间锚点,而是技术演进的临界刻度。过去三个月&…

2026/7/3 20:21:16 阅读更多 →
【信息科学与工程学】计算机科学与自动化——第五十七篇 计算性与不可计算性01

【信息科学与工程学】计算机科学与自动化——第五十七篇 计算性与不可计算性01

编号 类型 领域 问题 问题的数学分析 关联知识 1 不可计算性 计算理论 停机问题:判断任意图灵机在给定输入上是否会终止 采用对角线法构造矛盾:假设存在通用停机判定器 H,则构造新图灵机 D 利用 H 判定自身并做相反操作,导致悖论,故不存在这样的算法。 图灵机、…

2026/7/3 20:21:16 阅读更多 →
基于Playwright的UI自动化测试平台:从架构设计到CI/CD集成

基于Playwright的UI自动化测试平台:从架构设计到CI/CD集成

1. 项目概述:为什么需要一个基于PlayWright的UI自动化测试平台?如果你是一名测试工程师或者开发工程师,每天还在为Web应用的UI自动化测试脚本的编写、维护、执行和报告而头疼,那么“基于PlayWright的UI自动化测试平台”这个项目&a…

2026/7/3 20:19:15 阅读更多 →
三步实现IDM永久激活:免费解锁下载神器的终极指南

三步实现IDM永久激活:免费解锁下载神器的终极指南

三步实现IDM永久激活:免费解锁下载神器的终极指南 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 你是否厌倦了Internet Download Manager&#xff0…

2026/7/3 20:19:15 阅读更多 →
相机、激光雷达与事件相机动态感知原理对比

相机、激光雷达与事件相机动态感知原理对比

1. 项目概述:为什么“动态感知”成了自动驾驶与机器人领域的生死线?你有没有注意过,一辆车在暴雨中急刹时,传统摄像头拍到的画面几乎是一片模糊的水幕,而激光雷达却能稳稳锁定前方突然窜出的电动车轮廓;又或…

2026/7/3 20:09:12 阅读更多 →
DreamScene2:免费开源Windows动态桌面终极解决方案

DreamScene2:免费开源Windows动态桌面终极解决方案

DreamScene2:免费开源Windows动态桌面终极解决方案 【免费下载链接】DreamScene2 一个小而快并且功能强大的 Windows 动态桌面软件 项目地址: https://gitcode.com/gh_mirrors/dr/DreamScene2 厌倦了千篇一律的静态壁纸?想要让Windows桌面焕发新生…

2026/7/3 20:09:12 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻