作者来自 Elastic Sean Handley, Anish Mathur, Deepti Dheer 及 Ranjana DevajiElastic Inference Service ( EIS ) 扩展了其托管模型目录使团队能够在检索、生成和推理等不同任务中灵活选择模型从而构建可用于生产的 agent而无需管理 GPU 或基础设施。Agent Builder 现已正式 GA。通过 Elastic Cloud Trial 开始使用并在此查看 Agent Builder 的文档。今天我们很高兴宣布为 Elastic Inference Service ( EIS ) 扩展模型目录使用户能够在托管 GPU 上轻松运行快速、高质量的推理而无需复杂的设置或托管。EIS 已经提供对最先进的大型语言模型 ( LLMs ) 的访问这些模型为 Elastic Agent Builder 和 Elastic AI Assistants 提供开箱即用的 AI 能力包括自动数据摄取、威胁检测、问题调查和根因分析。现在我们通过更广泛的托管模型目录扩展这一基础使开发者能够更好地控制 agent 如何进行推理、检索和执行操作。在实践中这反映了企业构建 AI 系统方式的更广泛转变。单一、通用 AI 模型的理念已经不再成立。真实世界的 agent 工作流需要多个模型它们具有不同的优势、成本和性能特征。通过 EIS团队可以在 Agent Builder 中直接选择并切换模型无需任何设置、成本或托管开销或者在 agent 工作流中组合不同模型使每个步骤都使用最适合该任务的模型。开发者可以直接在 Elasticsearch 中使用来自 OpenAI、Anthropic 和 Google 的模型在不同的 agent 步骤中选择不同模型而 Elastic 则为生产级 agent 全面管理推理、扩展和 GPU 执行。EIS 上扩展的托管模型目录扩展后的 EIS 目录现在包含针对不同任务类别优化的模型从轻量级生成到大上下文推理以及用于检索的 embeddings。在生成方面目录包括Anthropic Claude Opus 4.5 和 4.6Gemini 2.5 FlashGemini 2.5 ProOpenAI GPT-4.1 和 GPT-4.1 MiniOpenAI GPT-5.2OpenAI GPT-OSS-120B在检索方面EIS 包含原生 Jina AI 模型 jina-embeddings-v3 和 jina-embeddings-v5它们为多语言检索提供快速、高质量的 embeddings。该服务还包含来自 Microsoft、OpenAI、Google 和 Alibaba 的 embedding 模型。为 agent 任务选择合适的模型通过 EIS模型选择成为 agent 内部的设计决策而不是运维问题。agent 可以根据其角色选择模型而无需改变推理的部署或扩展方式。为了看看这在实践中的表现考虑一些常见的 agent 场景。简单信息查询简单交互例如回答 “我们的 holiday policy 是什么”不需要昂贵的前沿模型可以由快速、低成本的模型处理。任务“我们的 holiday policy 是什么”模式检索并总结。模型选择快速、低成本的生成模型。这也可以通过 API 进行配置只需选择你想使用的模型POST kbn://api/agent_builder/converse { input: What is our holiday policy?, agent_id: internal-kb-bot, connector_id: Anthropic-Claude-Sonnet-4-5 }这一步主要依赖于检索质量。一个轻量级模型就足以快速总结少量文档。中等能力更复杂的任务可能需要更强大的生成模型但不一定需要最昂贵的推理模型。任务“将我们的 holiday policy 与法国新的劳动法进行比较并起草一封邮件。”模式检索相关文档比较不同来源中的政策细节并生成输出例如邮件草稿。模型选择更强大的生成模型。https://www.bilibili.com/video/BV1HZPYz4EBK/以下是 API 示例POST kbn://api/agent_builder/converse { input: Compare our holiday policy with new labor laws in France and draft an email., agent_id: internal-kb-bot, connector_id: Google-Gemini-2-5-Pro }此任务需要跨多个来源进行综合并生成结构化输出但不需要最强大的前沿推理模型。调查或审计任务高能力任务审查大量文档以识别合规风险。模式在大上下文中进行多步骤推理模型在生成最终判断之前评估多个文档的信息并综合发现。模型选择前沿模型或大上下文模型。使用 API 试一试POST kbn://api/agent_builder/converse { input: What are the compliance risks associated with Example AI products?, connector_id: Anthropic-Claude-Opus-4-6 }由于该任务需要对多个输入进行更深入的推理和一致评估输出质量更加重要因此此步骤适合使用高能力模型。EIS 还支持更高级的编排模式。企业越来越认识到为每个 agent 步骤使用前沿模型效率低下。通过 Agent Builder 和 Elastic Workflows团队可以设计 agent使每个子任务由最适合该任务的模型执行基于成本、复杂性和准确性要求进行选择。模型作为评判者模式质量控制任务使用第二个模型验证 agent 的输出模式生成并评估在这个 Elastic Workflow 示例中agent 使用一个模型生成响应再用第二个模型评估其质量为结果增加验证层。内置于 Elasticsearch 的自动化引擎 Elastic Workflows 允许开发者将可靠的脚本自动化与 AI 驱动步骤结合用于需要推理的任务。https://www.bilibili.com/video/BV1GjPez5EZY/多模型方法通过将生成与评估分离实现了新的可靠性模式允许一个模型生成响应另一个模型进行验证。如今团队可以通过将通用生成模型与轻量级评估模型配对来实现这一点。随着时间推移这一模式自然适用于专门的评判和安全模型这些模型专门用于验证、策略检查和质量控制。随着这些模型的可用性增加EIS 使得在不改变推理部署或管理方式的情况下将它们引入 agent 工作流变得简单。接下来是什么EIS 正在积极发展更多模型即将推出。你可以在 Elastic 公共路线图上跟踪即将发布的内容以及我们当前正在构建的内容。开始使用Elastic Inference Service 让你可以轻松使用默认模型并随着时间发展逐步构建复杂的多模型 agent 工作流全部在 Elasticsearch 内完成。无论你是在构建全球检索增强生成 (RAG) 系统、搜索还是需要可靠上下文的 agent 工作流Elastic 现在都提供开箱即用的高性能模型以及从原型到生产的简化运维流程让你充满信心地部署。所有 Elastic Cloud 试用账户都可访问 Elastic Inference Service。你可以在 Elastic Cloud Serverless 或 Elastic Cloud Hosted 上立即试用或通过 Cloud Connect 在自管理集群中使用 EIS。原文https://www.elastic.co/search-labs/blog/cloud-connect-elastic-inference-service