AI-Compass LLM推理框架+部署生态：整合顶级加速框架，轻松掌握大模型部署-尧图手机网站定制

AI-Compass是一个全面、实用、前沿的AI技术学习和实践生态包含六大核心模块为不同层次的学习者和开发者提供系统化学习路径。本文聚焦LLM推理框架部署生态整合vLLM、SGLang、LMDeploy等顶级加速框架涵盖本地到云端全场景部署助力小白和程序员快速掌握大模型部署技能。前排提示文末有大模型AGI-CSDN独家资料包哦AI-Compass LLM推理框架部署生态整合vLLM、SGLang、LMDeploy等顶级加速框架涵盖本地到云端全场景部署AI-Compass致力于构建最全面、最实用、最前沿的AI技术学习和实践生态通过六大核心模块的系统化组织为不同层次的学习者和开发者提供从完整学习路径。github地址AI-Compasshttps://github.com/tingaicompass/AI-Compassgitee地址AI-Compasshttps://gitee.com/tingaicompass/ai-compass 如果本项目对您有所帮助请为我们点亮一颗星核心模块架构基础知识模块涵盖AI导航工具、Prompt工程、LLM测评、语言模型、多模态模型等核心理论基础⚙️ 技术框架模块包含Embedding模型、训练框架、推理部署、评估框架、RLHF等技术栈应用实践模块聚焦RAGworkflow、Agent、GraphRAG、MCPA2A等前沿应用架构️ 产品与工具模块整合AI应用、AI产品、竞赛资源等实战内容企业开源模块汇集华为、腾讯、阿里、百度飞桨、Datawhale等企业级开源资源社区与平台模块提供学习平台、技术文章、社区论坛等生态资源适用人群AI初学者提供系统化的学习路径和基础知识体系快速建立AI技术认知框架技术开发者深度技术资源和工程实践指南提升AI项目开发和部署能力产品经理AI产品设计方法论和市场案例分析掌握AI产品化策略研究人员前沿技术趋势和学术资源拓展AI应用研究边界企业团队完整的AI技术选型和落地方案加速企业AI转型进程求职者全面的面试准备资源和项目实战经验提升AI领域竞争力LLM推理框架部署模块打造了全方位的大模型推理加速与部署生态整合21高性能推理引擎和部署平台。顶级加速框架vLLM伯克利业界标杆、SGLang超越TensorRT-LLM性能、LMDeploy书生工业级部署、DeepSpeed-MII微软推理优化等。便捷部署工具Ollama本地模型管理、LM Studio图形化界面、FastChatvLLM分布式服务、Xinference多模型统一接口、OpenLLM云端部署等。API网关服务LiteLLM100 LLM APIs统一格式、One-API接口管理分发、Xi-API等。托管平台包括Together AI、Replicate、SiliconFlow硅基流动等。配套Huggingface Accelerate、llama-cpp-python等底层加速库以及Jan.ai、LocalAI、text-generation-webui等用户友好界面实现从本地部署到云端服务的全场景覆盖。self-llm/datawhale大模型使用指南(含训练)Together AI – The AI Acceleration Cloud - Fast Inference, Fine-Tuning Training目录2.LLM训练推理加速框架部署.md0.FastChat-分布式部署不加速需要配合vllm0.LM Studio0.OpenLLM0.Xorbits Inference模型推理0.Xorbits Inference模型推理/issue解决0.litellm0.ollama0.one-api|Xi-api1.Jan.ai1.LocalAI1.Replicate大模型托管平台1.SiliconFlow (北京硅基流动)1.text-generation-webui2.DeepSpeed-MII2.SGLang2.fluxgym2.huggingface-accelerate2.llama-cpp-python2.lmdeploy-书生浦源2.vLLM-伯克利加速库0.FastChat-分布式部署不加速需要配合vllm简介FastChat是一个开放平台用于训练、服务和评估基于大型语言模型的聊天机器人。它为Chatbot Arena提供支持可处理大量聊天请求并编制在线LLM Elo排行榜。网上较成熟的Langchain - Chatchat项目也基于FastChat对接大模型。该项目可解决部分无OpenAI类似API接口大模型的部署问题。核心功能模型训练与评估提供最先进模型如Vicuna、MT - Bench的训练和评估代码。分布式多模型服务具备Web UI和OpenAI兼容的RESTful API的分布式多模型服务系统。推理加速可使用vllm加快推理速度。技术原理文中未明确提及具体技术原理但涉及到启动controller、model_worker包括普通模式和vllm模式和openai_api_server等组件协同工作。controller负责请求调度model_worker负责加载和运行模型openai_api_server提供OpenAI兼容的API服务。应用场景大模型部署在没有OpenAI接口的大型模型部署中使用实现模型的本地部署和调用。聊天机器人开发用于训练、服务和评估基于大型语言模型的聊天机器人。lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.本地化部署大模型方案二fastchatllm(vllm)-CSDN博客0.LM Studio简介LM Studio是一款可用于发现、下载和运行本地大语言模型LLM的桌面应用程序。它支持多种架构模型可离线运行保护用户数据隐私。0.3.0版本对功能进行了改进、深化和简化新增了与文档交互、OpenAI 结构化输出 API 支持等功能。核心功能模型管理可从 Hugging Face 下载兼容模型文件管理本地模型和配置。聊天交互提供聊天界面支持与本地文档交互使用 RAG 技术处理长文档。API 支持支持 OpenAI 结构化输出 API可实现可靠的 JSON 输出。个性化设置提供多种 UI 主题自动配置加载参数也支持手动自定义。网络服务可在网络上提供服务支持多设备访问。其他功能支持文件夹管理聊天记录、多版本生成、GPU 自动检测与卸载等。技术原理模型运行基于 llama.cpp 项目支持运行多种架构的 GGUF 模型。RAG 技术当处理长文档时采用检索增强生成技术提取相关内容供模型参考。自动配置根据硬件情况自动配置 LLM 加载和推理参数。API 支持支持 OpenAI 基于 JSON 模式的 API实现可靠的 JSON 输出。应用场景个人使用用户可在本地离线运行模型保护隐私进行日常聊天、文档问答等。开发测试开发者可利用其 OpenAI 兼容的本地服务器进行开发测试支持多种开发功能。项目协作可通过网络服务在多设备上使用支持多人协作项目。LM Studio - Discover, download, and run local LLMsLM StudioLM Studio 手册0.OpenLLM简介OpenLLM 让开发者能通过单个命令将开源大语言模型如 Llama 3.3、Qwen2.5 等或自定义模型作为兼容 OpenAI 的 API 运行。它具有内置聊天 UI、先进推理后端支持通过 Docker、Kubernetes 和 BentoCloud 进行企业级云部署。openllm - models 是 OpenLLM 的默认模型仓库提供多种模型版本及相关信息也支持添加自定义模型仓库。核心功能模型服务使用openllm serve命令启动本地 LLM 服务器提供 OpenAI 兼容 API。模型管理支持模型列表查看、仓库更新、模型信息查看可添加默认仓库模型和自定义仓库。聊天交互提供 CLI 聊天和 Web 聊天 UI 两种交互方式。云部署支持通过 BentoML 和 BentoCloud 进行云部署。技术原理OpenLLM 借助 BentoML 进行生产级模型服务利用 vllm - project/vllm 作为生产级 LLM 后端以实现高效推理。其将模型封装为 Bento利用 BentoML 管理和部署模型通过提供 OpenAI 兼容 API方便用户使用不同框架和工具与之交互。应用场景本地开发测试开发者可在本地启动 LLM 服务器使用 OpenAI 兼容 API 进行开发和测试。企业级云部署通过 BentoCloud 进行云部署利用其优化的基础设施实现模型的自动扩展、编排和监控。模型研究研究人员可使用 OpenLLM 管理和运行不同的开源模型进行实验和研究。bentoml/OpenLLM: Run any open-source LLMs, such as Llama 3.1, Gemma, as OpenAI compatible API endpoint in the cloud.bentoml/openllm-models0.Xorbits Inference模型推理简介Xorbits InferenceXinference是一个强大且通用的分布式推理框架用于服务语言、语音识别和多模态模型。用户能通过单个命令轻松部署自己的或内置的前沿模型支持在云、本地甚至笔记本电脑上运行推理为研究者、开发者和数据科学家提供便利。核心功能模型部署简化通过一个命令完成大语言、语音识别、多模态等模型的部署。内置前沿模型提供众多中英文前沿大语言模型及其他类型模型列表持续更新。异构硬件利用借助 ggml 同时使用 GPU 和 CPU 进行推理降低延迟、提高吞吐。灵活接口调用提供 OpenAI 兼容的 RESTful API、RPC、命令行、web UI 等多种接口。分布式部署支持分布式部署通过资源调度器按需调度模型到不同机器。三方库集成与 LangChain、LlamaIndex、Dify、Chatbox 等流行三方库无缝对接。技术原理运用 Xinference 团队维护的新 llama.cpp Python 绑定 Xllamacpp 支持连续批处理采用分布式推理技术让模型跨工作节点运行增强 VLLM 实现多个副本间共享 KV 缓存支持 Transformers 引擎的连续批处理支持苹果硅芯片的 MLX 后端等。通过这些技术优化模型推理过程提升性能和效率。应用场景研究领域研究者可利用其部署和测试各种前沿模型探索 AI 技术的新应用。开发场景开发者能借助其快速搭建基于大语言模型等的应用如聊天机器人、智能客服等。数据科学数据科学家可使用其进行数据处理和模型训练挖掘数据价值。企业应用企业可利用其部署自己的模型满足特定业务需求如金融领域的风险评估、医疗领域的辅助诊断等。xorbitsai/inference: Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you’re empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.inference/README_zh_CN.md at main · xorbitsai/inference内置模型 — Xinference嵌入模型 — Xinferenceissuebge-reranker-v2-minicpm-layerwise 无法报错使用其他reranker模型没有相关问题 · Issue #2217 · xorbitsai/inference启动qwen2.5 14B vllm int8 版本ValueError: [address0.0.0.0:37961, pid352437] Marlin does not support weight_bits uint8b128. Only types [] are supported (for group_size 128, min_capability 70, zp False) · Issue #2350 · xorbitsai/inferenceSGlang部署qwen2.5失败Exception: Capture cuda graph failed: BatchPrefillWithPagedKVCache failed with error code no kernel image is available for execution on the device · Issue #2351 · xorbitsai/inference0.litellm简介LiteLLM是一个可调用100多个大语言模型LLMs的工具支持以OpenAI的输入/输出格式调用能将输入转换为不同提供商的端点具有重试/回退逻辑、花费跟踪和预算设置等功能可通过代理服务器或Python SDK使用。核心功能多模型调用支持调用100种大语言模型使用OpenAI输入/输出格式。输入转换将输入转换为不同提供商的完成、嵌入和图像生成端点。重试/回退具备跨多个部署如Azure/OpenAI的重试和回退逻辑。花费跟踪跟踪项目花费并设置预算。日志记录可将LLM的输入/输出数据发送到多个日志工具。技术原理通过将用户输入的OpenAI格式请求根据不同大语言模型提供商的接口规范进行转换发送到相应的完成、嵌入和图像生成等端点接收响应后统一为OpenAI格式输出。同时在请求失败时按预设逻辑进行重试或切换部署利用预定义回调函数实现日志记录和花费跟踪。应用场景Gen AI和ML平台团队使用LiteLLM代理服务器统一访问多个LLM进行使用跟踪和设置护栏。开发人员在Python代码中使用LiteLLM SDK调用不同LLM开发项目。BerriAI/litellm: Python SDK, Proxy Server (LLM Gateway) to call 100 LLM APIs in OpenAI format - [Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Sagemaker, HuggingFace, Replicate, Groq]LiteLLM - Getting Started | liteLLM0.ollama简介Ollama是一个轻量级、可扩展的框架用于在本地机器上构建和运行语言模型。它提供简单API来创建、运行和管理模型其官网的模型库包含DeepSeek - R1、Gemma 3、Qwen3等多种模型支持多模态模型使用还有丰富的社区集成和工具。核心功能模型管理可创建、拉取、删除、复制模型支持从GGUF、Safetensors等格式导入模型还能自定义模型和提示。模型交互能运行模型进行对话、多模态交互支持多参数输入和显示模型信息等。API支持具备REST API用于运行和管理模型。社区集成有大量Web、桌面、云、终端、数据库等方面的集成工具和应用。技术原理Ollama基于llama.cpp等项目利用Go语言开发。在模型运行上支持多种大语言模型架构通过Modelfile配置模型参数和系统消息在交互方面通过API与模型通信实现对话、推理等功能在数据处理上支持多模态数据输入利用相关算法进行解析和处理。应用场景日常对话如聊天机器人通过运行模型实现与用户的自然对话。内容生成总结文件内容、生成代码、进行文本翻译等。多模态交互识别图片内容、处理图像相关的问题。企业应用如文档处理、智能客服、数据分析等。开发辅助辅助代码编写、调试和优化。ollama官网-模型下载ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models.0.one-api|Xi-api简介主要涉及两个项目相关内容。一是 One API它是一个大语言模型LLMAPI 管理与分发系统版本为 v0.6.11-preview.6支持多种登录方式当前有官方演示站但不对外服务二是 xi-ai使用标准 OpenAI 接口协议支持 280 模型具备按量计费、极速对话、明细透明等特点。核心功能One API对不同提供商的 LLM API 进行管理和分发。xi-ai提供标准 OpenAI 接口协议访问多种模型支持按量付费使用具备稳定运营、明细可查等服务特性。技术原理One API作为 API 管理和分发系统可能运用了代理、路由等技术将不同来源的 LLM API 进行整合和调配方便用户管理和使用。xi-ai采用先进技术架构保障 API 服务的稳定性和高可用性使用标准 OpenAI 接口协议实现与多种模型的对接。应用场景One API适用于需要管理和使用多个 LLM API 的开发者和企业便于统一管理和调用不同的 API。xi-ai适用于各类需要使用大语言模型的场景如聊天应用开发、智能客服、内容生成等可帮助开发者快速接入多种模型。One API演示one-api: OpenAI 接口管理分发系统支持 Azure、Anthropic Claude、Google PaLM 2 Gemini、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元可用于二次分发管理 key仅单可执行文件已打包好 Docker 镜像一键部署开箱即用. OpenAI key management redistribution system, using a single API for all LLMs, and features an English UI.Xi-Api1.Jan.ai简介Jan是一个开源的ChatGPT替代方案旨在实现在用户本地计算机上100%离线运行大型语言模型LLMs。它致力于将任何个人电脑转变为一个AI计算平台提供高度隐私和控制的用户体验。核心功能离线运行: 无需互联网连接即可在本地设备上运行AI模型。多引擎支持: 支持多种AI推理引擎如llama.cpp和TensorRT-LLM提供灵活的后端选择。广泛硬件兼容性: 能够在多种硬件架构上运行从个人电脑到多GPU集群兼容Intel、M1/M2/M3/M4芯片以及Windows、macOS和Linux操作系统。技术原理Jan的核心技术原理在于其对多种高性能AI推理引擎的集成和封装以实现本地化、高效的LLM运行。llama.cpp: 利用llama.cpp项目Jan能够将基于Transformer架构的LLMs如Llama系列优化为可在CPU上高效运行极大降低了对高端GPU的依赖实现了在消费级硬件上的离线推理。其原理包括量化Quantization技术将模型权重从浮点数转换为低精度整数从而减少内存占用和计算量。TensorRT-LLM: 对于NVIDIA GPU用户Jan通过集成TensorRT-LLM利用GPU的并行计算能力进一步加速LLM的推理速度。TensorRT-LLM通过图优化、内核融合和量化等技术为LLM推理提供极致性能。跨平台兼容性: 项目采用通用架构设计可能基于Electron或Tauri等框架构建桌面应用以实现一次开发多平台部署并封装上述推理引擎提供统一的用户界面。应用场景个人AI助手: 用户可以在自己的设备上运行私有AI助手进行文本生成、代码辅助、内容创作等确保数据隐私。研究与开发: 开发者和研究人员可以利用Jan在本地进行LLM模型的测试、微调和实验无需依赖云服务降低成本并提高迭代效率。教育与学习: 学生和教育工作者可以在没有网络连接的情况下使用AI进行学习辅导、编程练习或知识查询。数据敏感环境: 对于处理敏感数据或需要严格数据主权的企业和个人Jan提供了在完全受控的本地环境中运行AI的能力。janhq/jan: Jan is an open source alternative to ChatGPT that runs 100% offline on your computer. Multiple engine support (llama.cpp, TensorRT-LLM)1.LocalAI简介LocalAI 是免费开源的 OpenAI 替代方案作为本地推理的 REST API可实现本地运行大语言模型、生成图像和音频等功能支持多种模型架构能在消费级硬件上运行可本地或内部部署。核心功能模型推理支持多种模型家族和架构可运行大语言模型进行文本生成。多媒体生成具备文本转语音、语音转文本、图像生成等功能。功能调用支持函数调用、嵌入服务等。Web 界面集成 WebUI方便用户交互。技术原理LocalAI 基于多种开源库实现功能如使用llama.cpp、gpt4all.cpp进行文本生成whisper.cpp进行音频转录Stable Diffusion 进行图像生成等。它通过兼容 OpenAI 的 API 规范实现与现有系统的无缝对接。应用场景本地开发测试在本地环境进行 AI 应用的开发和测试无需依赖外部 API。隐私敏感场景处理敏感数据时确保数据不出本地保障隐私安全。个人项目个人开发者在消费级硬件上构建 AI 应用。企业内部应用企业内部部署满足特定业务需求如智能客服、文档处理等。Quickstart | LocalAI documentationmudler/LocalAI: The free, Open Source OpenAI alternative. Self-hosted, community-driven and local-first. Drop-in replacement for OpenAI running on consumer-grade hardware. No GPU required. Runs gguf, transformers, diffusers and many more models architectures. It allows to generate Text, Audio, Video, Images. Also with voice cloning capabilities.1.Replicate大模型托管平台简介Replicate 是一个可通过 API 运行 AI 的平台。平台提供数千个模型支持运行、微调模型及部署自定义模型。有文本嵌入、图像嵌入、多模态嵌入等多种嵌入模型可用于搜索、推荐和聚类还有语言模型可用于对话、问答、文本生成等任务。核心功能运行模型社区已发布数千个可用于生产的模型用户可通过一行代码运行。微调模型用户能使用自己的数据改进模型以创建更适合特定任务的新模型。部署自定义模型用户可使用 Cog 部署自己的自定义模型Cog 负责生成 API 服务器并将其部署到云端。自动扩展根据流量自动调整规模按使用时长计费。技术原理Replicate 利用 Cog 这一开源工具对机器学习模型进行打包生成 API 服务器并部署到云端集群。在模型运行方面对于嵌入模型如 Multilingual E5、CLIP、ImageBind 等通过生成向量表示来捕获文本、图像等的语义信息语言模型则通过大规模数据训练理解和生成自然语言。应用场景搜索与推荐利用嵌入模型的向量表示进行语义搜索和推荐。对话与问答使用语言模型构建聊天机器人、智能客服等进行对话和提供问题答案。文本生成与总结借助语言模型实现文本的自动生成和长文本总结。图像相关应用如使用图像嵌入模型进行图像相似性搜索、聚类以及使用图像生成模型生成特定风格的图像。Replicate — Run AI with an APIGet embeddings – ReplicateUse a language model – Replicate1.SiliconFlow (北京硅基流动)简介硅基流动是高速推理的一站式AI云服务平台拥有全场景产品矩阵可支撑AI应用全流程落地。平台提供开箱即用的大模型API、模型微调与部署托管服务、高效能模型推理加速服务及私有化部署方案还具有多模态模型能力覆盖多场景。核心功能提供大模型API服务覆盖多场景按量计费。支持模型微调与托管无需关注底层资源与运维。提供高效能模型推理加速服务提升响应速度与处理性能。提供企业级私有化部署方案解决模型性能优化、部署与运维痛点。技术原理依托核心推理加速引擎对模型性能进行优化针对不同类型模型如语言、生图、语音等进行针对性加速以实现高速推理和高性价比。应用场景互联网提供内容生成与个性化推荐服务。教育提供智能教学助手规划个性化学习路径。政务提供生成式AI解决方案实现国产化部署。智算中心赋能算力资源调度与优化。AI硬件解决端、云协同的延时痛点。SiliconFlow, Accelerate AGI to Benefit Humanity1.text-generation-webui简介Text generation web UI 是一个基于 Gradio 的大语言模型 Web 界面旨在成为文本生成领域的 stable-diffusion-webui。它支持多种本地文本生成后端具有离线、隐私保护、功能丰富等特点。核心功能多后端支持支持 llama.cpp、Transformers、ExLlamaV3 等多种本地文本生成后端。便捷设置提供便携式构建和一键安装两种方式。离线隐私100% 离线运行无遥测、外部资源或远程更新请求。文件处理支持上传文本、PDF、.docx 文档并进行内容交流。网络搜索可选择使用大语言模型生成的查询进行网络搜索。多模式交互具备指令跟随、聊天等多种交互模式。灵活生成支持多种采样参数和生成选项可在 UI 中切换模型。API 兼容提供与 OpenAI 兼容的 API支持工具调用。扩展支持支持扩展有众多内置和用户贡献的扩展。技术原理该项目基于 Gradio 构建 Web 界面利用多种文本生成后端技术如 llama.cpp 用于高效推理、Transformers 进行模型加载和生成、ExLlamaV3 实现高性能计算。通过自动提示格式化Jinja2 模板简化用户输入使用采样参数和生成选项控制文本生成过程。在模型加载方面支持多种精度如 4 位、8 位、bf16和加速技术如 Flash Attention 2、torch.compile以提高性能。应用场景自然语言处理研究为研究人员提供便捷的模型测试和实验环境。智能客服用于构建基于大语言模型的智能客服系统。内容创作辅助文案撰写、故事创作等内容创作工作。教育领域作为教学工具帮助学生理解和应用大语言模型。oobabooga/text-generation-webui: A Gradio web UI for Large Language Models.2.DeepSpeed-MII简介DeepSpeed 是一个易于使用的深度学习优化软件套件为训练和推理提供前所未有的规模和速度。它助力了 MT - 530B 和 BLOOM 等强大语言模型涵盖训练、推理、压缩等功能支柱还有面向科学领域的 DeepSpeed4Science 计划。同时其 MII 项目让数据科学家轻松实现低延迟、高吞吐量推理。核心功能训练支持数十亿或数万亿参数的密集或稀疏模型训练能高效扩展到数千个 GPU可在资源受限的 GPU 系统上训练。推理实现前所未有的低延迟和高吞吐量可在大规模下进行推理降低成本。压缩提供易于使用和灵活组合的压缩技术减少推理延迟和模型大小。DeepSpeed4Science通过 AI 系统技术创新构建独特功能助力解决科学难题。技术原理训练采用 ZeRO、3D - 并行、DeepSpeed - MoE、ZeRO - Infinity 等创新技术提升大规模深度学习训练的效率和易用性。推理结合张量、管道、专家和 ZeRO 并行等并行技术搭配高性能自定义推理内核、通信优化和异构内存技术。压缩包含 ZeroQuant 和 XTC 等最先进的压缩创新技术。应用场景大规模语言模型训练与推理如 MT - 530B、BLOOM 等。资源受限的 GPU 系统在资源有限的情况下进行训练和推理。科学研究领域借助 DeepSpeed4Science 帮助解决科学难题。DeepSpeed-MII推理加速deepspeedai/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.2.SGLang简介SGLang 是用于大语言模型和视觉语言模型的高性能服务框架通过后端运行时和前端语言协同设计使与模型的交互更快、更可控。它获 a16z 第三批开源人工智能资助在生产环境中每日处理数万亿 token被众多企业和机构采用。核心功能高效后端运行时提供包括 RadixAttention 前缀缓存、零开销 CPU 调度器、预填充 - 解码分离等多种高效服务机制。灵活前端语言为大语言模型应用编程提供直观接口支持链式生成调用、高级提示等。广泛模型支持支持多种生成模型、嵌入模型和奖励模型且易于集成新模型。技术原理SGLang 借鉴多个开源大语言模型服务引擎的设计利用 FlashInfer 的高性能注意力 CUDA 内核集成受 gpt - fast 启发的 torch.compile。还引入 RadixAttention 实现自动 KV 缓存重用以及压缩状态机实现快速约束解码其批调度器用 Python 实现扩展性好。应用场景AI 产品服务为各类 AI 产品提供高效的模型服务如 LMSYS Chatbot Arena 用其支持部分模型。研究实验助力研究机构开展大语言模型和视觉语言模型的相关研究实现更快迭代。sgl-project/sglang: SGLang is a fast serving framework for large language models and vision language models.Achieving Faster Open-Source Llama3 Serving with SGLang Runtime (vs. TensorRT-LLM, vLLM) | LMSYS Org2.fluxgym简介Flux Gym是一个用于训练FLUX LoRA的简易Web UI支持低显存12GB/16GB/20GB。前端基于AI - Toolkit的WebUI后端由Kohya脚本驱动通过高级选项卡支持Kohya sd - scripts的全部功能。支持多种模型模型在训练时自动下载可通过编辑models.yaml文件添加更多模型。核心功能训练功能支持低显存下训练FLUX LoRA可选择多种模型模型自动下载。图像管理可上传图像并添加标题也支持上传标题文件。样本图像生成可配置自动生成样本图像支持高级标志控制图像生成过程。发布功能可将训练好的LoRA发布到Huggingface。高级配置通过高级选项卡支持Kohya sd - scripts的全部功能。技术原理前端采用Gradio UI后端使用Kohya脚本进行训练。通过解析Kohya sd - scripts的启动标志自动构建高级选项卡实现对脚本的全面控制。利用Docker支持容器化部署可自动下载模型支持通过编辑配置文件扩展支持的模型列表。应用场景本地模型训练用户可在本地使用低显存设备训练FLUX LoRA。模型共享将训练好的LoRA模型发布到Huggingface进行共享。模型研究研究人员可通过编辑配置文件添加不同模型进行实验。cocktailpeanut/fluxgym: Dead simple FLUX LoRA training UI with LOW VRAM support2.huggingface-accelerate简介Hugging Face的Accelerate库专为PyTorch用户设计可让用户在不改变大部分代码的情况下将标准PyTorch训练脚本运行在各种单节点或分布式节点设置上支持CPU、GPU、TPU及混合精度训练。核心功能代码简化只需添加少量代码就能使标准PyTorch训练脚本支持多种设备和分布式训练。CLI工具提供命令行工具可快速配置和测试训练环境。多方式启动支持使用MPI进行多CPU运行、使用DeepSpeed进行GPU训练还能在笔记本中启动训练。模型保存提供保存模型的方法。技术原理Accelerate抽象了与多GPU、TPU、混合精度训练相关的样板代码通过Accelerator类处理设备放置、梯度反向传播等操作。用户可通过accelerate config配置训练环境也可在代码中使用插件如DeepSpeedPlugin进行更细致的设置。应用场景模型开发与调试可在本地机器上调试代码无需修改即可在训练环境中运行。分布式训练支持多GPU、多CPU、TPU等分布式训练场景。使用特定框架训练与DeepSpeed等框架集成进行GPU训练。笔记本训练适用于在Colab或Kaggle等笔记本中启动训练。huggingface/accelerate: A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support2.llama-cpp-python简介llama-cpp-python是llama.cpp库的 Python 绑定包提供低级别 C API 访问、高级 Python API、OpenAI 兼容 API、与 LangChain 和 LlamaIndex 兼容等功能。支持多种硬件加速后端可用于文本完成、聊天完成、生成嵌入等任务。核心功能多类型 API 支持提供低级别 C API 访问、高级 Python API、OpenAI 兼容 API。多框架兼容与 LangChain、LlamaIndex 兼容。多种任务支持文本完成、聊天完成、JSON 和 JSON 模式约束、函数调用、多模态处理、推测解码、生成嵌入等。Web 服务器提供 OpenAI 兼容的 Web 服务器具备本地 Copilot 替代、函数调用支持、视觉 API 支持和多模型支持等特性。技术原理绑定技术低级别 API 通过ctypes直接绑定llama.cpp提供的 C API高级 API 基于低级别 API 封装提供更简单的管理接口。硬件加速支持多种硬件加速后端如 OpenBLAS、CUDA、Metal 等通过设置CMAKE_ARGS环境变量或--config-settings标志进行配置。模型处理使用llama.cpp从源构建模型或通过from_pretrained方法从 Hugging Face Hub 下载模型。应用场景自然语言处理文本生成、聊天机器人、问答系统等。开发替代作为 OpenAI API 的本地替代方案用于开发应用程序。多模态处理处理包含文本和图像的多模态输入如图像描述。代码辅助作为本地 Copilot 替代辅助代码编写。abetlen/llama-cpp-python: Python bindings for llama.cpp2.lmdeploy-书生浦源简介LMDeploy 是由 MMRazor 和 MMDeploy 团队开发的用于大语言模型LLM压缩、部署和服务的工具包。具备高效推理、有效量化、轻松部署分布式服务器、交互式推理模式和优秀兼容性等核心特性支持多种大语言模型和视觉语言模型。核心功能高效推理通过持久批处理、分块 KV 缓存等特性实现比 vLLM 高 1.8 倍的请求吞吐量。有效量化支持仅权重和 K/V 量化4 位推理性能比 FP16 高 2.4 倍。轻松部署分布式服务器借助请求分发服务实现多模型服务在多机多卡上的高效部署。交互式推理模式在多轮对话中缓存注意力的 K/V避免重复处理历史会话。优秀兼容性支持 KV 缓存量化、AWQ 和自动前缀缓存同时使用。技术原理LMDeploy 通过引入持久批处理、分块 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 内核等技术实现高效推理支持权重和 K/V 量化通过 OpenCompass 评估确保量化质量利用请求分发服务实现多机多卡的多模型服务部署在多轮对话中缓存注意力的 K/V 来记住对话历史。应用场景大语言模型和视觉语言模型的推理部署。多模型服务在多机多卡上的分布式部署。多轮对话场景如聊天机器人等。InternLM/lmdeploy: LMDeploy is a toolkit for compressing, deploying, and serving LLMs.2.vLLM-伯克利加速库简介vLLM 是一个用于大语言模型推理和服务的高效库具有高吞吐量和内存效率的特点。它能与众多流行的 Hugging Face 模型无缝集成支持 NVIDIA 和 AMD GPU提供了灵活且易用的大语言模型推理和服务解决方案。核心功能高效推理具备先进的服务吞吐量采用 PagedAttention 高效管理注意力键值内存支持连续批量处理请求。灵活使用与 Hugging Face 模型无缝集成支持多种解码算法实现高吞吐量服务支持张量并行分布式推理、流式输出拥有 OpenAI 兼容的 API 服务器。模型支持支持众多架构的 Hugging Face 模型如 Aquila、Baichuan、BLOOM 等。量化支持支持 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache 等量化方式。实验特性支持前缀缓存、多 LoRA。技术原理PagedAttention用于高效管理注意力键值内存提升内存使用效率。CUDA/HIP 图实现快速的模型执行。优化 CUDA 内核提高计算效率。应用场景大语言模型推理服务为各种大语言模型提供高效的推理和服务。分布式推理利用张量并行进行分布式推理。API 服务通过 OpenAI 兼容的 API 服务器为外部提供服务。1.伯克利大学vLLMgithub地址AI-Compasshttps://github.com/tingaicompass/AI-Compassgitee地址AI-Compasshttps://gitee.com/tingaicompass/ai-compass读者福利倘若大家对大模型感兴趣那么这套大模型学习资料一定对你有用。针对0基础小白如果你是零基础小白快速入门大模型是可行的。大模型学习流程较短学习内容全面需要理论与实践结合学习计划和方向能根据资料进行归纳总结包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。大模型实战案例光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。大模型视频和PDF合集这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一跟着老师的思路由浅入深从理论到实操其实大模型并不难。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

AI-Compass LLM推理框架+部署生态：整合顶级加速框架，轻松掌握大模型部署

相关新闻

基于STM32的智能拐杖系统设计（全部资料）

基于STM32的超声波导盲系统设计（完整项目）

DifySandbox 完整使用手册

最新新闻

AI辅助文献综述写作：Paperxie系统架构与实操指南

大模型指纹识别技术：原理、攻防与实战应用

AI冲击下数据岗位重构：国际人才策略与能力原子化实践

STM32与MC6470 IMU的硬件协同与运动控制优化

XWiki路径遍历漏洞CVE-2025-55747复现与深度解析

SpringBoot+Vue家政平台毕设实战：从工程化思维到生产级实现

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻