VibeVoice 作为微软开发的文本转语音工具核心优势在于支持 4 个不同角色的语音生成每个角色有专属声线还能根据文本内容匹配喜怒哀乐的情绪1.5B 模型可生成 90 分钟连续语音适配剧本杀配音、自媒体音频创作、企业培训课件制作等场景尤其适合剧本杀工作室、自媒体创作者、企业培训人员这类需要多角色、长时长语音的人群搭配 ComfyUI 可视化操作后无需编程基础也能调整参数降低了专业配音的门槛。使用 VibeVoice 时发现想要生成贴合角色的语音参考音频的选择很关键30 秒的清晰参考音频能让克隆的声音更贴近原型另外硬件方面建议搭配 8G 以上显存的 NVIDIA 显卡否则 7B 模型容易出现显存不足的情况日常使用中先测试短文本生成效果再扩展到长篇内容会更稳妥。不过 VibeVoiceComfyUI 的组合默认只能在局域网内使用比如剧本杀工作室的创作者在家调好的配音参数出门后想在手机上修改台词就做不到团队协作时编剧改了剧本配音师只能等文件传输完成才能试听效果跨设备操作也受限于局域网比如电脑上生成一半的音频平板无法接续编辑大大影响了创作效率。而将 VibeVoiceComfyUI 与 cpolar 内网穿透结合后这些问题都能解决通过 cpolar 生成的公网地址无论在家、地铁还是外出办公都能随时访问语音生成项目团队成员无需来回传文件共享链接就能实时试听、调整配音效果跨设备切换也毫无阻碍电脑、平板、手机都能操作还能给链接设置密码保障配音方案的安全性让创作不受空间和设备的限制。自己就是一个团队无论是自己做账号还是接单子赚钱。这个工具组合可是妥妥的生产力教程在下面快去安装挣钱吧本文将详细介绍如何借助 cpolar 内网穿透结合 VibeVoice 搭建可随时随地访问的多角色音频生成平台并以 4 角色对话实战演示突破传统 TTS 在多说话人场景下的限制。1 项目概述1.1 什么是VibeVoiceVibeVoice 是微软开发的一款先进文本转语音TTS模型专注于长对话场景的高质量语音生成。它的核心特点包括支持多达 4 个不同角色每个角色拥有独特声音能够生成长时间连续对话1.5B 模型可生成约 90 分钟Large 模型约 45 分钟具备丰富的情感表达能力可根据文本自动调整语调与情感色彩支持中英文语音生成并具备跨语言迁移能力同时支持实时流式音频输出提升互动体验。VibeVoice 适用于多角色剧本、长篇故事朗读以及虚拟助手等场景。1.2 什么是ComfyUIComfyUI 是一个基于节点的可视化界面工具主要用于构建和管理深度学习模型的推理流程。它通过拖拽式节点连接将模型加载、数据处理、图像生成等环节直观地呈现出来使用户无需编写大量代码即可搭建复杂的 AI 流程。ComfyUI 支持多种扩展节点和自定义功能可以灵活集成第三方模型和插件同时提供实时预览和调试功能极大降低了深度学习模型操作的门槛适合研究者、创作者以及开发者进行快速原型设计和实验。2 环境安装重要提示确保您的系统满足以下要求否则可能导致安装失败或运行异常。环境项要求说明操作系统Windows 10/11推荐Python版本3.11内存至少 8GB RAM推荐 16GB 以上存储空间至少 20GB 可用空间模型文件较大网络环境稳定的网络连接用于下载模型和依赖显卡要求NVIDIA GPU建议 8GB 显存及以上RTX 20 系列及以上显卡驱动NVIDIA 驱动 531 及以上示例环境580.97CUDA版本CUDA 12需与 PyTorch/FlashAttention 版本对应PyTorch版本2.8.0已编译支持 cu128即 CUDA 12.8对应 wheel 包torch2.8cu128资料打包下载含 FlashAttention 2.7.4、VibeVoice 模型1.5B、参考音频百度网盘https://pan.baidu.com/s/1IxFfB0SKPiQuIIbiZfKwBQ?pwd7au3提取码7au32.1 安装FlashAttention2FlashAttentionflash_attn是一种针对Transformer 模型中注意力机制 (Attention)的高效实现它的主要作用是让大模型推理和训练更快、更省显存。官方GitHub发布页地址https://github.com/mjun0812/flash-attention-prebuild-wheels/releases本教程演示安装的FlashAttention版本为2.7.4在选择Flash-Attention时需要查看您的显卡驱动支持的CUDA版本信息在CMD中输入nvidia-smi可以看到当前CUDA版本显示13.0支持向下兼容一些的在发布页下下载对应你系统环境的whl包将文件下载至本地flash_attn-2.7.4cu128torch2.8-cp311-cp311-win_amd64.whl环境要求解析cp311-cp311→ 说明需要Python 3.11torch2.8→ 说明需要PyTorch 2.8.0cu128→ 说明需要CUDA 12.8PyTorch 要用对应的 CUDA 编译版本win_amd64→ 说明需要Windows 64 位系统首先需要检查当前电脑的python环境在cmd中输入如下命令检查python --version可以看到已经是python 3.11.4的版本。如果没有安装python,可前往官网进行安装https://www.python.org/downloads/接下来需要检查 PyTorch 版本同样打开cmd执行:#1.输入python回车python#2.然后输入如下命令importtorch print(torch.__version__)如果没有安装 PyTorch 显示应如下需要执行如下命令进行安装即可pipinstalltorch2.8.0cu128 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128接下来需要安装FlashAttention2.7.4在前面已经下载的适配环境的 wheel 文件目录下打开CMD然后输入如下命令进行安装pipinstallflash_attn-2.7.4cu128torch2.8-cp311-cp311-win_amd64.whl检查版本信息确认安装pythonimportflash_attn print(flash_attn.__version__)成功安装3 ComfyUI工作流项目安装部署官方GitHub仓库地址https://github.com/comfyanonymous/ComfyUI以windows为例首先使用git命令将项目克隆至本地cmd执行命令git官网地址https://git-scm.com/downloadsgitclone https://github.com/comfyanonymous/ComfyUI.git接着继续在该窗口依次执行如下命令安装所需依赖cdComfyUI pipinstall-r requirements.txt安装完成依赖后执行如下命令进行启动测试python main.py --listen0.0.0.0 --port18188可以看到成功启动了端口为 18188为了后续方便启动可以写一个bat脚本将命令放入其中后续双击脚本就可以直接启动可以看到输出了如下信息To see the GUI go to: http://0.0.0.0:18188让我们访问浏览器进行测试#上面显示的0.0.0.0 通常表示绑定到本机的所有网络接口因此它可以通过本机的任何有效IP地址包括localhost或127.0.0.1来访问。http://localhost:18188可以看到成功访问啦4 ComfyUI-VibeVoice项目部署ComfyUI-VibeVoice 是一个为ComfyUI开发的自定义插件它集成了微软的VibeVoice文本转语音TTS模型能够实现高质量、多说话人的语音合成与零样本语音克隆。用户只需输入文本并提供参考音频就可以快速生成风格一致、自然流畅的语音同时支持多角色对话、长篇内容生成并提供多种注意力机制和 4-bit 量化以优化性能适合在播客制作、对话配音、AI 语音实验等场景中使用。4.1 克隆项目代码在前面的步骤已经部署好了ComfyUI工作流项目。接下来需要打开如下目录#前面项目clone下来的位置D:\AI\ComfyUI\custom_nodes在该目录下打开命令终端使用git命令将项目克隆下来gitclone https://github.com/wildminder/ComfyUI-VibeVoice.git然后接着执行如下命令下载该项目相关依赖cdComfyUI-VibeVoice pipinstall-r requirements.txt5 ComfyUI 中配置和使用 VibeVoice实战双击启动前面在ComfyUI目录中创建的StartComfyUI-WEB.bat脚本如果前面启动了没有停止窗口需要先停止启动的窗口启动后在浏览器中访问ComfyUI项目然后依次如下图选择或直接按快捷键 Ctrl O接着进入到如下目录选择VibeVoice_example.json文件然后点击打开D:\AI\ComfyUI\custom_nodes\ComfyUI-VibeVoice\example_workflows打开后可以看到如下图显示接着随意上传两个参考音频然后给定一段对话这里使用的是AI生成的杨幂和海绵宝宝的对话Speaker1: 哈哈海绵宝宝听说你在水下的生活非常有趣能和我们分享一下吗 Speaker2: 哇哦杨幂当然可以我每天都在比奇堡和我的朋友们一起玩最喜欢的就是和派大星一起做冒险了 Speaker1: 这听起来真的很有趣那你觉得派大星最搞笑的地方是什么 Speaker2: 哇派大星真的很搞笑他总是那么天真无邪做事常常没有任何计划总是带给我们惊喜和笑声 Speaker1: 哈哈感觉你们的冒险一定很欢乐。我想知道海绵宝宝你有做过什么特别的事情吗 Speaker2: 当然我曾经当过餐厅经理在蟹堡王工作每天都忙得不亦乐乎。不过最特别的还是我做的蟹堡大家都说我做的最美味模型选择首次如果没有该模型会自动进行下载也可以直接手动下载模型放入如下文件夹D:\AI\ComfyUI\models\tts\VibeVoice完成本地流程配置后我们将通过 cpolar 将该工作流对外发布便于跨设备访问与共享。如下为1.5B模型生成,点击可进行试听您的浏览器不支持 audio 元素。以下为7B模型开启量化功能后生成推理的语音3060ti的8G显存无法完全加载7B模型您的浏览器不支持 audio 元素。6 使用 cpolar 将 ComfyUI 安全暴露到公网6.1 为什么要穿透comfyUI借助 cpolar 内网穿透我们无需公网 IP 与路由配置即可将本地 ComfyUI 服务稳定、安全地发布到公网支持 HTTPS 与固定二级域名。很多时候我们在本地电脑或者服务器上部署了 ComfyUI但又希望能随时从其他设备访问比如远程调试、和同事协作修改节点或者在不同地方展示模型生成效果。问题是 ComfyUI 默认只能在本地访问外网根本无法连接这就让远程使用变得非常麻烦需要复杂的路由设置或者固定公网 IP。通过内网穿透工具如 cpolar我们可以把本地的 ComfyUI 安全地映射到公网生成一个随时可用的公网地址。这样无论身处何地都能轻松访问和操作 ComfyUI实现远程协作和展示而不必再为网络配置烦恼。6.2 什么是 cpolar内网穿透cpolar 是一款内网穿透工具可以将你在局域网内运行的服务如本地 Web 服务器、SSH、远程桌面等通过一条安全加密的中间隧道映射至公网让外部设备无需配置路由器即可访问。广泛支持 Windows、macOS、Linux、树莓派、群晖 NAS 等平台并提供一键安装脚本方便部署。6.3 下载cpolar打开cpolar官网的下载页面https://www.cpolar.com/download点击立即下载 64-bit按钮下载cpolar的安装包下载下来是一个压缩包解压后执行目录中的应用程序一路默认安装即可安装完成后打开cmd窗口输入如下命令确认安装cpolar version出现如上版本即代表安装成功安装完成后cpolar 将作为本方案“公网访问能力”的关键基础贯穿后续所有远程访问与协作场景。6.4注册及登录cpolar web ui管理界面6.4.1 注册cpolar官网链接https://www.cpolar.com/访问cpolar官网点击免费注册按钮进行账号注册注册页面6.4.2 访问web ui管理界面注册完成后,在浏览器中输入如下地址访问 web ui管理界面:http://127.0.0.1:9200输入刚才注册好的cpolar账号登录即可进入后台页面:6.5 使用 cpolar 穿透 ComfyUI 的 WebUI 界面前面可以看到comfyUI的WebUI的界面端口显示为18188所以我们需要将该端口进行穿透以支持咱们公网访问6.5.1 随机域名方式(免费方案)使用 cpolar 的随机域名方式适合预算有限的用户。使用此方式时系统会每隔24 小时左右自动更换一次域名地址。对于长期访问的不太友好但是该方案是免费的如果您有一定的预算可以查看大纲6.5.2 的固定域名方式且访问更稳定。点击左侧菜单栏的隧道管理展开进入隧道列表页面页面下默认会有 2 个隧道ssh隧道指向22端口tcp协议website隧道指向8080端口http协议http协议默认会生成2个公网地址一个是http另一个https免去配置ssl证书的繁琐步骤点击website隧道的编辑按钮填写如下信息注意每个用户创建的隧道显示的公网地址都不一样接着点击左侧菜单的状态菜单接着点击在线隧道列表菜单按钮可以看到有2个comfyui-18188的隧道一个为 http 协议另一个为 https 协议接下来在浏览器中访问 website 隧道生成的公网地址http 和 https 皆可这里以https为例可以看到成功访问啦6.5.2 固定域名方式升级套餐通过 cpolar 的固定二级子域名方式升级套餐可获得稳定不变的公网地址便于长期访问与对外分享。进入官网的预留页面https://dashboard.cpolar.com/reserved列表中显示了一条已保留的二级子域名记录地区显示为China Top。二级域名显示为comfyui01。注二级域名是唯一的每个账号都不相同请以自己设置的二级域名保留的为主进入侧边菜单栏的隧道管理下的隧道列表可以看到名为comfyui-18188的隧道点击编辑按钮进入编辑页面修改域名类型为二级子域名然后填写前面配置好的子域名点击更新按钮来到状态菜单下的在线隧道列表可以看到隧道名称为comfyui-18188的公网地址已经变更为二级子域名固定域名主体及后缀的形式了这里以https协议做访问测试:访问成功至此依托 cpolar我们已将本地 ComfyUI 服务稳定发布到公网便于团队远程协作与外部演示。6.6 给ComfyUI添加授权验证由于ComfyUI服务的WebUI界面无需登录即可进行访问为了保护个人的隐私即安全cpolar的隧道服务支持给网站添加授权验证功能防止您部署在家中的ComfyUI服务被滥用。首先打开隧道列表点击编辑comfyui-18188的隧道然后点击高级按钮展开按照如下图进行配置点击更新按钮后访问穿透的地址可以发现需要授权验证这样一个可以随时访问且带有安全性的ComfyUI的工作流网页端就弄好啦7 三人对话和四人对话测试7.1 三人对话首先准备一段对话内容Speaker 1: 大家好好久不见了我们今天终于可以好好聊聊了。 Speaker 2: 是啊最近工作太忙了终于能和大家放松一下了。 Speaker 3: 哈哈你们有没有发现我们三个凑在一起话题根本停不下来。 Speaker 1: 最近我在拍一部古装剧造型超级复杂每天都要花三个小时化妆。 Speaker 2: 哇那也太辛苦了我最近在做新歌demo熬夜熬到快失眠了。 Speaker 3: 看来大家都很拼啊我这边刚从巡演回来现在只想休息睡觉。这里的Speaker 1和Speaker 2以及Speaker 3分别对应的参考音频如下Speaker 1杨幂Speaker 2蔡徐坤Speaker 3王俊凯让我们试听一下3人对话的效果您的浏览器不支持 audio 元素。由于演示的windows系统3060ti显卡显存为8G推理 7B 模型内存会超出所以这边就不做7B的演示了7.2 四人对话在前面的对话内容基础上添加一个新的角色Speaker 4,这里使用的参考音频为Speaker 4林志玲Speaker 1: 大家好好久不见了我们今天终于可以好好聊聊了。 Speaker 2: 是啊最近工作太忙了终于能和大家放松一下了。 Speaker 3: 哈哈你们有没有发现我们四个凑在一起话题根本停不下来。 Speaker 4: 听到你们的声音我就觉得特别温暖今天一定要聊个尽兴 Speaker 1: 最近我在拍一部古装剧造型超级复杂每天都要花三个小时化妆。 Speaker 2: 哇那也太辛苦了我最近在做新歌demo熬夜熬到快失眠了。 Speaker 3: 看来大家都很拼啊我这边刚从巡演回来现在只想休息睡觉。 Speaker 4: 我和你们比轻松多了最近主要在做一些公益活动也蛮充实的。让我们试听一下4人对话的效果您的浏览器不支持 audio 元素。可以看到4人对话的效果也是非常不错的都是演示了2轮对话。推理显示用了 180s 左右还是很不错的总结VibeVoice 凭借多角色、长时长、带情绪的语音生成能力解决了多场景下音频创作的核心痛点ComfyUI 则让操作门槛大幅降低但局域网使用的局限确实制约了创作的灵活性。而 cpolar 内网穿透的加入恰好补齐了这一短板实现了 VibeVoice 创作场景的延伸 —— 无论是个人创作者随时随地调整配音脚本还是团队协作实时优化音频效果都能高效完成。这套组合并非单纯的技术叠加而是从实际创作需求出发让多角色语音生成从 “只能固定地点操作” 变成 “随时随地可创作”真正适配了剧本杀、自媒体、企业培训等场景的实际使用需求为音频内容创作提供了更灵活、更实用的解决方案。感谢您阅读本篇文章有任何问题欢迎留言交流。cpolar官网-安全的内网穿透工具 | 无需公网ip | 远程访问 | 搭建网站