Open-AutoGLM快速上手:连接手机,用自然语言给AI下指令
Open-AutoGLM快速上手连接手机用自然语言给AI下指令想象一下这个场景你正忙着做饭双手沾满面粉突然想用手机查个菜谱。你对着手机说“打开小红书搜索‘糖醋排骨做法’。” 手机屏幕自动亮起解锁打开小红书App在搜索框输入文字然后开始展示搜索结果——整个过程你一根手指都没动。这不是科幻电影而是今天就能用上的技术。智谱开源的Open-AutoGLM特别是其中的AutoGLM-Phone框架让这一切成为可能。它是一个能“看懂”手机屏幕、听懂你说话、并自动帮你操作手机的AI智能助理。今天我就带你从零开始一步步把这个“手机管家”请到你的电脑和手机上。无论你是想自动化测试、辅助操作还是单纯想体验一下未来感这篇教程都能让你在30分钟内搞定。1. 它能做什么先看看效果在开始动手之前我们先明确一下这个工具到底能帮你做什么。简单来说Open-AutoGLM-Phone是一个基于视觉语言模型的AI手机智能助理框架。这个描述有点技术化我用人话翻译一下它让你的电脑通过AI模型远程控制你的安卓手机并完全理解屏幕上正在发生什么。具体能实现哪些神奇操作呢我举几个例子你就明白了自动化任务你对它说“打开抖音搜索用户‘科技老王’并关注”。AI会自己打开抖音App点击搜索图标输入“科技老王”找到账号点击关注。全程自动。信息查询你说“帮我查一下明天北京的天气然后截图发给我”。AI会打开天气App或浏览器查询天气并自动截图保存。应用操作你说“打开微信找到小王的聊天窗口问他晚上要不要一起吃饭”。AI能识别微信界面找到联系人并模拟输入文字虽然发送可能涉及安全确认。复杂流程你说“打开淘宝搜索‘无线耳机’按销量排序点开第一个商品看看详情”。AI可以完成这一系列连贯操作。它的核心能力是“多模态理解”——不仅能“看到”手机屏幕视觉还能“理解”你的自然语言指令语言然后规划并执行一系列操作。你不再需要记住App的每个按钮位置也不需要一步步手动操作用说话的方式就能控制手机。2. 准备工作电脑和手机都要准备好要让AI控制你的手机我们需要在两端都做些准备电脑端安装控制程序手机端开启调试权限。别担心每一步我都会详细说明。2.1 电脑端安装ADB工具ADBAndroid Debug Bridge是安卓调试桥简单理解就是电脑和手机之间的“数据线遥控器”。我们需要先把它装到电脑上。Windows用户看这里下载ADB工具包访问Android开发者官网的平台工具下载页面下载Windows版本的压缩包比如platform-tools-latest-windows.zip。解压到方便的位置比如解压到D:\platform-tools。记住这个路径。配置环境变量关键步骤在桌面或开始菜单右键点击“此电脑”选择“属性”。点击“高级系统设置”。点击“环境变量”。在“系统变量”区域找到并选中名为Path的变量点击“编辑”。点击“新建”然后输入你刚才解压的文件夹路径例如D:\platform-tools。一路点击“确定”保存。验证安装按下Win R输入cmd打开命令提示符然后输入adb version如果显示类似Android Debug Bridge version 1.0.41的版本信息恭喜你ADB安装成功macOS用户看这里下载ADB工具包同样从上述链接下载macOS版本platform-tools-latest-darwin.zip。解压将压缩包解压比如放到~/Downloads/platform-tools目录。临时配置环境变量推荐打开“终端”Terminal输入以下命令请根据你的实际解压路径调整export PATH$PATH:~/Downloads/platform-tools这样在当前终端窗口就可以使用adb命令了。如果想永久生效可以把这行命令添加到~/.zshrc或~/.bash_profile文件末尾。2.2 手机端开启调试模式现在轮到手机了。我们需要让手机允许被电脑调试和控制。开启开发者选项几乎所有安卓手机通用打开手机的“设置”。找到“关于手机”或“我的设备”。连续快速点击“版本号”7次左右直到屏幕提示“您已处于开发者模式”。开启USB调试返回设置现在你应该能看到多出了一个“开发者选项”或“系统开发者选项”。进入“开发者选项”。找到“USB调试”或“Android调试”打开它。小米/Redmi手机特别注意在开发者选项里可能还需要额外打开“USB调试安全设置”和“USB安装”。这很重要否则后续可能无法控制。安装ADB键盘关键 AI需要能在你的手机上“打字”所以我们要安装一个特殊的输入法。在电脑浏览器打开这个链接下载APK文件ADBKeyboard.apk。用USB数据线连接手机和电脑。在手机弹出的“USB用于...”选项中选择“传输文件”或“MTP”。将下载的ADBKeyboard.apk文件复制到手机里。在手机上找到这个APK文件并安装。安装时如果提示“禁止安装未知来源应用”去设置里临时允许即可。安装完成后进入手机“设置” - “系统管理/更多设置” - “语言与输入法” - “虚拟键盘/当前输入法”。将默认输入法切换为“ADBKeyboard”。连接测试 在电脑的命令行刚才的cmd或终端里输入adb devices你会看到类似下面的输出List of devices attached abcdef123456 device那个abcdef123456就是你的设备ID后面显示device就表示连接成功如果什么都没显示或显示unauthorized请检查USB线是否插好以及手机上是否弹出了“允许USB调试吗”的提示点击“允许”。3. 部署控制大脑获取Open-AutoGLM代码ADB是“手”能让电脑控制手机点击。接下来我们需要“大脑”——也就是AI模型和决策程序。这里我们使用智谱开源的项目。克隆项目代码在你的电脑上找一个合适的文件夹比如D:\Projects打开命令行执行git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM这会把最新的代码下载到本地。安装Python依赖该项目基于Python我们需要安装它需要的各种“零件”。# 使用国内镜像源加速下载 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt # 安装核心的phone_agent模块 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .等待安装完成没有报红字错误就是成功了。4. 连接AI模型选择你的“智慧源泉”“大脑”的程序有了还需要“知识”。我们需要让程序连接到一个真正的AI大模型。这里有两个主流选择推荐新手使用方案一无需自己准备昂贵的显卡。4.1 方案一使用第三方模型服务推荐无显卡要求我们直接调用现成的在线AI服务就像使用ChatGPT的API一样。A. 智谱AIBigModel.cn步骤访问 智谱AI开放平台注册账号在控制台申请一个API Key。参数--base-url:https://open.bigmodel.cn/api/paas/v4--model:autoglm-phone--apikey: 你申请到的API Key字符串B. 魔搭ModelScope步骤访问 魔搭社区注册账号在个人中心“API-KEY管理”中创建并复制Key。参数--base-url:https://api-inference.modelscope.cn/v1--model:ZhipuAI/AutoGLM-Phone-9B--apikey: 你申请到的API Key字符串这两个选一个就行看你哪个平台注册和使用更方便。我后续演示以智谱AI为例。4.2 方案二本地部署模型高玩可选需显卡如果你有一张显存足够大建议24GB以上的NVIDIA显卡也可以把模型下载到本地电脑运行这样速度更快且没有网络依赖。具体部署方法涉及下载约20GB的模型文件和使用vLLM等推理框架可以参考项目的官方文档。本篇教程主要面向快速上手我们优先使用更简单的方案一。5. 发号施令让AI开始工作万事俱备只欠指令。现在让我们给AI下达第一个命令。确保你的手机通过USB连接电脑并且adb devices能正确识别设备。打开命令行进入之前下载的Open-AutoGLM文件夹然后运行如下命令请替换为你自己的API Key# 如果你使用智谱AI python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your-bigmodel-api-key-here \ 打开抖音搜索抖音号为 dycwo11nt61d 的博主并关注他 # 如果你使用魔搭ModelScope python main.py \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey your-modelscope-api-key-here \ 打开抖音搜索抖音号为 dycwo11nt61d 的博主并关注他命令解释--base-url和--model告诉程序去哪里、找哪个AI模型。--apikey你的通行证证明你有权使用这个模型。最后引号里的字符串就是你给AI下的自然语言指令想让它做什么就写什么。运行命令后你会看到命令行开始输出日志。同时你的手机屏幕会自己亮起、解锁如果设置了锁屏密码这里可能需要手动输入一次、打开抖音、执行搜索和关注操作。第一次看到手机会自己动起来感觉非常奇妙你可以尝试其他指令比如“打开美团搜索附近的火锅店”“打开微信进入朋友圈往下滑动10次”“打开设置找到‘电池’选项点进去”6. 进阶技巧与问题排查成功运行一次后你可能想玩点更花的或者遇到了一些小麻烦。这部分帮你解决。6.1 使用Python API进行更灵活的控制除了命令行你还可以写Python脚本更精细地控制AI代理。下面是一个简单的示例from phone_agent.adb import ADBConnection, list_devices # 1. 创建连接管理器 conn ADBConnection() # 2. 连接你的设备先用USB连一次获取IP或直接使用USB # 方式一USB直连设备ID从 adb devices 获取 success, message conn.connect(abcdef123456) # 替换为你的设备ID print(fUSB连接状态: {message}) # 方式二WiFi连接先USB后切换 # 先用USB执行adb tcpip 5555 # 然后断开USB执行 success, message conn.connect(192.168.1.100:5555) # 替换为你的手机IP print(fWiFi连接状态: {message}) # 3. 列出所有已连接的设备检查用 devices list_devices() for device in devices: print(f发现设备: {device.device_id} - 连接方式: {device.connection_type.value}) # 之后你可以将conn对象传递给AI代理进行任务执行 # 具体AI任务执行需要结合phone_agent的其他模块这里展示的是连接部分6.2 常见问题与解决方法问题adb devices显示unauthorized解决检查手机屏幕应该会弹出“允许USB调试吗”的对话框勾选“始终允许”然后点击“确定”。问题运行命令后手机没反应命令行报错连接失败解决确认USB线是数据线而非仅充电线。可以换一根线试试。确认手机开发者选项中的“USB调试”和“USB调试安全设置”小米手机已打开。在电脑设备管理器中检查手机驱动是否正常安装。问题AI执行到一半停了或者操作错误比如点错按钮解决AI模型并非100%准确它对屏幕的理解可能受截图清晰度、界面复杂度影响。可以尝试指令更明确比如“打开抖音点击底部导航栏的‘我’选项卡”比“打开个人主页”更精确。分步执行将一个复杂任务拆成几个简单指令依次执行。人工接管框架支持在登录、验证码等敏感环节暂停让你手动操作之后AI再继续。问题提示“屏幕被标记为敏感屏幕黑屏无法操作”解决这通常发生在银行、支付类App或某些App的启动加载页。这是框架的安全机制防止在密码输入等界面误操作。可以等待该界面加载完成。手动点击跳过或进入主界面后再让AI继续。确认是否所有必要的权限如“显示在其他应用上层”都已授予给相关App或ADB工具。7. 总结与展望跟着上面的步骤走一遍你现在应该已经拥有了一个能听你话、自动操作手机的AI助理了。我们来回顾一下核心要点核心价值Open-AutoGLM-Phone 将先进的视觉语言模型与手机自动化控制结合实现了“自然语言指令 - 自动屏幕理解 - 自动操作执行”的闭环。它不再是简单的脚本录制回放而是真正能“看懂”并“思考”的智能体。关键步骤成功部署离不开三步——电脑装ADB、手机开调试并装ADB键盘、代码连接AI云服务。每一步的细节都至关重要。应用场景自动化测试开发者可以用它进行复杂的App UI自动化测试用自然语言描述测试用例。无障碍辅助为行动不便的用户提供语音控制手机的新方式。个人效率工具自动化日常重复性手机操作如定时打卡、信息收集、内容发布等。研究与探索作为多模态AI和具身智能Embodied AI的一个绝佳实验平台。这个项目目前仍处于快速发展期它的能力边界正在被不断拓展。你可以尝试给它更复杂的指令观察它的规划和执行能力。未来随着模型能力的提升或许我们真的可以只动动嘴就让手机完成所有复杂工作。动手试试吧从一句简单的“打开天气应用”开始感受AI为你“打工”的乐趣。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻

cv_unet_image-colorization镜像免配置:预装依赖+自动CUDA检测+开箱即用的Docker镜像说明

cv_unet_image-colorization镜像免配置:预装依赖+自动CUDA检测+开箱即用的Docker镜像说明

cv_unet_image-colorization镜像免配置:预装依赖自动CUDA检测开箱即用的Docker镜像说明 你是否遇到过这样的场景?翻出一张珍贵的黑白老照片,想让它重现当年的色彩,却发现要么需要复杂的软件操作,要么得把照片上传到网…

2026/7/5 1:39:11 阅读更多 →
Dify私有化部署必须跨过的3道生死线:网络策略闭环、模型权重离线校验、联邦学习数据不出域——错过即合规风险

Dify私有化部署必须跨过的3道生死线:网络策略闭环、模型权重离线校验、联邦学习数据不出域——错过即合规风险

第一章:Dify私有化部署的企业级合规认知全景在金融、政务、医疗等强监管行业,AI应用落地的前提是满足数据主权、隐私保护与审计可追溯等核心合规要求。Dify私有化部署并非单纯的技术迁移,而是企业构建AI治理闭环的关键基础设施决策&#xff0…

2026/7/5 1:39:29 阅读更多 →
开源可部署+国产化适配:Lychee-Rerank在麒麟V10+海光C86平台部署记录

开源可部署+国产化适配:Lychee-Rerank在麒麟V10+海光C86平台部署记录

开源可部署国产化适配:Lychee-Rerank在麒麟V10海光C86平台部署记录 1. 项目背景与价值 在信息检索和文档处理领域,相关性评分是一个核心且关键的技术环节。传统的云端API服务虽然方便,但存在数据隐私、网络依赖和使用成本等问题。Lychee-Re…

2026/7/3 13:39:44 阅读更多 →

最新新闻

Minecraft服务器包创建终极指南:5分钟自动化部署解决方案

Minecraft服务器包创建终极指南:5分钟自动化部署解决方案

Minecraft服务器包创建终极指南:5分钟自动化部署解决方案 【免费下载链接】ServerPackCreator Create a server pack from a Minecraft Forge, NeoForge, Fabric, LegacyFabric or Quilt modpack! 项目地址: https://gitcode.com/gh_mirrors/se/ServerPackCreator…

2026/7/5 1:38:20 阅读更多 →
Python异步代理池实战:从requests阻塞到httpx.AsyncClient,爬虫效率翻倍的踩坑记录

Python异步代理池实战:从requests阻塞到httpx.AsyncClient,爬虫效率翻倍的踩坑记录

一、起因:代理验证拖垮了整个采集系统先交代一下背景。我在一家电商公司做数据采集,核心系统是竞品价格监控——每天爬天猫、京东、拼多多的商品价格,日采集量在几十万到百万级。刚开始做的时候,代理管理这块是比较粗糙的——抓了…

2026/7/5 1:36:20 阅读更多 →
因为刷短视频导致流量费用每个月暴涨5块钱

因为刷短视频导致流量费用每个月暴涨5块钱

上个月有一天流量使用了10G,这几乎不太可能,但是也不是完全不可能。如果120K/s 9个小时不停下载--------------目前就是这个状态。然后就会有4G/天 流量花费一个月下来就是120G,本身流量只有20G,虽然剩下流量不限量,但…

2026/7/5 1:34:19 阅读更多 →
【无人机】基于玻尔兹曼引导的 Q 学习用于在受洪水影响的无线网络中优化 3D 无人机部署附matlab代码

【无人机】基于玻尔兹曼引导的 Q 学习用于在受洪水影响的无线网络中优化 3D 无人机部署附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、算法改进、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现私信🍊个人信条:做科研,博学之、审问之、慎思之、明辨之、…

2026/7/5 1:34:19 阅读更多 →
【无人机动态避障】基于金豺优化算法GJO融合动态窗口法DWA的无人机三维动态避障方法研究MATLAB代码

【无人机动态避障】基于金豺优化算法GJO融合动态窗口法DWA的无人机三维动态避障方法研究MATLAB代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、算法改进、程序设计科研仿真。 🍎完整代码获取 定制创新 论文复现私信 🍊个人信条:做科研,博学之、审问之、慎思之、明辨…

2026/7/5 1:30:17 阅读更多 →
Anthropic Fable 5 Cyber Jailbreak Severity:AI越狱统一评级体系深度解析

Anthropic Fable 5 Cyber Jailbreak Severity:AI越狱统一评级体系深度解析

引言:AI安全的"CVSS时刻" 2026年7月3日,Anthropic正式发布了**Cyber Jailbreak Severity(CJS)**评级体系——这是全球首个针对AI模型"越狱"行为严重程度的标准化评估框架。同一天,Fable 5在经历18天出口管制后重新上线,搭载了一套全新的多层级安全防…

2026/7/5 1:30:17 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻