5分钟上手Open-AutoGLM,手机AI助手一键部署指南
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的手机自动化操作。用户可通过简单配置,让AI理解屏幕内容并执行点击、输入、搜索等指令,典型应用于微信批量消息发送、电商比价、快递查询等高频手机任务,显著提升移动端操作效率。
5分钟上手Open-AutoGLM,手机AI助手一键部署指南
1. 这不是遥控器,是你的手机“数字分身”
你有没有过这样的时刻:
- 想批量给20个微信好友发节日祝福,却卡在点开对话框的第3步;
- 看到小红书一篇美食攻略,想立刻搜同款但懒得手动打字;
- 电商大促时要反复刷新页面抢券,手指点到发麻……
这些重复、琐碎、需要“看图+思考+点击”三步联动的操作,现在只需要一句话就能交给AI完成。
Open-AutoGLM 就是这样一个能真正“看懂屏幕、听懂人话、动手执行”的手机智能助理框架。它不依赖App内嵌SDK,不强制Root,也不需要你写一行自动化脚本——你只管说:“打开美团搜‘附近2公里内的川菜馆’”,它就会自动截图、理解界面、定位搜索框、输入文字、点击搜索,全程无需你碰手机。
这不是概念演示,而是已开源、可本地运行、支持真机实操的完整方案。本文将带你跳过所有弯路,用5分钟完成从零到第一次成功执行指令的全过程。没有术语堆砌,没有环境踩坑预警,只有清晰、可复制、一步一验证的操作路径。
2. 为什么这次部署特别简单?
很多AI自动化工具失败,不是因为模型不行,而是卡在“连接不上手机”或“装完跑不起来”。Open-AutoGLM 的设计恰恰绕开了这些经典陷阱:
- 不依赖手机端App安装:所有逻辑在电脑端运行,手机只需开启调试模式,零安装负担;
- ADB配置一次,终身复用:后续所有AI任务都复用同一套ADB连接,不用每次重配;
- 模型服务与控制端解耦:你可以用免费云服务(如z.ai)直接调用,完全跳过本地GPU部署;
- 中文指令开箱即用:不需要学英文提示词,说“点右下角红色购物车图标”就能识别坐标并点击。
换句话说:你不需要是Android开发工程师,也不需要有4090显卡,只要有一台能连手机的电脑、一部安卓手机,和5分钟专注时间,就能让AI开始帮你点手机。
3. 三步极简部署:USB直连版(推荐新手)
适用场景:首次尝试、快速验证效果、无公网IP、无GPU设备
⏱ 预计耗时:4分30秒(含等待时间)
3.1 第一步:让电脑“认出”你的手机(1分钟)
这一步是整个流程的地基,但90%的问题都出在这里。请严格按顺序操作:
- 手机端开启开发者模式:
- 打开「设置」→「关于手机」→连续点击「版本号」7次 → 弹出“您现在是开发者”提示;
- 开启USB调试:
- 返回设置主菜单 → 找到并进入「开发者选项」→ 开启「USB调试」;
- 关键补充:部分华为/小米机型还需开启「USB调试(安全设置)」;
- 用数据线连接电脑:
- 务必使用能传数据的USB线(很多充电线不行);
- 连接后手机弹窗点「允许」,勾选「始终允许」;
- 电脑端验证连接:
- 打开终端(Windows用PowerShell,Mac/Linux用Terminal),输入:
adb devices - 正确输出应为:
出现一串字母数字 +List of attached devices ABCDEFGHIJKLMNOP devicedevice,说明连接成功;
若显示unauthorized,请断开重连并重新授权;
若为空白,请检查USB线、重启ADB服务(adb kill-server && adb start-server)。
- 打开终端(Windows用PowerShell,Mac/Linux用Terminal),输入:
3.2 第二步:一键拉起AI代理(2分钟)
跳过所有编译、下载、配置环节,我们直接用现成的云模型服务启动控制端:
-
克隆代码并安装基础依赖:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .这步仅需下载约3MB的Python包,30秒内完成。
-
用免费云服务跑通第一条指令(无需GPU):
访问 z.ai 注册账号,获取免费API Key(新用户送额度)。然后在终端中执行:python main.py \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b-multilingual \ --apikey YOUR_API_KEY_HERE \ "打开Chrome浏览器,搜索'Open-AutoGLM GitHub'"- 替换
YOUR_API_KEY_HERE为你实际的Key; - 命令执行后,你会看到:
- 手机屏幕自动截屏;
- 终端打印AI对当前界面的理解(如“屏幕上显示Chrome图标”);
- 自动点击Chrome图标 → 启动浏览器 → 点击搜索框 → 输入文字 → 点击搜索。
全程无需人工干预,5-15秒内完成。
- 替换
3.3 第三步:亲手发一条指令(30秒)
别停留在示例。现在就试试你自己的需求:
- 想查快递?说:“打开菜鸟裹裹,查看我的最新包裹”;
- 想订外卖?说:“打开饿了么,搜‘公司楼下奶茶店’”;
- 想发朋友圈?说:“打开微信,进入‘文件传输助手’,发送一张截图”(需提前截图到相册)。
关键技巧:
- 指令越具体越好,比如不说“打开购物App”,而说“打开淘宝App”;
- 避免模糊词如“那个”“上面”,改用位置描述:“左上角头像”“底部第二个图标”;
- 首次运行建议用WiFi环境,避免USB线松动导致中断。
4. 进阶玩法:WiFi无线控制 & 多任务并行
当你确认基础流程跑通后,可以立刻升级体验,摆脱USB线束缚。
4.1 用WiFi远程操控手机(无需USB线)
适合场景:手机放在桌上、想边喝咖啡边发指令、多台设备集中管理。
操作流程(Android 11+设备):
- 手机进入「开发者选项」→ 开启「无线调试」;
- 手机屏幕会显示一个IP和端口(如
192.168.1.100:5555); - 电脑终端输入:
adb connect 192.168.1.100:5555 - 验证:
adb devices应显示192.168.1.100:5555 device; - 后续所有指令只需加
--device-id 192.168.1.100:5555参数即可:python main.py \ --device-id 192.168.1.100:5555 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b-multilingual \ --apikey YOUR_KEY \ "打开小红书,搜索'AI手机助手教程'"
WiFi模式下,手机可放在房间任意位置,指令响应延迟通常低于200ms。
4.2 一次指挥多台手机(批量自动化)
如果你有测试机群、家庭多设备或运营多账号,这个功能能直接提升10倍效率。
用Python API并发控制3台手机(完整可运行代码):
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
# 公共模型配置(复用同一云服务)
model_config = ModelConfig(
base_url="https://api.z.ai/api/paas/v4",
model_name="autoglm-phone-9b-multilingual",
api_key="YOUR_API_KEY"
)
# 定义三台设备ID(通过 adb devices 获取)
devices = ["ABC123", "DEF456", "GHI789"]
# 分配不同任务
tasks = {
"ABC123": "打开微博,关注@智谱AI",
"DEF456": "打开知乎,搜索'AutoGLM 教程'",
"GHI789": "打开B站,搜索'手机AI自动化'"
}
# 并行执行
for device_id, task in tasks.items():
try:
agent = PhoneAgent(model_config=model_config, device_id=device_id)
result = agent.run(task)
print(f" 设备 {device_id}:{task} → 已完成")
except Exception as e:
print(f" 设备 {device_id}:{task} → 失败:{e}")
实测:3台手机同时执行,总耗时≈单台耗时×1.2,而非×3。AI决策是瓶颈,ADB执行是并行的。
5. 避坑指南:新手最常卡住的3个问题
我们把社区高频问题浓缩成“三句话解决方案”,省去翻文档时间:
5.1 问题:“adb devices 显示空列表或 unauthorized”
一句话解决:
断开USB线 → 手机进「开发者选项」→ 关闭「USB调试」→ 再打开 → 重新插线 → 弹窗点「始终允许」。
为什么有效:Android的RSA密钥授权是一次性的,重置后重建信任链。
5.2 问题:“执行时卡在‘正在截图’,手机没反应”
一句话解决:
在手机「设置」→「语言和输入法」→ 确保「ADB Keyboard」已启用,并设为默认输入法。
验证命令:
adb shell settings get secure default_input_method
# 正确输出必须包含 com.android.adbkeyboard
5.3 问题:“中文输入变成乱码或不出现”
一句话解决:
Windows用户在运行命令前,先执行:
$env:PYTHONIOENCODING="utf-8"Mac/Linux用户在终端中执行:
export PYTHONIOENCODING=utf-8
这个环境变量修复了Windows系统默认GBK编码与UTF-8模型输出的冲突。
6. 下一步:从“能用”到“好用”的3个实用建议
部署只是起点。让Open-AutoGLM真正融入你的工作流,试试这些轻量级优化:
6.1 指令模板库:存5条高频指令,随时调用
把常用操作保存为快捷指令,避免每次重输:
#外卖→ “打开美团,搜‘公司楼下’,选评分4.5以上,下单一杯冰美式”#快递→ “打开菜鸟裹裹,查看最新物流,复制单号”#社交→ “打开微信,进入‘文件传输助手’,发送手机相册最新截图”
把这些写进文本文件,用
cat quick_commands.txt | xargs -I {} python main.py ... {}批量执行。
6.2 敏感操作人工接管:关键步骤不全自动
框架内置安全机制,遇到以下场景会暂停并等待你确认:
- 需要输入密码/验证码;
- 涉及支付、删除、权限授予等高危操作;
- 连续点击同一区域超过3次(防误触)。
此时终端会提示:“检测到登录页,请手动输入验证码后按回车继续”。你只需操作手机,回车后AI继续后续流程。
6.3 本地部署提速:没有GPU也能快3倍
如果想彻底摆脱网络依赖,又没有高端显卡?试试这个组合:
- 用Compshare平台租用1小时4090(8毛钱),部署vLLM服务;
- 本地电脑只运行控制端,模型推理全在云端;
- 成本≈一杯奶茶钱,速度比免费云服务快3倍,且无调用频率限制。
7. 总结:你刚刚解锁了一种新的手机交互范式
回顾这5分钟:
- 你让一台普通安卓手机,第一次理解了自然语言指令;
- 你跳过了90%的环境配置,用现成云服务完成了首条AI操作;
- 你掌握了USB/WiFi双模式连接、多设备并发、敏感操作接管等核心能力;
- 你获得了可立即复用的避坑清单和提效技巧。
Open-AutoGLM 的意义,不在于它多强大,而在于它足够“朴素”——没有炫技的UI,没有复杂的配置,只有一个坚定的目标:让AI成为你手指的延伸,而不是另一个需要学习的新App。
下一步,别急着部署更复杂的模型。就用今天学会的方法,挑3件你每周重复5次以上的手机操作,让AI替你做掉。当“打开App→找入口→点按钮→填内容”变成一句语音,你会发现:所谓生产力革命,往往始于一次毫不费力的点击。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)