日天金策略手机AI助手终于能真正＂用＂手机了，而不只是＂看＂手机

这项研究由腾讯混元团队联合香港中文大学（深圳）、中国人民大学高岭人工智能学院以及武汉大学共同完成，论文于2026年6月22日发布，编号为arXiv:2606.23049，有兴趣深入了解的读者可以通过该编号查询完整论文。

手机，是每个人每天都在用的东西。刷微信、叫外卖、订机票、查地图，这些操作对人来说轻而易举，但对人工智能来说，却是一道非常难过的坎。不是因为AI看不懂屏幕上有什么，而是因为"看懂"和"真正做成事"之间，还差着一个巨大的鸿沟。

这项研究正是为了填平这道鸿沟而生的。研究团队开发了一套叫做PhoneBuddy的训练方案，目标只有一个：让AI模型不仅能认识手机屏幕上的按钮和文字，更能像一个真正的助手一样，从头到尾帮你完成一件实际的事情——比如帮你在微信里找到某个小程序、搜索附近的餐厅、把AI生成的请假条存到文档里。

这听起来简单，但背后的挑战极其复杂，研究团队在训练过程中面临的核心矛盾，几乎贯穿了整个项目的设计思路。

**一、为什么教会AI用手机这么难？**

把AI放到真实手机上操作，就像把一个刚学会骑自行车的孩子丢进城市早高峰的马路上——环境复杂、状态多变、一旦出错后果难以收拾。

真实的手机环境有几个让研究者头疼的特点。首先，手机操作是有状态的，每次打开一个应用，都可能因为你的账号、历史记录、网络状态不同而呈现出不一样的界面。其次，很多操作是不可撤销的，AI如果不小心点了"确认支付"或者"发送消息"，这件事就真的发生了，没有后悔的机会。再者，要判断一个任务有没有完成，有时候需要依赖服务器那边的数据，而不是光看屏幕就能知道的。

正因为这样，在真实手机上训练AI的成本极高——每次训练都要重新设置状态，每次验证结果都要人工检查，而且还有各种风险需要控制。

然而，另一个极端——只用模拟环境来训练AI——也行不通。模拟环境虽然方便重置、方便检验，但毕竟是简化版的仿真，跟真实手机的行为有差距。在模拟环境里练得再好的AI，一到真实手机上往往就"水土不服"，表现大打折扣。

这就是整个研究的核心矛盾：真实环境训练效果好但成本高、风险大；模拟环境成本低但效果打折。研究团队的解法，是把这两种环境结合起来用，而不是非此即彼地选边站。

**二、PhoneWorld：一座高度还原的"练习场"**

为了给AI提供一个既安全又逼真的练习场，研究团队专门开发了一个叫做PhoneWorld的模拟环境。

PhoneWorld的思路是这样的：既然真实App太贵太危险，那就从真实App的使用轨迹里提取骨架，再重建一批"高仿"的可运行App。这些仿制App不是静态的截图，而是真正可以点击、可以输入、可以触发状态变化的Android应用。它们保留了原始App的核心界面结构和操作逻辑，但因为是重建的，所以可以随时重置状态、随时检查任务是否完成，完全不需要人工介入。

更重要的是，PhoneWorld还会为每个仿制App自动生成配套的任务和验证规则。AI做了一个操作，系统能立刻用内置的规则判断"这件事做对了没有"，而不需要靠人来看结果。

把PhoneWorld比作一个驾校的模拟驾驶系统很合适——它不是真实的道路，但它复现了真实道路上会遇到的关键场景，让学员可以反复练习、犯错之后立刻重来，大大降低了"在真实路上练车"的成本和风险。当然，驾校练完之后还是要上真实的路考，这就是真实手机环境的价值所在。

目前的PhoneWorld涵盖了数十种消费类移动应用场景，提供了大量可执行的任务和轨迹数据，为后续的训练提供了充足的"练习素材"。

**三、PhoneBuddy：三段式的"成长路径"**

整个训练方案分成三个阶段，就像一个人从学生到职场新人再到独当一面的进阶过程。

所有实验都基于同一个基础模型，叫做Qwen3.5-4B，这是一个参数量为40亿的开源模型。使用同一个基础是关键——这样才能保证最终的结果差异，真正来自训练方式的不同，而不是模型本身的差异。

第一阶段是监督微调，也就是给AI"上课"。研究团队从真实手机环境和PhoneWorld模拟环境中各自收集了大量操作轨迹，总共约95万步操作数据，然后用这些数据对基础模型进行全参数微调。训练的核心格式很简单：给AI看当前手机截图和任务指令，让它预测下一步该做什么。这一阶段的目的是让AI掌握基本的手机操作格式和常识，为后续的强化学习打好基础。经过约1115步优化，得到了PhoneBuddy-4B-SFT这个"毕业生"模型。

第二阶段起，模型开始分叉，形成两条不同的训练路径。一条路径只在真实手机环境中继续强化学习，得到PhoneBuddy-4B-Real；另一条路径则混合了真实环境和PhoneWorld模拟环境，各占一半，得到PhoneBuddy-4B-Real+Mock。两条路径都只跑了50步在线强化学习，训练目标相同：最大化任务完成率。

这里有一个值得关注的细节：在两种环境里，"任务完成"的判断方式是不同的。在真实手机环境里，因为很多任务的结果依赖于账号信息或服务器状态，难以直接看出来，所以团队使用了基于评分规则的大模型裁判——先用Gemini-3.1-Pro-Preview为每个任务生成评分细则，再用Qwen3.5-122B模型对操作轨迹逐项打分，全部通过才算成功。而在PhoneWorld里，仿制App内置了规则验证器，能直接判断任务完成与否，不需要大模型来裁判。两种方式最终都转化为同一个二元奖励信号，用于驱动策略优化。

**四、用真实手机和真实人类来打分：150道测试题**

为了评估模型的实际表现，研究团队设计了一套包含150道任务的真实手机评测套件，邀请人工标注员在真实设备上运行每个模型，然后判断任务有没有真正完成。

这150道题分成三类，每类50道。第一类是单应用任务，比如在知乎上找到某篇文章并关注作者，操作路径相对固定，成功与否容易判断。第二类是跨应用任务，比如先用AI助手生成一份请假条，再把它保存到腾讯文档里，需要在不同应用之间传递信息，难度更高。第三类是微信小程序任务，比如在腾讯出行小程序里搜索迪士尼附近的经济型酒店，操作场景嵌套在微信这个大平台内。

除了这套自建的测试集，研究团队还在AndroidWorld这个公开基准上评估了模型，以便与其他公开发表的工作进行横向比较。AndroidWorld是一个专门为自主安卓代理设计的动态评测环境，覆盖了多种真实安卓应用的任务场景。

**五、数字会说话：逐步提升的任务完成率**

结果摆出来，趋势非常清晰。

在整体平均成绩上，PhoneBuddy-4B-SFT的平均任务成功率是42.6%，PhoneBuddy-4B-Real提升到了49.8%，而PhoneBuddy-4B-Real+Mock进一步达到了54.8%。每一步训练都带来了实质性的提升，而不是微小的波动。

单应用任务上的进步最为显著。从监督微调的34%，到真实环境强化学习的54%，再到混合强化学习的62%——最终成绩超过了所有对比的商业模型，包括GPT-5.4的50%和Gemini 3.1 Pro的50%。这说明在结构清晰、步骤稳定的应用操作场景里，这套训练方案的效果相当突出。

微信小程序任务呈现出一个有趣的模式。仅靠真实环境强化学习，成绩反而从54%下滑到了48%，这可能是因为真实手机上的小程序行为更难预测，模型在这类场景下没能从额外训练中受益。但加入PhoneWorld的模拟训练后，成绩回升到了56%，超过了监督微调的基线。这个"先降后升"的走势说明，模拟环境的可重置性和稳定性，在结构多步骤但流程相对固定的场景下，能提供真实环境训练无法给予的稳定训练信号。

在AndroidWorld基准上，成绩走势最为干净——60.3%、77.2%、83.2%，单调递增，没有任何波动。最终83.2%的成绩也是所有参与对比的模型中最高的，包括Gemini 3.1 Pro的80.2%。

然而，跨应用任务是这套方案目前无法攻克的堡垒。三个模型的成绩分别是22%、20%、18%，不仅没有进步，反而略有下降。这个结果并不意外，因为当前的PhoneWorld任务池主要针对单应用场景，根本没有涉及跨应用的信息传递和状态跟踪。在没有对口训练素材的情况下，混合训练对这类任务没有帮助，甚至可能因为引入了不匹配的训练信号而略有干扰。

**六、两个真实案例：模型在做什么，做对了什么**

数字之外，研究团队还展示了两个具体的操作轨迹对比，让人更直观地感受到训练差异带来的行为差异。

第一个案例是预订酒店。任务要求在微信小程序"同程旅行"里搜索上海迪士尼附近的经济型酒店。监督微调版本的模型能正确打开小程序并进行搜索，找到了酒店列表，但就停在那里了，没有继续筛选价格范围，等于只完成了任务的一半。混合训练版本的模型则继续操作，找到了筛选功能，把酒店价格上限设置到了150元，真正满足了"经济型"这个约束条件。

第二个案例是信息转移。任务是先用AI助手元宝生成一份请假条，然后新建一个腾讯文档，把请假条内容存进去。监督微调版本的模型在元宝里生成了请假条，但在切换到腾讯文档时，复制步骤出了问题，最终粘贴进文档的是剪贴板里遗留的旧内容，而不是刚生成的请假条。混合训练版本则正确地复制了新生成的请假条，并成功粘贴到了新文档中。

这两个例子揭示了一件事：混合环境训练不只是让模型"多见世面"，更重要的是它帮助模型学会了在操作过程中保持对约束条件的追踪，以及在不同界面之间正确地传递信息。这些能力，恰恰是PhoneWorld通过大量可重复的模拟练习强化出来的。

**七、跨应用任务：目前仍是一堵没能打破的墙**

研究团队对于跨应用任务的失败，态度是直接承认而非回避。

跨应用任务之所以难，不仅仅是因为需要操作多个应用那么简单。它要求模型在多个应用之间保持对任务状态的记忆，把从一个应用里获取的信息正确地带入另一个应用，并且在整个过程中追踪任务的完成进度。任何一个环节出错，整个任务就算失败。

当前的PhoneWorld主要覆盖单应用场景，即使有些学到的交互模式能迁移到小程序场景，也没有直接对应跨应用工作流的训练素材。研究团队明确指出，把PhoneWorld扩展到涵盖跨应用任务流程，是未来工作的重要方向。不过，即便有了更丰富的训练环境，跨应用任务也可能依然是高难度任务，因为它还要求更强的长程状态追踪能力和运行时协调机制，这些是训练数据本身解决不了的问题。

**八、这项研究在一个更大的拼图里**

研究团队还特别说明了一件事：PhoneBuddy只是他们正在构建的手机AI助手体系里的一块拼图，专门负责"训练"这一层。

与之配套的还有几个平行项目。PhoneWorld负责构建模拟训练环境，为PhoneBuddy提供练习素材。PhoneHarness负责运行时执行，它定义了模型预测和真实手机操作之间的接口，相当于把模型"接入"手机的这根线。PhonePrivacy和PhoneSafety则负责隐私和安全边界，因为手机上有太多敏感的个人数据，一个能真正"用"手机的AI，必须有明确的权限边界和风险控制机制。

这篇论文刻意将自己限定在训练问题上，对运行时执行、隐私和安全只作了简短提及。但研究团队认为，这些部分同等重要，一个真正可以部署的手机AI助手，必须把这几块都做好，缺一不可。

说到底，这项研究告诉我们的，是一个关于"如何练就真本事"的道理。真实战场固然是最好的磨刀石，但如果每次练习都要付出真实的代价，成本太高，风险也太大。聪明的做法是先在高度还原的练习场里把基本功练扎实，再放到真实战场上做最后的磨合。PhoneBuddy用数字证明了这套思路的有效性：混合训练在几乎所有任务类型上都优于单独依赖真实环境的训练，而在AndroidWorld这个外部基准上83.2%的成绩，更说明这套方案学到的能力具有真正的泛化价值，而不只是在自家测试集上表现好看。

跨应用任务的瓶颈悬在那里，像一道还没解开的题，提醒着所有人：更好的训练环境能做很多事，但它不是万能药。下一步需要的，是既更好的训练环境，也更强的执行架构，还有对安全和隐私的认真对待。感兴趣的读者可以通过arXiv编号2606.23049找到完整论文，深入了解每一个技术细节。

---

Q&A

Q1：PhoneBuddy和普通的手机AI助手有什么区别？

A：普通手机AI助手更多是"看懂屏幕"或"回答问题"，而PhoneBuddy的目标是真正从头到尾帮用户完成一件具体的手机任务，比如在小程序里搜索筛选酒店、把AI生成的文字保存到文档。区别在于"识别"和"完成任务"之间的差距，PhoneBuddy专注于填平这道鸿沟。

Q2：PhoneWorld模拟环境和真实手机环境的训练效果有多大差别？

A：两者各有优劣，单独用任何一个都不够。真实环境能让模型接触真实的应用行为和风险，但成本高、难重置。PhoneWorld可以无限重置、自动验证，适合大规模反复练习。研究结果显示，混合使用两种环境比单独用真实环境，在单应用任务上成功率从54%提升到62%，在AndroidWorld上从77.2%提升到83.2%。

Q3：PhoneBuddy在跨应用任务上为什么表现很差？

A：跨应用任务需要在多个应用之间传递信息并持续追踪任务状态，比如先在AI助手里生成内容，再切换到文档应用保存。当前的PhoneWorld训练素材主要是单应用场景，没有专门针对跨应用工作流的训练数据，导致三个版本的模型在这类任务上成功率都只在18%到22%之间，没有明显提升。

配资平台提示：文章来自网络，不代表本站观点。

日天金策略手机AI助手终于能真正＂用＂手机了，而不只是＂看＂手机

网上配资日本央行会议纪要：一位委员称政策利率仍远未达到中性水平

盛宝策略配资APP下载场均25分11板3帽，文班能打破霍华德最年轻DPOY的纪录吗?

长沙期货配资APP下载从自律差到自律强：济南艺体生文化课集训的成长蜕变之路

乾盘配资官网宜宾高县5.5级地震后 234名电力人员特巡保供电宜宾电力供应正常