这项研究由腾讯混元团队联合香港中文大学(深圳)、中国人民大学高岭人工智能学院以及武汉大学共同完成,论文于2026年6月22日发布,编号为arXiv:2606.23049,有兴趣深入了解的读者可以通过该编号查询完整论文。

手机,是每个人每天都在用的东西。刷微信、叫外卖、订机票、查地图,这些操作对人来说轻而易举,但对人工智能来说,却是一道非常难过的坎。不是因为AI看不懂屏幕上有什么,而是因为"看懂"和"真正做成事"之间,还差着一个巨大的鸿沟。
这项研究正是为了填平这道鸿沟而生的。研究团队开发了一套叫做PhoneBuddy的训练方案,目标只有一个:让AI模型不仅能认识手机屏幕上的按钮和文字,更能像一个真正的助手一样,从头到尾帮你完成一件实际的事情——比如帮你在微信里找到某个小程序、搜索附近的餐厅、把AI生成的请假条存到文档里。
这听起来简单,但背后的挑战极其复杂,研究团队在训练过程中面临的核心矛盾,几乎贯穿了整个项目的设计思路。
**一、为什么教会AI用手机这么难?**
把AI放到真实手机上操作,就像把一个刚学会骑自行车的孩子丢进城市早高峰的马路上——环境复杂、状态多变、一旦出错后果难以收拾。
真实的手机环境有几个让研究者头疼的特点。首先,手机操作是有状态的,每次打开一个应用,都可能因为你的账号、历史记录、网络状态不同而呈现出不一样的界面。其次,很多操作是不可撤销的,AI如果不小心点了"确认支付"或者"发送消息",这件事就真的发生了,没有后悔的机会。再者,要判断一个任务有没有完成,有时候需要依赖服务器那边的数据,而不是光看屏幕就能知道的。
正因为这样,在真实手机上训练AI的成本极高——每次训练都要重新设置状态,每次验证结果都要人工检查,而且还有各种风险需要控制。
然而,另一个极端——只用模拟环境来训练AI——也行不通。模拟环境虽然方便重置、方便检验,但毕竟是简化版的仿真,跟真实手机的行为有差距。在模拟环境里练得再好的AI,一到真实手机上往往就"水土不服",表现大打折扣。
这就是整个研究的核心矛盾:真实环境训练效果好但成本高、风险大;模拟环境成本低但效果打折。研究团队的解法,是把这两种环境结合起来用,而不是非此即彼地选边站。
**二、PhoneWorld:一座高度还原的"练习场"**
为了给AI提供一个既安全又逼真的练习场,研究团队专门开发了一个叫做PhoneWorld的模拟环境。
PhoneWorld的思路是这样的:既然真实App太贵太危险,那就从真实App的使用轨迹里提取骨架,再重建一批"高仿"的可运行App。这些仿制App不是静态的截图,而是真正可以点击、可以输入、可以触发状态变化的Android应用。它们保留了原始App的核心界面结构和操作逻辑,但因为是重建的,所以可以随时重置状态、随时检查任务是否完成,完全不需要人工介入。
更重要的是,PhoneWorld还会为每个仿制App自动生成配套的任务和验证规则。AI做了一个操作,系统能立刻用内置的规则判断"这件事做对了没有",而不需要靠人来看结果。
把PhoneWorld比作一个驾校的模拟驾驶系统很合适——它不是真实的道路,但它复现了真实道路上会遇到的关键场景,让学员可以反复练习、犯错之后立刻重来,大大降低了"在真实路上练车"的成本和风险。当然,驾校练完之后还是要上真实的路考,这就是真实手机环境的价值所在。
目前的PhoneWorld涵盖了数十种消费类移动应用场景,提供了大量可执行的任务和轨迹数据,为后续的训练提供了充足的"练习素材"。
**三、PhoneBuddy:三段式的"成长路径"**
整个训练方案分成三个阶段,就像一个人从学生到职场新人再到独当一面的进阶过程。
所有实验都基于同一个基础模型,叫做Qwen3.5-4B,这是一个参数量为40亿的开源模型。使用同一个基础是关键——这样才能保证最终的结果差异,真正来自训练方式的不同,而不是模型本身的差异。
第一阶段是监督微调,也就是给AI"上课"。研究团队从真实手机环境和PhoneWorld模拟环境中各自收集了大量操作轨迹,总共约95万步操作数据,然后用这些数据对基础模型进行全参数微调。训练的核心格式很简单:给AI看当前手机截图和任务指令,让它预测下一步该做什么。这一阶段的目的是让AI掌握基本的手机操作格式和常识,为后续的强化学习打好基础。经过约1115步优化,得到了PhoneBuddy-4B-SFT这个"毕业生"模型。
第二阶段起,模型开始分叉,形成两条不同的训练路径。一条路径只在真实手机环境中继续强化学习,得到PhoneBuddy-4B-Real;另一条路径则混合了真实环境和PhoneWorld模拟环境,各占一半,得到PhoneBuddy-4B-Real+Mock。两条路径都只跑了50步在线强化学习,训练目标相同:最大化任务完成率。
这里有一个值得关注的细节:在两种环境里,"任务完成"的判断方式是不同的。在真实手机环境里,因为很多任务的结果依赖于账号信息或服务器状态,难以直接看出来,所以团队使用了基于评分规则的大模型裁判——先用Gemini-3.1-Pro-Preview为每个任务生成评分细则,再用Qwen3.5-122B模型对操作轨迹逐项打分,全部通过才算成功。而在PhoneWorld里,仿制App内置了规则验证器,能直接判断任务完成与否,不需要大模型来裁判。两种方式最终都转化为同一个二元奖励信号,用于驱动策略优化。
**四、用真实手机和真实人类来打分:150道测试题**
为了评估模型的实际表现,研究团队设计了一套包含150道任务的真实手机评测套件,邀请人工标注员在真实设备上运行每个模型,然后判断任务有没有真正完成。
这150道题分成三类,每类50道。第一类是单应用任务,比如在知乎上找到某篇文章并关注作者,操作路径相对固定,成功与否容易判断。第二类是跨应用任务,比如先用AI助手生成一份请假条,再把它保存到腾讯文档里,需要在不同应用之间传递信息,难度更高。第三类是微信小程序任务,比如在腾讯出行小程序里搜索迪士尼附近的经济型酒店,操作场景嵌套在微信这个大平台内。
除了这套自建的测试集,研究团队还在AndroidWorld这个公开基准上评估了模型,以便与其他公开发表的工作进行横向比较。AndroidWorld是一个专门为自主安卓代理设计的动态评测环境,覆盖了多种真实安卓应用的任务场景。
**五、数字会说话:逐步提升的任务完成率**
结果摆出来,趋势非常清晰。
在整体平均成绩上,PhoneBuddy-4B-SFT的平均任务成功率是42.6%,PhoneBuddy-4B-Real提升到了49.8%,而PhoneBuddy-4B-Real+Mock进一步达到了54.8%。每一步训练都带来了实质性的提升,而不是微小的波动。
单应用任务上的进步最为显著。从监督微调的34%,到真实环境强化学习的54%,再到混合强化学习的62%——最终成绩超过了所有对比的商业模型,包括GPT-5.4的50%和Gemini 3.1 Pro的50%。这说明在结构清晰、步骤稳定的应用操作场景里,这套训练方案的效果相当突出。
微信小程序任务呈现出一个有趣的模式。仅靠真实环境强化学习,成绩反而从54%下滑到了48%,这可能是因为真实手机上的小程序行为更难预测,模型在这类场景下没能从额外训练中受益。但加入PhoneWorld的模拟训练后,成绩回升到了56%,超过了监督微调的基线。这个"先降后升"的走势说明,模拟环境的可重置性和稳定性,在结构多步骤但流程相对固定的场景下,能提供真实环境训练无法给予的稳定训练信号。
在AndroidWorld基准上,成绩走势最为干净——60.3%、77.2%、83.2%,单调递增,没有任何波动。最终83.2%的成绩也是所有参与对比的模型中最高的,包括Gemini 3.1 Pro的80.2%。
然而,跨应用任务是这套方案目前无法攻克的堡垒。三个模型的成绩分别是22%、20%、18%,不仅没有进步,反而略有下降。这个结果并不意外,因为当前的PhoneWorld任务池主要针对单应用场景,根本没有涉及跨应用的信息传递和状态跟踪。在没有对口训练素材的情况下,混合训练对这类任务没有帮助,甚至可能因为引入了不匹配的训练信号而略有干扰。
**六、两个真实案例:模型在做什么,做对了什么**
数字之外,研究团队还展示了两个具体的操作轨迹对比,让人更直观地感受到训练差异带来的行为差异。
第一个案例是预订酒店。任务要求在微信小程序"同程旅行"里搜索上海迪士尼附近的经济型酒店。监督微调版本的模型能正确打开小程序并进行搜索,找到了酒店列表,但就停在那里了,没有继续筛选价格范围,等于只完成了任务的一半。混合训练版本的模型则继续操作,找到了筛选功能,把酒店价格上限设置到了150元,真正满足了"经济型"这个约束条件。
第二个案例是信息转移。任务是先用AI助手元宝生成一份请假条,然后新建一个腾讯文档,把请假条内容存进去。监督微调版本的模型在元宝里生成了请假条,但在切换到腾讯文档时,复制步骤出了问题,最终粘贴进文档的是剪贴板里遗留的旧内容,而不是刚生成的请假条。混合训练版本则正确地复制了新生成的请假条,并成功粘贴到了新文档中。
这两个例子揭示了一件事:混合环境训练不只是让模型"多见世面",更重要的是它帮助模型学会了在操作过程中保持对约束条件的追踪,以及在不同界面之间正确地传递信息。这些能力,恰恰是PhoneWorld通过大量可重复的模拟练习强化出来的。
**七、跨应用任务:目前仍是一堵没能打破的墙**
研究团队对于跨应用任务的失败,态度是直接承认而非回避。
跨应用任务之所以难,不仅仅是因为需要操作多个应用那么简单。它要求模型在多个应用之间保持对任务状态的记忆,把从一个应用里获取的信息正确地带入另一个应用,并且在整个过程中追踪任务的完成进度。任何一个环节出错,整个任务就算失败。
当前的PhoneWorld主要覆盖单应用场景,即使有些学到的交互模式能迁移到小程序场景,也没有直接对应跨应用工作流的训练素材。研究团队明确指出,把PhoneWorld扩展到涵盖跨应用任务流程,是未来工作的重要方向。不过,即便有了更丰富的训练环境,跨应用任务也可能依然是高难度任务,因为它还要求更强的长程状态追踪能力和运行时协调机制,这些是训练数据本身解决不了的问题。
**八、这项研究在一个更大的拼图里**
研究团队还特别说明了一件事:PhoneBuddy只是他们正在构建的手机AI助手体系里的一块拼图,专门负责"训练"这一层。
与之配套的还有几个平行项目。PhoneWorld负责构建模拟训练环境,为PhoneBuddy提供练习素材。PhoneHarness负责运行时执行,它定义了模型预测和真实手机操作之间的接口,相当于把模型"接入"手机的这根线。PhonePrivacy和PhoneSafety则负责隐私和安全边界,因为手机上有太多敏感的个人数据,一个能真正"用"手机的AI,必须有明确的权限边界和风险控制机制。
这篇论文刻意将自己限定在训练问题上,对运行时执行、隐私和安全只作了简短提及。但研究团队认为,这些部分同等重要,一个真正可以部署的手机AI助手,必须把这几块都做好,缺一不可。
说到底,这项研究告诉我们的,是一个关于"如何练就真本事"的道理。真实战场固然是最好的磨刀石,但如果每次练习都要付出真实的代价,成本太高,风险也太大。聪明的做法是先在高度还原的练习场里把基本功练扎实,再放到真实战场上做最后的磨合。PhoneBuddy用数字证明了这套思路的有效性:混合训练在几乎所有任务类型上都优于单独依赖真实环境的训练,而在AndroidWorld这个外部基准上83.2%的成绩,更说明这套方案学到的能力具有真正的泛化价值,而不只是在自家测试集上表现好看。
跨应用任务的瓶颈悬在那里,像一道还没解开的题,提醒着所有人:更好的训练环境能做很多事,但它不是万能药。下一步需要的,是既更好的训练环境,也更强的执行架构,还有对安全和隐私的认真对待。感兴趣的读者可以通过arXiv编号2606.23049找到完整论文,深入了解每一个技术细节。
---
Q&A
Q1:PhoneBuddy和普通的手机AI助手有什么区别?
A:普通手机AI助手更多是"看懂屏幕"或"回答问题",而PhoneBuddy的目标是真正从头到尾帮用户完成一件具体的手机任务,比如在小程序里搜索筛选酒店、把AI生成的文字保存到文档。区别在于"识别"和"完成任务"之间的差距,PhoneBuddy专注于填平这道鸿沟。
Q2:PhoneWorld模拟环境和真实手机环境的训练效果有多大差别?
A:两者各有优劣,单独用任何一个都不够。真实环境能让模型接触真实的应用行为和风险,但成本高、难重置。PhoneWorld可以无限重置、自动验证,适合大规模反复练习。研究结果显示,混合使用两种环境比单独用真实环境,在单应用任务上成功率从54%提升到62%,在AndroidWorld上从77.2%提升到83.2%。
Q3:PhoneBuddy在跨应用任务上为什么表现很差?
A:跨应用任务需要在多个应用之间传递信息并持续追踪任务状态,比如先在AI助手里生成内容,再切换到文档应用保存。当前的PhoneWorld训练素材主要是单应用场景,没有专门针对跨应用工作流的训练数据,导致三个版本的模型在这类任务上成功率都只在18%到22%之间,没有明显提升。
配资平台提示:文章来自网络,不代表本站观点。