当前位置:首页 > 新闻中心

新闻中心

新闻中心

ayx体育:打造自主信息搜索智能体:阿里巴巴WebDancer的探索之路

来源:ayx体育    发布时间:2025-06-06 02:27:14
 

ayx官网:

  在互联网时代,我们常常需要在网络海洋中搜寻答案解决复杂问题。想象一下,如果有一个虚拟助手不仅能听懂你的问题,还能自主在网络上寻找信息、分析内容,最后给你一个准确答案,这将会极大地提升我们获取知识的效率。这正是阿里巴巴研究团队开发WebDancer智能体所要实现的目标。

  在现实世界中,解决复杂问题往往需要深入的信息搜索和多步推理。想象你需要回答一个复杂问题:2010年谁获得了以一位技术先驱命名的著名奖项,该获奖者在模糊逻辑领域做出了重要贡献?普通搜索引擎可能难以直接给出答案,因为这需要多轮信息搜索、理解和推理。正如侦探需要搜集线索、分析证据并做出推理才能解决复杂案件一样,网络智能体也需要类似的能力来解决信息搜索任务。

  近期,ChatGPT的Deep Research和Grok的DeepSearch等系统展示了通过端到端强化学习实现自主多步研究的潜力。但构建这样的系统并非易事。WebDancer团队将构建过程概括为四个关键阶段:数据构建、轨迹采样、监督微调和强化学习,就像搭建一栋房子要设计图纸、准备材料、打地基和最终装修一样。

  要训练一个能够自主搜索信息的智能体,第一步是要高质量的训练数据。这就像教孩子骑自行车,你需要出示各种不同难度的练习场景。WebDancer团队发现现有的问答数据集往往过于简单,通常只需一次或几次搜索就能解决,而且规模较小。比如GAIA数据集仅有466个样本,WebWalkerQA包含680个例子,BrowseComp有1,266个,这些数量对于有效训练是不够的。

  为解决这样的一个问题,研究团队开发了两种自动合成高质量数据集的方法:CRAWLQA和E2HQA。

  CRAWLQA方法就像是派出一个网络爬虫侦探,它首先收集知识网站的根URL(如学术论文网站arXiv、代码平台GitHub、百科网站维基等),然后通过系统地点击和收集根页面上可访问的子链接来模拟人类浏览行为。研究团队使用GPT4o根据收集到的内容生成合成问答对。为确保问题的具体性和相关性,他们通过上下文学习方式提示大型语言模型生成很多类型的问题(如计数题、多跳推理题、交叉信息题)。

  E2HQA方法则采用了由简到难的策略,就像是教练逐步增加训练难度一样。研究团队从简单的问答对开始,每个答案是一个简洁的、寻求事实的实体。然后,他们选择问题中的一个实体,构建基于该实体的查询,通过搜索引擎获取相关信息,并使用语言模型重构这一些内容为新的查询,以替换原始问题中的实体。例如,从简单问题谁在2010年获得了IEEE Frank Rosenblatt奖?转变为更复杂的问题2010年,谁获得了以一位技术先驱命名的著名奖项,该获奖者在模糊逻辑领域做出了重要贡献?这样,新问题是需要先解决构建的子问题,再找到原始问题的答案。通过持续搜索,团队可以逐步将一个初始简单问题改写成更复杂的多步问题,而答案保持不变(在这个例子中是Michio Sugeno)。

  有了高质量的问答数据后,下一步是为智能体创建行动轨迹,就像为学习驾驶的人提供详细的路线图一样。WebDancer采用了ReAct框架,这是一种将推理与行动紧密结合的流行方法。

  在ReAct框架中,一个完整的轨迹由多个思考-行动-观察轮次组成。想象智能体面对一个问题时,首先会进行思考(Thought),分析应该做什么;然后采取行动(Action),与环境(工具)互动;最后接收观察反馈(Observation)。这样的一个过程会重复多次,直到智能体决定给出最终答案。

  WebDancer团队将智能体的执行循环设计为一系列(思考、行动、观察)三元组。其中行动可以是搜索或访问网页,分别对应网络信息搜索中两个最重要的工具。对于搜索行动,参数包括查询内容和过滤年份;对于访问行动,参数包括目标和URL链接。搜索行动的观察结果包括前10个标题和摘要,而访问行动的观察结果则是由摘要模型生成的证据和摘要。当行动为回答时,交互结束。

  为了构建高质量的轨迹,研究团队提出了两种简单但有效的方法来构建短链式思考(Short-CoT)和长链式思考(Long-CoT):

  对于短链式思考,团队直接利用ReAct框架,使用强大的GPT-4o模型收集轨迹。这就像请一位经验比较丰富的专家示范解题过程。

  对于长链式思考,团队采用了更复杂的方法。他们顺序地向推理语言模型QwQ-Plus提供每一步的历史行动和观察结果,使其自主决定下一步行动。这就像让一个推理能力强的学生在每一步都详细解释自己的思考过程。有必要注意一下的是,在进一步推理时,他们排除了之前的思考内容,因为QwQ-Plus在训练过程中没有接触过多步推理输入。然而,他们在生成的轨迹中保留了每一步的思考,作为有价值的监督信号。

  每个构建的问答实例都经过多达N次的拒绝采样,以确保质量和一致性。这就像是筛选优质样本,确保只有最好的示范才被用来教导智能体。

  为了确保轨迹质量,团队采用了三阶段漏斗式轨迹过滤框架:有效性控制、正确性验证和质量评估。

  首先是有效性控制。在长内容条件下直接提示大型语言模型生成ReAct格式的回应可能会引起不符合指令的情况,团队会丢掉抛弃这些数据点。

  其次是正确性验证。团队只保留正确的结果,遵循Phan等人和Wei等人提出的评估方法,使用GPT-4o做准确判断。

  最后是质量评估。团队首先应用规则过滤掉具有超过两个行动的轨迹,确保没有幻觉和严重重复。随后基于提示过滤轨迹,保留满足以下三个标准的轨迹:信息非冗余性、目标一致性以及逻辑推理和准确性。

  没有被过滤掉的问答对,即那些不包含有效轨迹的问答对,可以在强化学习阶段有效利用。这就像保留那些没有标准答案的练习题,用于后期的自主学习阶段。

  获得高质量的ReAct格式轨迹后,研究团队将其无缝整合到代理监督微调(SFT)训练阶段。就像在正式比赛前先进行模拟训练一样,SFT阶段为后续的强化学习做好准备。

  在这个阶段,思考部分由和标签封闭,行动部分由和标签封闭,观察部分由和标签封闭。最终的行动部分对应于最终答案,由和标签封闭。

  研究团队通过监督微调在获得的决策轨迹上训练策略模型θ。这个冷启动阶段增强了模型将多个推理和行动步骤耦合的能力,教会它一种交替推理与行动的行为范式,同时尽可能保留其原始推理能力。

  基于Chen等人和Zhang等人的实证发现,为了尽最大可能避免在学习过程中受到外部反馈的干扰,团队在代理世界建模任务中屏蔽了来自观察的损失贡献,这通常能提高性能和鲁棒性。给定任务上下文tc和完整的代理执行轨迹H=(x0,x1,...,xn-1,xn),其中每个xi∈{τ,α,o},损失函数L计算如下:

  这里,I[xi≠o]过滤掉对应于外部反馈的标记,确保损失仅在代理的自主决策步骤上计算。SFT阶段为后续的RL阶段提供了强有力的初始化。

  强化学习阶段旨在将代理能力内化到推理模型中,增强其多回合、多工具使用能力,就像运动员通过实战训练提升比赛表现一样。基于SFT阶段的基础,RL采用解耦剪辑和动态采样策略优化算法(DAPO)来细化和激励策略模型πθ的能力,使其能够交错思考-行动-观察序列。

  DAPO算法是一种RL算法,它优化策略πθ以在奖励模型R下产生更高奖励的输出。对于每个阶段轨迹ti和部分答案ai,DAPO采样一组候选代理执行{yji}Gj=1。然后,策略被更新以最大化以下目标:

  受限于候选集大小和过滤条件(0yiG),其中ri(yji)是奖励模型对完成yji的评分。动态采样机制过采样并过滤掉准确度等于1和0的提示。这在数据训练管道中至关重要,因为剩余的问答对是合成生成的,可能包含无效或嘈杂的实例,这些实例可能降低策略学习质量。这样不可靠的样本可以被有效忽略,确保代理专注于从高质量信号中学习。εlow、εhigh是剪辑阈值,Aji表示类似优势的术语(例如,从采样完成中的相对性能派生)。

  与依赖固定KL惩罚不同,DAPO估计新策略πθ和旧策略πθold之间的概率比率如下:

  其中Ri表示采样完成的原始奖励值,mean(·)、std(·)在批次上计算,将奖励分数归一化为优势估计。

  在ReAct框架内,每轮代理执行都从生成思考开始,由和标签封闭,然后是行动名称αm和相应参数αp,由和操作封闭,所有这些都以迭代历史H为条件。这些组件被迭代用于与现实世界搜索环境交互,在检测到时产生观察反馈,由和界定。交互轮次从跨越到。滚出在生成最终思考后的和时结束。

  奖励设计在RL训练过程中起着关键作用。奖励系统主要由两类奖励组成:scoreformat和scoreanswer。考虑到格式一致性在初始RFT阶段已基本解决,团队在总体奖励中为scoreformat分配较小权重。scoreformat是二元的:仅当整个输出严格符合所需格式且所有工具调用都采用有效的json格式时,才设为1。

  考虑到问答答案本质上是不可验证的,没办法使用基于规则的F1/EM指标可靠评估,尽管回应简短,最终评估依赖于以LLM为裁判的方式(裁判模型为Mj),团队选择采用基于模型的提示评估作为答案奖励信号。scoreanswer也是二元的,仅当回应被LLM判断为正确时才被分配为1。最终奖励函数为:

  研究团队在两个知名的深度信息搜索基准上评估了WebDancer:GAIA和WebWalkerQA。他们采用以LLM为裁判的范式评估这两个任务,使用Pass@1指标,这个指标衡量的是模型一次尝试就能给出正确答案的能力。

  主要结果为,没有代理能力的框架(No Agency)在GAIA和WebWalkerQA基准测试中表现不佳,这凸显了主动信息搜索和代理决策对这些任务的必要性。封闭源代理系统OpenAI DR通过端到端RL训练获得了最高分数。

  在开源框架中,基于本地强推理模型(如QwQ-32B)构建的代理方法始终优于其非代理对应物,展示了在代理构建中利用推理专业化模型的有效性。重要的是,在高度可扩展的ReAct框架下,WebDancer在不同模型规模上比原始ReAct基线有显著提升。有必要注意一下的是,它甚至在最佳情况下超过了GPT-4o的性能。这表明,即使在轻量级框架内,WebDancer的方法也能明显地增强底层基础模型的代理能力,验证了该方法的强度和通用性。

  研究团队还在更具挑战性的BrowseComp(英文)和BrowseComp-zh(中文)数据集上评估了WebDancer。结果显示,WebDancer在这两个数据集上均表现出一致的强大性能,突显了其在处理困难推理和信息搜索任务方面的鲁棒性和有效性。

  为了更深入地理解WebDancer的性能,研究团队进行了一系列详细分析。

  首先,考虑到代理环境的动态和复杂性,以及比较小和可变的测试集,团队进行了Pass@3和Cons@3的细粒度分析。Cons@3指标通过评估三次独立尝试中正确回应的数量来计算:获得一个正确答案得分为1/3,两个正确答案得分为2/3,三个正确答案得分为1。对于非推理模型,RL在Pass@3和Cons@3方面都带来了实质性改进。有必要注意一下的是,RL后的Pass@1性能可与SFT基线相媲美,这与之前的研究发现一致,表明RL可以更有效地采样正确的回应。

  对于推理语言模型(LRM),虽然在RL后Pass@1、Pass@3或Cons@3方面没有显著增益,但在一致性方面有明显改进;这可能归因于由过长轨迹引起的稀疏奖励信号。尽管如此,研究团队观察到一致性有显著改善,所有三次尝试中正确回答的问题数量增加了30%。这表明,对于LRM在代理任务中,接着来进行策略优化的收益有限。团队表现最好的模型在GAIA上达到了61.1%的Pass@3分数,在WebWalkerQA上达到54.6%。

  高质量轨迹数据对代理的有效SFT至关重要。研究团队提出了两种数据构建策略,分别创建了CRAWLQA和E2HQA数据集。对QA数据应用轨迹拒绝采样后,团队进一步进行过滤以提高数据质量。团队对QwQ进行了消融研究,评估了构建的数据集的有效性。在长链式思考中,当模型试图通过模拟观察来回答问题时,常常会出现幻觉,主要是因为它完全依赖内部推理机制。经过过滤的最终数据集在低数据环境下表现更好,强调了强大过滤的价值。

  SFT冷启动是必不可少的,因为代理任务需要强大的多步多工具指令跟随能力。团队使用QwQ经验性地研究了这一点,比较了单一强化学习设置下的性能。结果显示,Pass@3性能受到显著限制,在GAIA上仅达到5%。对于RL阶段,随着训练步骤的增加,Pass@3和Cons@3都显示出持续改进。

  强推理模型使用的思考模式知识难以转移到小型指令模型。如表所示,使用推理模型合成的轨迹训练的推理模型明显地增强了它们的推理性能。对于非推理模型,长链式思考也表现良好,但它引入了额外的问题,如更高的无效率,通常表现为重复,导致超出模型的上下文长度,特别是在较小规模的模型中。这些推理模式不容易转移到指令调整的模型,这些模型通常为任务跟随行为而非深度推理进行了优化。这一观察与之前研究的发现一致,这些研究强调了跨模型推理知识转移的脆弱性。因此,直接将推理能力从推理模型转移到指令模型仍然是一个非平凡的挑战。

  RL使更长的推理过程成为可能,并支持更复杂的代理行动。如Qwen-32B的结果所示,SFT导致更频繁的行动生成和更长的推理序列,这主要是由于团队训练数据的性质。RL框架通过允许模型优化决策序列而非单步输出,促进了更复杂推理策略的出现。这使模型能够从延迟奖励中学习,并更深入地探索行动空间,形成更连贯和更长的推理轨迹。此外,RL鼓励代理行为,模型自主决定中间步骤、子目标或工具来实现最终目标。这些能力在简单的任务跟随无法泛化的复杂环境中特别有用。

  网络代理在本质上抵抗稳定的动态、持续不断的发展的环境中执行。调整解码温度对最终性能影响很小,表明解码变异性本身不能解释代理不稳定性。相反,研究团队将大部分性能波动归因于网络环境本身的变化,突显了现实世界代理部署的非静态和开放式性质。与具有固定分布特性的静态数据集不同,现实世界环境随时间演变,要求代理在变化的上下文和部分可观察性下保持健壮。此外,为进一步研究可能的过拟合,团队进行了记忆压力测试:他们在GAIA开发集中69个正确采样的轨迹上对Qwen-7B模型进行了10个时期的微调,随后在同一集上评估其性能。尽管如此,贪婪解码仅达到37.4%,表明在开放域代理任务上稳定化的困难。

  尽管WebDancer框架展示了令人鼓舞的结果,但任旧存在一些限制,这些限制指向了未来工作的潜在方向。

  目前,WebDancer只整合了两个基本的信息搜索工具。未来,研究团队计划纳入更复杂的工具,例如通过将浏览器功能抽象为模块化工具来进行浏览器建模,以及用于与外部API交互的Python沙盒环境。这将使代理能够执行更人性化和高效的交互,不仅为解决更具挑战性的基准问题铺平道路,而且也为迈向更通用和自主的代理能力铺平道路。

  当前的实验聚焦于两个短答案信息搜索任务。然而,一个全面的网络代理还应可以有效的进行文档级研究和生成。扩展到这种开放域、长篇生成在代理任务中的奖励建模方面提出了重大挑战,这是团队正在积极研究的,特别是如何为开放式环境中的长篇生成设计更可靠和信息丰富的奖励信号。

  尽管团队已积累了大量问答对和相应轨迹,但有效扩展学习仍然是一个挑战,特别是在RL阶段,由于RL在代理任务中的计算和稳定能力限制,只能利用一小部分(例如5,000对)。这凸显了需要更有效的数据利用策略,以充分的发挥收集数据集的丰富性。

  RL阶段会产生巨大的计算和时间开销,因为每次滚出都涉及多轮工具调用和LLM完成。这种高成本不仅限制了可扩展性,还减慢了迭代开发和实验的速度。一个有希望的方向是开发更有效的机制来集成工具调用和模型完成,这能够大大减少滚出时间和成本,而不牺牲学习策略。

  团队考虑了两种由短链和长链思考特征的数据集。目前,模型是在单一数据集类型上训练的。在未来的工作中,团队计划开发一个混合推理代理模型,能够动态控制代理的推理长度。

  在工具调用中,有极大几率会出现幻觉。例如,在处理数学问题时,可能会错误调用实际不存在的计算工具。此外,在推理过程中有极大几率会出现过度行动,即使在答案已确认后仍执行冗余行动。

  尽管存在这些限制,WebDancer框架为构建能够在复杂网络环境中自主导航并解决信息搜索任务的代理提供了一个坚实的基础。通过持续改进数据质量、优化训练策略和增强工具集,WebDancer及类似系统有望在未来进一步提升性能并扩大应用范围。

  这项研究的整体贡献可总结为:抽象出端到端网络代理构建流程为四个关键阶段:第一步:基于现实网络环境构建多样且具有挑战性的深度信息搜索问答对;第二步:使用LLM和LRM从问答对中采样高质量轨迹以指导代理学习过程;第三步:进行微调以适应格式指令跟随到代理任务和环境;第四步:应用RL优化代理在现实网络环境中的决策和泛化能力。团队提供了一个系统的、端到端的流程,用于构建长期信息搜索网络代理。

  在GAIA和WebWalkerQA两个网络信息搜索基准上的广泛实验显示了团队流程和WebDancer的有效性。团队进一步提供了全面的分析,涵盖数据效率、代理系统评估和代理学习,为未来的研究提供了宝贵见解。

备案号:沪ICP备19021460号-5

在线客服 联系方式 二维码

服务热线

400 920 5548

扫一扫,关注我们