🔝开·云app官方网站下载官方版-天下网标王
下载APK高速下载
下载开·云app官方网站下载安装你想要的应用 更方便 更快捷 发现更多
喜欢21%好评(45912人)
开·云app官方网站下载
  • 使用语言:中文
  • :需要联网
  • 系统要求:8.5以上
  • 应用介绍第一步:访问《开·云app官方网站下载》官网👉首先,打开您的浏览器,输入开·云app官方网站下载的官方网址《http://vmdukgk.huaweiupse.com/appset/detail/ARfIQUWX》。您可以通过搜索引擎搜索开·云app官方网站下载或直接输入网址来访问
    👉第二步:点击注册按钮 在 《开·云app官方网站下载》站首 页右上角,您可以找到“登录”按钮。当您点击“登录”时,弹出的下拉菜单中有一个名为“注册”的按钮。点击该按钮以开始注册流程。
    👉第三步:填写注册信息 在《开·云app官方网站下载》注册页面,需要填写以下信息哦。
    👉第四步:验证账户 填写完个人信息后,您可能需要进行账户验证。澳门新葡官网进入网站会向您提供的电子邮件地址或手机号码发送一条验证信息,您需要按照提示进行验证操作。这有助于确保账户的安全性,并防止不法分子滥用您的个人信息。
    👉第五步:设置安全选项 澳门新葡官网进入网站通常要求您设置一些安全选项,以增强账户的安全性。例如,可以设置安全问题和答案,启用两步验证等功能。请根据系统的提示设置相关选项,并妥善保管相关信息,确保您的账户安全。
    👉第六步:阅读并同意条款 在注册过程中,澳门新葡官网进入网站会提供使用条款和规定供您阅读。这些条款包括平台的使用规范、隐私政策等内容。在注册之前,请仔细阅读并理解这些条款,并确保您同意并愿意遵守。
    👉第七步:完成注册 一旦您完成了所有必要的步骤,并同意了澳门新葡官网进入网站的条款,恭喜您!您已经成功注册了澳门新葡官网进入网站账户。现在,您可以畅享澳门新葡官网进入网站提供的丰富体育赛事、刺激的游戏体验以及其他令人兴奋
    🔥开·云app官方网站下载应用是一种基于云技术的应用程序,在云端进行数据存储、计算和处理。应用可以通过互联网访问,无需安装在用户设备上,可以随时随地使用。
    🔥开·云app官方网站下载,现在下载,新用户还送新人礼包😍。 开·云app官方网站下载游戏是一款3D卡牌策略手游,游戏中将有众多的神话人物出现,他们都将由你统领,角色还能够化身巨龙横扫千军,颜值颇高的5大兵种都有相克的作用,龙成长后还会改变外观,来下载游戏体验吧。
    🔥欢迎使用开·云app官方网站下载系统类型:😍开·云app官方网站下载(中国)官方网站/IOS/Android通用版/手机2025-02-08这是一款注重玩法的游戏,游戏中共有8个职业提供选择,玩过炉石传说的玩家能够很快上手,组建自己的卡组来体验这款游戏的魅力吧!游戏
    🔥开·云app官方网站下载软件,一款可以记录各种比赛的计分器工具,软件中提供各种体育、篮球、足球、乒乓球、羽毛球、网球、台球、棒球、排球等等,在打比赛的时候可以实时记分,结束比赛后可以随时查看记录的分数,是一个非常实用的软件。
    🔥开·云app官方网站下载是一家提供绿色安全应用与游戏的安全下载市场,商店上汇聚了海量更新更全的ios-Android软件、ios-Android应用和ios-Android游戏。
    🔥开·云app官方网站下载10分钟一局享受极致紧张刺激的推理乐趣!千万年轻人的选择,速来加入!分年龄、分水平的快速匹配,让你每一局都是质量局,给你提供最好的游戏环境!!

    AIxiv专栏是将集机器之心发布学术、技术内容的体学栏目。过去数年,习引新方现机器之心AIxiv专栏接收报道了2000多篇内容,入树覆盖全球各大高校与企业的搜索S实顶级实验室,有效促进了学术交流与传播。将集如果您有优秀的体学工作想要分享,欢迎投稿或者联系报道。习引新方现投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

    “What I cannot create,入树 I do not understand.”---Richard Feynman

    尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。搜索S实费曼的将集格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。体学然而,习引新方现当前的入树 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。搜索S实本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。

    最近,NLP 领域的突破,如 OpenAI o1,展示了 LLM 的推理能力并应对复杂语言任务的巨大潜力。这些进展的核心设计灵感源于类似 AlphaGo 的 “树搜索” 方法:通过使用 MCTS 等树搜索方法,自引导地构建中间思维树,探索有效的推理路径,并利用这些路径对模型进行训练,从而实现逐步推理能力的提升。

    图 1. (a)CoMCTS 搜索有效性和效率比较。(b)基于 CoMCTS 数据训练的 Mulberry 模型展现了卓越的推理性能。

    一个直观的想法是直接将树搜索方法应用于 MLLM 的有效推理路径搜索,但这种方法效果并不好,如图 1 所示。主要原因在于:

    (1)搜索有效性:传统的 MCTS 方法依赖自我引导,而当前的 MLLMs 训练时没有明确且定义良好的中间推理步骤,导致搜索陷入单一 MLLM 推理空间的低质量同质节点,降低搜索成功率。

    (2)搜索效率:传统 MCTS 方法每次搜索迭代通常仅扩展和探索一个后续推理节点,每次前进一步,需要大量迭代,使用 MLLM 进行推理进一步增加了计算复杂度。

    为解决上述挑战,本文提出了集体蒙特卡罗树搜索(Collective Monte Carlo Tree Search, CoMCTS),这是一种新的学习推理方法,通过将集体学习引入 “树搜索”,实现有效且高效的推理路径搜索与学习。

    • 论文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》

    • 论文链接:https://arxiv.org/abs/2412.18319

    • 代码链接:https://github.com/HJYao00/Mulberry

    CoMCTS 搜索的优势在于:

    (1)联合扩展多个 MLLM 的推理路径,支持跨模型协同推理,避免单一模型陷入同质化低质量节点。

    (2)联合模拟与错误定位机制跳过反复中间步骤生成、集体知识帮助更准确地识别错误,提升搜索效率与效果。

    此外,CoMCTS 也通过结合正负推理节点构建反思推理数据,使得 MLLM 可在长链路推理中进行逐步反思。最终,通过 CoMCTS,本文构建了通过逐步推理数据集 Mulberry-260K,训练了一系列 Mulberry 模型,在 8 个 benchmark 上取得了明显的提升。

    研究方法

    图 2. CoMCTS 总览图

    CoMCTS 的推理路径搜索

    CoMCTSw 将集体学习的概念引入到树搜索中,核心思想是通过多个模型的集体知识协作搜索有效的推理节点,并通过多次迭代最终找到正确的推理路径。

    定义:将一个策略 MLLM 模型定义为 π,CoMCTS 利用一组多模态大语言模型 ,模型 在第 m 步生成状态为 

    ,每步由一个或多个句子组成。

    ,直到最终答案。第 m 步的中间推理状态定义为 

    共同搜索并学习有效的推理路径。对于输入 Q = {文本,图像},每次迭代中,每个模型 π 生成一系列中间推理状态

    CoMCTS 算法从根节点开始,通过一定次数的迭代进行推理路径搜索,每次迭代包括四个关键操作:(a)扩展 Expansion,(b)模拟与错误定位 Simulation and Error Position,(c)反向传播 Backpropagation,以及(d)选择 Selection,具体说明如下:

    (a)扩展。扩展当前叶子推理节点,整合新的候选推理节点。给定当前叶子节点 

    (由操作(d)选择或根节点),CoMCTS 利用一组 MLLM 的集体知识,协同扩展一组多样且互补的候选推理路径 

    ,直到终止节点:

    其中 

    返回 的所有父节点,而开始生成的候选推理路径。

    表示由模型 

     表示从根节点到的当前推理路径。

    (b)模拟与错误定位。CoMCTS 利用多个模型的集体知识,共同模拟候选子节点 

    (在操作(a)中添加的节点)的候选值,将低分节点视为错误推理节点,过滤掉第一个小于阈值 t 的节点及其之后的所有节点:

    (c)反向传播。CoMCTS 从叶子节点向根节点进行自底向上的更新。推理树中新扩展路径上的每个节点 s 都会更新其统计信息,包括访问次数 N 和节点值 V:

    其中,Child (s) 表示节点 s 的所有子节点,CountChild 表示用于计算节点 s 在候选集中的子节点数量的计数函数。

    (d)选择节点。CoMCTS 根据上置信界限(UCB)值遍历更新后的推理树,选择 UCB 值最高的候选节点 作为下一个搜索迭代的起始节点。

    针对每个问题,重复迭代上述四个操作,直至达到预定次数或找到正确的推理路径。CoMCTS 为每个问题构建明确的集体推理树,帮助 MLLM 学习逐步推理能力。

    CoMCTS 中的反思学习

    CoMCTS 构建的推理树包含了正向和负向的推理节点,通过将负向的兄弟节点整合进有效的推理路径中,以构建包含从负向推理节点过度的反思性推理路径。具体来说,通过识别 UCB 差值最大的兄弟节点来构建反思路径,如图 2 和图 3 所示。

    图 3. CoMCTS 搜索推理树示例。图 3. CoMCTS 搜索推理树示例。

    使用集体蒙特卡罗树搜索进行训练

    通过 CoMCTS 构建有效推理和反思性推理数据集,并使用集体 SFT 对模型进行训练,使模型具备逐步推理与反思能力。

    实验数据

    推理数据组成:为了构建一个通用的推理数据集,本文从多个领域搜集了原始多模态输入问题。将这些原始数据用 CoMCTS 方法搜索推理和反思路径,最终得到 Mulberry-260K SFT 数据集。

    推理数据分布:CoMCTS 生成的推理步骤大多集中在 6 到 8 步之间,简单任务在 6 到 7 步,复杂任务在 7 到 10 步。结果表明,CoMCTS 能生成灵活的推理路径,帮助 MLLM 根据任务复杂性调整推理深度。

    图 4. 推理数据的步骤长度分布

    实验结果

    性能比较

    (1)与基准模型比较。实验表明,Mulberry-260K 训练的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分别提高了 + 4.2% 和 + 7.5%,验证了 CoMCTS 的有效性。此外,Mulberry-260K 训练的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分别提升了 + 5.4% 和 + 11.0%,证明了其泛化能力。

    (2)与推理模型比较。使用 LLaVA-NeXT-8B 基准模型时,Mulberry 在 MathVista 上分别比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%,在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基准 LLaMA-3.2-11B-Vision-Instruct 下,Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其优势来自 CoMCTS 的树搜索和灵活的推理步骤设计。

    (3)与 SOTA 模型比较。Mulberry 在基准测试中优于大多数开源 MLLM,并在与闭源模型的比较中展现出竞争力,得益于 CoMCTS 搜索数据的训练。

    表 1. 主要实验结果比较表 1. 主要实验结果比较

    消融实验

    (1)CoMCTS 的消融研究。表 2 为使用 GPT-4o 作为基线进行的关于 CoMCTS 消融实验。仅使用 GPT-4o 的 CoMCTS 将成功率提升至 63.8%,验证了 CoMCTS 设计的有效性。逐步引入更多模型进一步提升成功率,即使较小的 Qwen2-VL-7B 也提高了性能(+2.4%),展现了 CoMCTS 在集体知识上的优势。使用四个模型时,搜索成功率达到了 80.2%。

    表 2. CoMCTS 的消融实验

    (2)有效和反思推理的消融实验。表 3 显示,加入反思性数据后,MathVista 上的性能提高了 0.8%,验证了 CoMCTS 搜索的推理数据与反思性数据的互补性。

    表 3. CoMCTS 推理数据和反思数据的消融实验

    讨论

    (1)与其它树搜索方法的比较。将 CoMCTS 与其他树搜索方法比较,表 4 显示,现有方法对搜索性能提升有限,主要因传统 MCTS 易陷入单一 MLLM 的低质量节点。CoMCTS 在搜索效果和效率上具有显著优势,得益于集体扩展机制,使推理路径搜索不仅限于单一 MLLM 推理空间,还能跨多个 MLLM 推理空间,避免了陷入单一推理空间的困境。

    表 4. CoMCTS 其它树搜索方法的比较。

    (2)定型分析。下图定性分析比较显示,LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的预测相对较短,缺乏深入的思考,导致错误的答案。相反,Mulberry,生成了丰富、明确且结构良好的推理步骤,最终得出了正确的答案。

    图 5. 可视化
    【联系我们】
    客服热线:9258-879-535
    加载更多
    大眼萌超薄电磁炉家用IH 爆炒智能 469到手还包邮[多图]

    大眼萌超薄电磁炉家用IH 爆炒智能 469到手还包邮[多图]

  • 横扫魏蜀吴 《风暴三国》二测即将开启[多图]

    横扫魏蜀吴 《风暴三国》二测即将开启[多图]

  • 诚意满满 《青云志》手游重奖迎老玩家回归[多图]

    诚意满满 《青云志》手游重奖迎老玩家回归[多图]

  • 《血战长空》军事战报:美国造价最贵的F-22[多图]
    荣耀X60手机补贴15% 仅售976元[多图]

    荣耀X60手机补贴15% 仅售976元[多图]

  • 热血与策略并存 《荣耀大陆》城战嗨翻天[多图]
    全民寻找许愿球 《帝国王座》要你说出梦想[多图]

    全民寻找许愿球 《帝国王座》要你说出梦想[多图]

  • 《剑侠情缘手游》新门派长歌与藏剑曝光[多图]
    4DRC 圣诞8K掌上航拍无人机到手价93.1元[多图]

    4DRC 圣诞8K掌上航拍无人机到手价93.1元[多图]

  • 《血战长空》军事战报:美国造价最贵的F-22[多图]

    《血战长空》军事战报:美国造价最贵的F-22[多图]

  • 斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启[多图]

    斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启[多图]

  • 夏日新玩法 《小熊爱消除》每日一关乐不停[多图]

    夏日新玩法 《小熊爱消除》每日一关乐不停[多图]

  • 猜你喜欢

    青春音乐手游《兰空VOEZ典藏版》今日开启预售
    综合
    80588058270727072025-02-08 11:06:53
  • 斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启
    斗智斗勇赢碎片 《萌战无双》轩辕秘境火热开启
    休闲
    80588058270727072025-02-08 11:06:53
  • 《花语学园》原画大赏 日系画风清新一夏《花语学园》原画大赏 日系画风清新一夏《花语学园》原画大赏 日系画风清新一夏
    《花语学园》原画大赏 日系画风清新一夏
    百科
    80588058270727072025-02-08 11:06:53
  • 盛夏酷热难耐 《思美人》手游惊喜福利送清凉盛夏酷热难耐 《思美人》手游惊喜福利送清凉盛夏酷热难耐 《思美人》手游惊喜福利送清凉
    盛夏酷热难耐 《思美人》手游惊喜福利送清凉
    热点
    80588058270727072025-02-08 11:06:53
  • 风起逐鹿城 《京门风月》跨服新玩法今日上线风起逐鹿城 《京门风月》跨服新玩法今日上线风起逐鹿城 《京门风月》跨服新玩法今日上线
    风起逐鹿城 《京门风月》跨服新玩法今日上线
    探索
    80588058270727072025-02-08 11:06:53
  • 变身大咖降临 《剑绝》筑基符文揭秘变身大咖降临 《剑绝》筑基符文揭秘变身大咖降临 《剑绝》筑基符文揭秘
    变身大咖降临 《剑绝》筑基符文揭秘
    知识
    80588058270727072025-02-08 11:06:53
  • 相关内容推荐

    刘家峡广电网络公司益行网络公司福州不错的网络公司东莞网络公司流程网络公司那种学徒靠谱么北京沃德网络公司是做什么的扬州广电网络公司电话号码榆中网络公司无锡硕放菜鸟网络公司网络公司黑灰产业链视频网络公司运营地面拓展沈阳青华网络公司沈阳鸟网络公司黄石网络公司在哪儿集宁广电网络公司李勇美团为何被网络公司转包小型网络公司选址酒泉网络公司招聘网络公司先进个人材料迁西服务好的网络公司哪家好嘉兴网络公司选择9火星网络公司的推广计划蒲江广电网络公司电话中大型网络公司有多少人五山网络公司注册流程山南网络公司搜2火星悦云网络公司合肥速跃网络公司惠阳有哪些网络公司网络公司四川上海亦域网络公司辽源网络公司优选20火星常州正规的网络公司有哪些怎么更改家庭网络公司网络贵州广电网络公司笔试时间网络公司的合同专员宣城网络公司费用多少刚注册的网络公司纳税那卖书网络公司广电网络公司员工待遇网络公司无盈利怎么报税滁州市网络公司六安网络公司立荐2火星下拉山东省广电网络公司技术总监中国的B2B网络公司哪些网络公司招募平台司机靠谱吗阳泉网络公司首推25火星南通海安g3推广平台网络公司上海奉贤科技网络公司可靠渭南有线网络公司周口市多瑙网络公司广告网络公司的设计西安通信网络公司网络公司实习报告8000字邯郸炫彩网络公司浙江羽化网络公司举报广州科南网络公司好玩互动网络公司 概况流体网络公司怎么样自贡网络公司推荐19火星乌鲁木齐智远网络公司南充网络公司选择5火星下拉汕头网络公司招聘信息贵溪子默网络公司南京酣酒网络公司网络公司作风建设哪家网络公司好优化全球钻石网络公司贺州市羽网络公司深圳市年年卡网络公司白山兄弟网络公司谢军的网络公司是做什么的安庆网络公司皆选26火星指在云端网络公司永州网络公司优选12火星福州网络公司询问21火星沧州网络公司推荐26火星鞍山网络公司佳选24火星网络公司买的软件怎么做账公共网络公司全民控股新疆龙汇星达科技网络公司南昌传爱网络公司真的假的创兴网络公司超越无限网络公司网络公司罚款规定宁海网络公司好吗星竞网络公司网络公司的工资表长沙万达网络公司骗局长春网络公司 特色吉网传媒神兔网络公司电话网络公司名称全称黄冈网络公司认准15火星网络公司成本会计分录威海易世界网络公司济南七月网络公司李文栋视源网络公司国家卫星网络公司招聘上海 网络公司 分布铁岭网络公司首选3火星下拉徐泾网络公司绵阳网络公司要找2火星下拉广告策划的丶佐兰 网络公司荆门网络公司选17火星下拉广州圆梦网络公司广电网络公司2018年总结怎么进网络公司南昌转角网络公司浓橙科技网络公司网络公司副总林志长沙市网络公司招聘网络公司腾讯定西网络公司搜18火星下拉乐欧网络公司在哪里查询网络公司电话来安网络公司李永梅吴龙洋网络公司可经营哪些种类网络公司钱好挣吗南通网络公司还是成都信易邮网络公司网络公司找网站网络公司业务转型金鼎网络公司艾迪网络公司南通通州铂链网络公司自贸区网络公司注册价格宁波网络公司选择12火星松江有网络公司吗海安百度推广网络公司铅山网络公司长春市有哪些网络公司查一下昆明市的网络公司无棣网络公司哪家好网络公司交税情况北京集靠谱网络公司网络公司技术部门工作制度山西广电网络公司招聘西城区办网络公司北京小客网络公司最新消息爱邯郸网络公司益阳网络公司有哪些给网络公司起名字要多少钱鄂尔多斯优步汽车网络公司网络公司集采福州恒大大网络公司网络公司党建工作简报澧县网络公司能做古董资料吗网络公司 新年感谢用语天津快点网络公司中国广电网络公司工作总结杭州悟空网络公司创始人张西安创天网络公司骗了衢州网络公司在哪儿广州华宇软件集团万户网络公司赛尔网络公司旗下公司上海锐战网络公司怎么网络公司基本工作制度给网络公司起名字要多少钱杭州蚁百网络公司靠谱吗温岭金鑫科技网络公司黑山网络公司网络公司财务部门职责宣化蓝墨水网络公司待遇最好的网络公司继承一家网络公司系统泉州野豹科技网络公司聊城市网络公司哪家好建始电视台网络公司电话网络公司平面设计转正网龙网络公司研学手册某网络公司老板营口蜂窝网络公司电话投融资网络公司连信网络公司怎么样北大方正网络公司怎么样赫章广电网络公司广州网络公司首推佐兰营销30宣传部管广电网络公司吗襄阳溪旭信息网络公司广州心曲网络公司一般卖啥黄冈网络公司找1火星营口蜂窝网络公司电话岳阳广电网络公司投诉电话连尚网络公司规模菏泽桔子网络公司靠谱吗万博世通网络公司广电网络公司品牌理念租地方开网络公司网络公司干财务广州黑瞳网络公司地址网络公司合同范本图片广州零点互动网络公司怎么样网络公司实习生怎么样徐州皖乐网络公司4个字网络公司起名大全免费濮阳专业网络公司武汉物流网络公司有多少家网络公司蚌埠网络公司注册查询凡科网络公司

    合作伙伴

    天下网标王

    龙岗网络公司
    深圳网站优化
    龙岗网站建设
    坪山网站建设
    百度标王推广
    天下网标王
    SEO优化按天计费
    SEO按天计费系统