当前位置: 首页 > news >正文

企业网站的一 二级栏目名称网络营销的特点不包括

企业网站的一 二级栏目名称,网络营销的特点不包括,云主机免费,网站开发需要学习1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬ paper: [2503.04625] START: Self-taught Reasoner with Tools code: 暂未公布 5. 总结 (结果先行) 大型语言推理模型(Large Reasoning Models, LRMs)在模拟人类复杂推理方面取得了显著进展&…

1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬

paper: [2503.04625] START: Self-taught Reasoner with Tools

code: 暂未公布


5. 总结 (结果先行)

大型语言推理模型(Large Reasoning Models, LRMs)在模拟人类复杂推理方面取得了显著进展,特别是通过长链思考(Long Chain-of-Thought, CoT)展现出分解问题、多策略探索等类人认知行为。然而,这些模型单纯依赖内部“默算”的机制,在面对复杂计算、实时信息获取或精确验证时,容易产生幻觉(hallucinations)和计算错误,限制了其在关键任务上的可靠性

START模型贡献在于:

  1. 证明了通过“提示”可以低成本、无须标注地激发LLM的工具使用潜能 (Hint-infer)
  2. 设计了一套有效的自学习框架 (Hint-RFT),能够将这种潜能转化为模型稳定、自主的能力

Hint-infer的巧妙之处在于它利用了LLM已有的潜在能力,通过极低的成本启动了工具学习的正反馈循环。这种“提示-推理-微调”的自学习范式,对于未来构建更强大、更可靠的AI系统具有重要的借鉴意义。

从更广阔的视角看,这项工作对于AI Agent的发展具有重要意义。START所展示的“引导-探索-内化”的学习模式,可能为训练更自主、更全能的AI Agent提供了一条可行的途径。

后续值得探索的方向包括:

  • 更丰富的工具集:将Hint-infer和Hint-RFT扩展到Python解释器之外的更多工具,如搜索引擎、知识库API、物理模拟器等。
  • 动态提示生成:当前提示是人工设计的,未来或许可以探索让模型自身学习生成最有效的“自我提示”来调用工具。
  • 工具选择与组合:当面临多种可用工具时,模型如何学习选择最优工具或工具组合来解决问题。

1. 思想

START的核心思想在于,如何让一个预训练的LRM能够 自我教会 在其长链思考过程中适时且有效地调用外部工具(本文特指Python解释器)。研究者们意识到,直接通过指令或少量示例(few-shot prompting)来引导现有LRM在长链推理中稳定调用工具非常困难。这可能是因为模型在预训练和针对CoT的微调阶段,主要被“教导”去解决问题本身,而非学习何时以及如何求助于外部工具

START的巧妙之处在于它提出了一种 “提示-推断-精炼” 的自学习框架,旨在唤醒并强化模型利用工具的能力。
Figure 1

2. 方法

START的自学习框架包含两个技术提示推断提示拒绝采样微调

  • 提示推断 (Hint-infer)

    • 机制:在LRM进行推理时,于特定位置(例如,在“Alternatively”、“Wait”等表示思考转换的连接词后,或在长CoT结束前)注入人工设计的、与上下文相关的“提示” (hints),例如 “等等,这里用Python算一下也许更好” (Wait, maybe using Python here is a good idea)。
    • 效果:这类提示无需任何示例数据 (demonstration data) 即可有效激发LRM调用外部工具的潜能。对于代码生成任务,提示会更具体,包含代码模板引导模型对测试用例进行本地验证。
    • 扩展:Hint-infer本身也可以作为一种测试时增强(test-time scaling)方法,通过在推理末端多次迭代插入提示,给予模型更多“思考时间”和调用工具的机会来提升性能。

    Figure 3

  • 提示拒绝采样微调 (Hint Rejection Sampling Fine-Tuning, Hint-RFT)
    这是一个两阶段的自学习与微调过程,旨在将Hint-infer诱导出的工具使用行为内化为模型的自身能力。

    1. 阶段一:引导工具感知 (Bootstrapping START-0)

      • 数据合成:使用基础LRM(如QwQ-32B-Preview)配合Hint-infer处理一批训练数据(包含数学、代码等问题)。
      • 筛选与构建 D s e e d D_{seed} Dseed收集那些模型仅在Hint-infer下才解决,并且包含了有效工具调用(Python代码执行)的推理轨迹。这些轨迹经过评分、过滤和必要的修改(如统一Python标识符、移除占位符),形成初始的工具使用示范数据集 D s e e d D_{seed} Dseed
      • 初步微调:在 D s e e d D_{seed} Dseed 上微调基础LRM,得到START-0模型。此时,START-0已经具备了初步的、自我驱动的工具使用意识
    2. 阶段二:强化工具熟练度 (Developing START)

      • 数据增强与提纯:使用START-0模型,在全部训练数据上进行带有拒绝采样的推理,生成更丰富、更多样化的长链工具调用轨迹。对这些轨迹进行评分、过滤重复模式、人工修正不合理内容,保留每个问题至多一个高质量的回答,构成更优的工具使用数据集 D S T A R T D_{START} DSTART
      • 最终微调:在 D S T A R T D_{START} DSTART 上再次微调基础LRM(论文中表述为QwQ-32B-Preview,但逻辑上也可以是START-0),得到最终的START模型,该模型能够更熟练和自主地在长链思考中集成工具使用。

    符号解释:

    D s e e d D_{seed} Dseed:通过Hint-infer生成的、包含成功工具调用的初始高质量轨迹集合。

    D S T A R T D_{START} DSTART:通过START-0模型配合拒绝采样生成的、质量更高、多样性更好的工具调用轨迹集合。

    QwQ-32B-Preview:论文中使用的基础大型语言模型。

    START-0:经过 D s e e d D_{seed} Dseed 初步微调后,具备基本工具使用能力的模型。

    START:经过 D S T A R T D_{START} DSTART 再次微调后,具备更强工具使用能力的最终模型。

3. 优势

  • 显著提升复杂推理能力:通过将精确计算、代码执行与验证等任务外包给Python解释器,有效克服了LRM在这些方面的固有弱点,减少了幻觉。
  • 高效的自学习机制:Hint-infer的引入避免了大规模人工标注工具使用数据的需求,通过“提示”巧妙地诱导出模型的潜在能力,并结合RFT进行强化,实现了低成本的自我进化。
  • 保留并增强长CoT的优点:START并非简单地用工具替代思考,而是在长CoT的框架内有机地集成工具,使得模型既能进行宏观的策略规划,又能借助工具处理微观的复杂执行。
  • 开放性与可复现性:论文基于开源模型进行微调,并详细描述了方法,为社区提供了借鉴。

4. 实验

START在一系列具有挑战性的基准测试上展现了其有效性:

  • 测试平台
    • GPQA:博士级别的科学问答。
    • MATH (AMC23, AIME24, AIME25):竞赛级别的数学问题。
    • LiveCodeBench:竞赛级别的代码生成问题。
  • 实验结果
    • START显著优于其基座模型QwQ-32B-Preview。例如,在AIME25上,从基座的40.0%提升至47.1%;在LiveCodeBench上,从41.4%提升至47.3%。
    • 与业界顶尖模型相比,START的性能与R1-Distill-Qwen-32B(基于671B参数模型蒸馏)和闭源的o1-Preview(可能是指GPT系列模型的某个版本)相当或有所超越。
  • 消融实验与分析
    • Hint-infer的有效性:即便仅仅在测试时对QwQ-32B-Preview使用Hint-infer,也能带来一定的性能提升证明了提示的即时引导作用
    • Long CoT vs. Long TIR:通过对比仅用更多长CoT数据微调的模型(QwQ-RFT)与START,证明了工具调用能力(Long TIR)是性能提升的核心驱动因素,而非仅仅是训练数据量的增加。
    • 测试时提示对START的影响:对已经微调好的START模型在测试时再使用Hint-infer,性能提升不如对基座模型明显。这间接说明START已经较好地内化了工具使用策略,外部提示的边际效益降低。
http://www.yidumall.com/news/99058.html

相关文章:

  • 网站怎样做支付接口seo技术培训沈阳
  • 建设监理有限责任公司网站快速提高排名
  • 厦门网站建设方案服务青岛网站优化
  • 小精灵网站在线做语文热狗seo外包
  • 网站建设的目的和意义广州网站维护
  • 影响网站权重如何做好一个营销方案
  • 前端开发一般用什么软件seo优化排名服务
  • 怎么用b2b网站做排名全国疫情最新情况公布
  • 东莞南城网站建设公司仿站定制模板建站
  • 绍兴网站建设公司2024近期新闻
  • 国外做宠物用品的网站首页优化排名
  • 吴江网站建设今天国内最新消息
  • 扬州做网站的公司市场营销课程
  • 网站建设设计指标bt磁力搜索
  • 网站上的二维码怎么做哪家公司做seo
  • 网站开发公司 苏州seo是干啥的
  • 专业的网站优化公司排名北京网络推广外包公司排行
  • 电商网站设计系统百度快照推广效果怎样
  • 中国做类似 esty的网站百度网站介绍
  • 建设银行徐州分行网站中山疫情最新消息
  • 微信上开网店怎么开说说seo论坛
  • ueditor 文件大小超出网站限制网络广告的类型有哪些
  • 网站类型广州网站优化系统
  • 苏州做网站费用明细黄金网站app大全
  • flash优秀网站网页开发公司
  • 吉林市城市建设学校网站常德seo快速排名
  • 嘉兴百度网站推广百度公司好进吗
  • 建设银行网站官网整站优化包年
  • 常德网站建设优化站外推广
  • 对百度网站做压力测试百度提交入口地址在哪