当前位置: 首页 > news >正文

网站诊断分析报告模板及优化执行方案.doc网站建设的一般步骤

网站诊断分析报告模板及优化执行方案.doc,网站建设的一般步骤,厦门网站建设 php,网络平台是什么意思arxiv: https://arxiv.org/abs/2305.14992 问题背景:当前LLM推理受到几个关键因素的限制: (1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去…

arxiv: https://arxiv.org/abs/2305.14992

问题背景:当前LLM推理受到几个关键因素的限制:

(1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去预测世界状态和模拟执行动作产生的长期结果影响,从而导致规划能力和执行动作能力不足。

(2)缺乏奖励机制来评估和引导推理走向理想状态。

(3)无法平衡探索(未访问过的节点)与利用(访问过的节点),从而无法有效地探索广阔的推理空间。

本文方法概述:提出RAP(Resoning via Planning)框架,让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM,并通过有指导准则的规划进行推理,让后续产生有高奖励值的推理路径。

本文方法框架:

语言模型作为世界模型

  • 用自然语言在prompt中定义状态和动作。
  • 根据定义的状态和动作,将推理过程描述为马尔可夫过程(MDP)。

奖励设计

  • 动作的log概率作为奖励。
  • 采样多次世界模型的答案,使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
  • 让LLM自己去评估结果。(LLM识别推理错误,要比避免在生成中产生错误更容易)
  • 根据特定任务可以启发式的插入就爱你老公i函数。

采用蒙特卡洛树搜索进行规划

  • MCTS迭代式的构建了一颗搜索树,节点代表状态,边代表活动和在当前状态下应用动作生成下一个状态的过渡。
  • 选择
    使用上限置信界限(UCT)去选择节点,来平衡探索(未访问的节点)和利用(访问过的高价值的节点)
    在这里插入图片描述

其中N(s)是节点s在之前的迭代中被访问的次数,c(s,a)是状态s下进行动作a的子节点。之前访问的子节点越少(即该子节点的不确定性越高),方程中第二项就越高。权重w控制着探索和里用的平衡。当w为0时,退化为贪心搜索方式。当w不为0时,若某一条路径经常被选择, 会逐渐减小未来会产生的收益增益,让LLM对探索较少的路径进行探索。

  • 扩展
    当节点不为终端节点的时候,将根据叶结点的状态,使用LLM对d个可能的动作进行采样,然后使用LLM预测各自的下一个状态,从而产生新的子节点,直至达到叶子结点为止。
  • 反向传播
    当达到叶结点时候进行反向传播。
  • 构架完成进行推理
    达到预订MCTS的迭代次数,则终止算法并从构建的树中选择最终的推理轨迹进行评估。选择方式有两种;1)从根节点开始,每次选择Q值最高的动作,直到达到终端叶子结点。2)从生成高奖励的迭代中选择路径,或者选择访问次数最多的叶结点。本文在实践中发现方法二效果更好。
  • 路径融合
    RAP可以从不同的MCTS迭代中产生多个轨迹和答案,这些轨迹和答案将聚合形成最终的答案。但是,像规划生成、逻辑推理的问题需要完整的推理轨迹作为输出,这一类不会被使用路径融合。

实验情况

  • 实验场景:规划生成、数学推理问题、逻辑推理
  • 实验设置:基座模型Llama-33B、temperature=0.8
  • 基线方法:COT、Least-to-Most、Self-Consistency(SC)
  • 实验效果:
    • 规划生成

      • 采用Blocksworld数据集,该数据集主要用于让Agent移动不同颜色的方块,达到目标要求。
        在这里插入图片描述
        在这里插入图片描述
    • 数学推理

      • 采用GSM8K数据集
        在这里插入图片描述
    • 逻辑推理

      • 采用PrOntoQA数据集,提供一组事实和逻辑规则,模型需要基于事实应用逻辑规则,来验证事实的真假。

在这里插入图片描述

http://www.yidumall.com/news/102015.html

相关文章:

  • 企业网站建设有什么好处今日热点新闻头条国内
  • 网站的联系我们怎么做百度导航下载2020新版语音
  • 英文购物网站建设襄阳网站推广优化技巧
  • 做网站预算整站seo服务
  • 宠物论坛网站策划书韶关疫情最新消息
  • 重庆网站制作那家好学网络运营需要多少钱
  • 网站开发亿码酷流量百度荤seo公司
  • wordpress 开发指南网站排名优化公司
  • behance设计网站官网网页搜索优化
  • 中国宁波网站广东优化疫情防控措施
  • 橘子建站是什么有哪些网络营销公司
  • 湖北网站建设平台应用商店aso优化
  • 做网站申请个体户淘宝seo 优化软件
  • 苏州建设有限公司seo刷网站
  • 做网站需要什么样的电脑配置电商热门关键词
  • wordpress设置标题字体厦门seo网站推广优化
  • 青岛高级网站建设服务bt磁力在线种子搜索神器下载
  • 上海百度做网站深圳搜狗seo
  • 毕业设计做网站选题深圳优化公司义高粱seo
  • 少儿编程免费网站郑州企业网站seo
  • 杭州建设厅官方网站石家庄关键词优化软件
  • 用c 做网站和数据库方法google store
  • 系统炸了我成了系统系统优化软件哪个好
  • 衡水做网站改版防疫测温健康码核验一体机
  • python库之web网站开发PPT域名被墙检测
  • 企业网站的建立特点是什么电子商务seo实训总结
  • 中国工程局人才招聘网奇零seo赚钱培训
  • 网站怎么做json数据百度竞价排名点击软件
  • 杭州网站建设的企业优化法治化营商环境
  • 本地佛山顺德网站建设seo网站推广简历