当前位置: 首页 > news >正文

做网站郑州汉狮怎样制作网页新手自学入门

做网站郑州汉狮,怎样制作网页新手自学入门,公司名字大全不重名,南山网站制作为什么需要奖励模型 因为指令微调后的模型输出可能不符合人类偏好,所以需要利用强化学习优化模型,而奖励模型是强化学习的关键一步,所以需要训练奖励模型。 1.模型输出可能不符合人类偏好 上一篇讲的SFT只是将预训练模型中的知识给引导出来…

为什么需要奖励模型

因为指令微调后的模型输出可能不符合人类偏好,所以需要利用强化学习优化模型,而奖励模型是强化学习的关键一步,所以需要训练奖励模型。

1.模型输出可能不符合人类偏好

上一篇讲的SFT只是将预训练模型中的知识给引导出来的一种手段,而在SFT 数据有限的情况下,我们对模型的引导能力就是有限的。这将导致预训练模型中原先错误有害的知识没能在 SFT 数据中被纠正,从而出现「有害性」或「幻觉」的问题。

2.需要利用强化学习优化模型

一些让模型脱离昂贵标注数据,自我进行迭代的方法被提出,比如:RLHFDPO,RLHF是直接告诉模型当前样本的(好坏)得分,DPO 是同时给模型一条好的样本和一条坏的样本。最终目的是告知模型什么是好的数据,什么是不好的数据,将大模型训练地更加符合人类偏好。

3.设计有效的奖励模型是强化学习的关键一步

  • 设计有效的奖励模型是 RLHF 的关键一步,因为没有简单的数学或逻辑公式可以切实地定义人类的主观价值。
  • 在进行RLHF时,需要奖励模型来评估语言大模型(actor model)回答的是好是坏,这个奖励模型通常比被评估的语言模型小一些(deepspeed的示例中,语言大模型66B,奖励模型只有350M)。奖励模型的输入是prompt+answer的形式,让模型学会对prompt+answer进行打分。
  • 奖励模型的目标是构建一个文本质量对比模型,对于同一个提示词,SFT 模型给出的多个不同输出结果的质量进行排序。

训练奖励模型

1.训练数据(人工排好序的数据)

奖励模型的训练数据是人工对问题的每个答案进行排名,如下图所示:
在这里插入图片描述
对于每个问题,给出若干答案,然后工人进行排序,而奖励模型就是利用排序的结果来进行反向传播训练。

问题:最终目的是训练一个句子打分模型,为什么不让人直接打分,而是去标排序序列呢?

直接给生成文本进行打分是一件非常难统一的事情。如果对于同样的生成答案,有的标注员打 5 分,但有的标注员打 3 分,模型在学习的时候就很难明确这句话究竟是好还是不好。
既然打绝对分数很难统一,那就转换成一个相对排序的任务能够更方便标注员打出统一的标注结果。
模型通过尝试最大化「好句子得分和坏句子得分之间的分差」,从而学会自动给每一个句子判分。

问题:使用多少数据能够训练好一个RM?

在 OpenAI Summarize 的任务中,使用了 6.4w 条]偏序对进行训练。
在 InstructGPT 任务中,使用了 3.2w 条 [4~9] 偏序对进行训练。
在 StackLlama]任务中,使用了 10w 条 Stack Exchange 偏序对进行训练。
从上述工作中,我们仍无法总结出一个稳定模型需要的最小量级,这取决于具体任务。
但至少看起来,5w 以上的偏序对可能是一个相对保险的量级。

2.模型架构

奖励模型(RM 模型)将 SFT 模型最后一层的 softmax 去掉,即最后一层不用 softmax,改成一个线性层。RM 模型的输入是问题和答案,输出是一个标量即分数。
由于模型太大不够稳定,损失值很难收敛且小模型成本较低,因此,RM 模型采用参数量为 6B 的模型,而不使用 175B 的模型。

问题:RM 模型的大小限制?

Reward Model 的作用本质是给生成模型的生成内容进行打分,所以 Reward Model 只要能理解生成内容即可。
关于 RM 的规模选择上,目前没有一个明确的限制:
Summarize 使用了 6B 的 RM,6B 的 LM。
InstructGPT 使用了 6B 的 RM,175B 的 LM。
DeepMind 使用了 70B 的 RM,70B LM。
不过,一种直觉的理解是:判分任务要比生成认为简单一些,因此可以用稍小一点的模型来作为 RM。

3.损失函数(最大化差值)

假定现在有一个排好的序列:A > B > C >D。
我们需要训练一个打分模型,模型给四句话打出来的分要满足 r(A) > r(B) > r(C) > r(D)
那么,我们可以使用下面这个损失函数:
在这里插入图片描述
其中,yw 代表排序排在 yl 的所有句子。
用上述例子(A > B > C > D)来讲,loss 等于:
loss = r(A) - r(B) + r(A) - r(C) + r(A) - r(D) + r(B) - r(C) + ... + r(C) - r(D)
loss = -loss

为了更好的归一化差值,我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。
可以看到,loss 的值等于排序列表中所有排在前面项的reward减去排在后面项的reward的和。
而我们希望模型能够最大化这个好句子得分坏句子得分差值,而梯度下降是做的最小化操作。因此,我们需要对 loss 取负数,就能实现最大化差值的效果了。

问题:奖励模型的损失函数为什么会比较答案的排序,而不是去对每一个答案的具体分数做一个回归?

每个人对问题的答案评分都不一样,无法使用一个统一的数值对每个答案进行打分,训练标签不好构建。如果采用对答案具体得分回归的方式来训练模型,会造成很大的误差。但是,每个人对答案的好坏排序是基本一致的。通过排序的方式避免了人为的误差。

问题:奖励模型中每个问题对应的答案数量即K值为什么选 9 更合适,而不是选择 4 呢?

  • 进行标注的时候,需要花很多时间去理解问题,但答案之间比较相近,假设 4 个答案进行排序要 30 秒时间,那么 9 个答案排序可能就 40 秒就够了。9 个答案与 4 个答案相比生成的问答对多了 5 倍,从效率上来看非常划算;
  • K=9时,每次计算 loss 都有 36 项rθ​(x,y)需要计算,RM 模型的计算所花时间较多,但可以通过重复利用之前算过的值(也就是只需要计算 9 次即可),能节约很多时间。

总结

奖励模型通过与人类专家进行交互,获得对于生成响应质量的反馈信号,从而进一步提升大语言模型的生成能力和自然度。与监督模型不同的是,奖励模型通过打分的形式使得生成的文本更加自然逼真,让大语言模型的生成能力更进一步。

http://www.yidumall.com/news/106164.html

相关文章:

  • 南充网站建设服务商网络营销运营策划
  • 知科网站百度seo优化培训
  • 哪些做网站的公司比较好成都seo招聘
  • 单片机培训整站快速排名优化
  • 适合做手机主页的网站排名优化关键词公司
  • 30岁学设计师晚不晚windows10优化大师
  • 网站和系统的区别市场推广怎么写
  • 石家庄网站建设今天改网名广告联盟平台排名
  • 联通营业厅做网站维护上海外贸网站seo
  • 哪个网站免费建站最好软文的目的是什么
  • 做外汇新闻网站排名公式
  • ppt做视频模板下载网站有哪些百度地图官网2022最新版下载
  • 重庆网站建设首选卓光南宁seo怎么做优化团队
  • 自己怎么给网站做优化大数据营销策略有哪些
  • 网站建设写程序用什么软件如何开通网站
  • 什么是cms系统湖南网站seo地址
  • wordpress导入xml一直等待响应seo价格查询公司
  • 政府网站集约化建设意义微信广告推广如何收费
  • 口腔门诊建设网站郑州网站推广
  • 济南网页设计seo关键字优化教程
  • 香港亚洲博览馆地址河南网站推广优化
  • 电子商务网站APP南京网络推广优化哪家好
  • wordpress 4.9.7 中文广州seo排名外包
  • 建设文化产业网站的方案nba排名最新
  • 网站中添加百度地图百度百科词条
  • 做服装行业网站怎么每天更新内容谷歌seo视频教程
  • 商标设计网站猪八戒培训学校怎么招生
  • 专业的网站建设联系世界足球世界排名
  • 中国建设执业资格注册中心网站谷歌官网登录入口
  • 泊头那家做网站外贸如何做网站推广