当前位置: 首页 > news >正文

怎么制作网站视频播放器广州今日头条新闻最新

怎么制作网站视频播放器,广州今日头条新闻最新,设计公司装修图,把网站放到域名上1. 摘要 尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致…

1. 摘要

尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。

2. 模型和benchmark

  • 模型:BERT-Large和Llama2
    • llama-7B:32layers, 每层包括202M参数
    • llava-13B:40layers
    • llava-70B:80layers
    • BERT-large:24layers和340M参数
  • benchmark for llama2
    • ARC:science exam question
    • HellaSwag:commonsense
    • GSM8K:Math Word Problems
    • WinoGrande:Winograd Schema Challenge
    • LAMBADA:word prediction,measures perplexity
  • benchmark for bert:
    • GLUE
      • CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic
        theory.
      • MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.
      • QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.
      • RTE (The Recognizing Textual Entailment): Textual entailment
      • SST2 (The Stanford Sentiment Treebank): Sentiment prediction.
      • STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.
      • WNLI (The Winograd Schema Challenge): Sentence referent selection.

3. 实验

在这里插入图片描述

3.1 Do layers “speak the same language”?

**实验:**跳过某层或将前后两层调换顺序,实验结果如下图所示:
在这里插入图片描述
从上图中可以看出,对中间的模型层调换前后2层顺序及跳过某层,在benchmark上效果波动不大;但first和last few layers则相反。因此,可以推断出middle layer和first及last few layers有不同的表征空间,且中间层间的表征空间比较相似。
为了更进一步验证这个猜想,衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示:
在这里插入图片描述
从上图中可以看出,模型基本有三种表征空间,“beginning”,“middle”和“ending”。另外,“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加,而“ending”层则会固定到单层上。
在这里插入图片描述

3.2 Are all the layers necessary?

实验:跳过N层,将N+1层的输出作为T-N层的输入,T为模型总层数。=> skip
在这里插入图片描述
从上图中可以看出,当有少量的层被跳过时,模型效果并没有降低很多。

3.3 Are middle layers all doing the same thing?

虽然中间层表征空间是一样的,那么是否表示这些层是冗余的呢?
实验:在“middle”中用中心层的参数替换其他层的参数=>middle repeat
在这里插入图片描述
从上图中可以看出,随着替换层数的增加,模型效果下降的越发明显。所以“middle” layer中不同层有着不同的功能。

3.4 Does the layer order matter?

实验:1. 中间层倒过来=>reverse。2. 将中间层随机打乱。
在这里插入图片描述
在这里插入图片描述
不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。

3.5 Can we run the layers in parallel?

能否将不同层独立运行,然后将结果合并呢?=> parallel
在这里插入图片描述
除了在GSM8K数学任务上,随着并行层数的增加,模型效果有着合理的降低。

3.6 Does the order matter for some tasks more than others?

是的,在数学和推理任务上,order比较重要。在语义任务上,order就还好。

3.7 Does looping help parallelized layers?

在这里插入图片描述
从上图可知,并行层重复多次能够有效的改善模型效果。
在这里插入图片描述
从上图中可知,最佳的迭代次数(重复次数)与并行层的数量成正比。

3.8 Which variants are least harmful?

在这里插入图片描述
从图中可知,重复单层是效果最差的,随机中间层和并行重复策略(looped-parallel)模型效果损失最小。

  • 为什么skip要比middle repeat策略要差呢?
    在这里插入图片描述
    从图中可以发现,skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。

4. 讨论

  • 有三种不同类型的层,“beginning”,“middle”和“ending”
  • 中间层有某种程度的均匀,但是不冗余。
  • 模型层的执行顺序相较于语义任务,在数学和推理任务中更为重要
http://www.yidumall.com/news/103777.html

相关文章:

  • wordpress导入img文件方法安卓神级系统优化工具
  • 做网站要有哪些知识软文写作300字
  • 桂林网站建站官方百度下载安装
  • 晋城网站建设公司汽车seo是什么意思
  • 万网域名怎样把淘宝网站加进去扬州seo
  • 家装网站自己做的seo赚钱方法大揭秘
  • 常州网站建设技术托管seo优化推广工程师招聘
  • 做网站的公司名称网站搜索引擎优化的步骤
  • 政府制作网站收费网络营销成功的品牌
  • 网站悬浮窗口代码谷歌浏览器下载手机版官网
  • 汽车贸易网站建设方案怎么制作自己的网站
  • 可以上传高清图片的网站并做外链自己怎么做网站网页
  • 做华为网站的还有哪些功能吗手游推广代理平台有哪些
  • 怎样上传网站到空间百度风云榜电视剧排行榜
  • 什么做网站推广深圳全网营销平台排名
  • 网站一般在哪里找自己怎么制作一个网站
  • 自己网站服务器惠州seo按天付费
  • 企业网站开发要多少钱搜索引擎优化seo优惠
  • 如何把自己做的网站放到网上快速开发平台
  • 西樵网站设计数据分析
  • 汽车网站图片网上教育培训机构哪家好
  • 芜湖市建设工程质量监督站网站百度助手应用商店下载安装
  • 怎么查看网站是用什么系统做的百度小说排行榜
  • 网站适配手机知了seo
  • 如何伪原创 网站公众号怎么开通
  • 网站代运营合作协议免费广告网
  • 网站建设受众谷歌seo网站推广怎么做
  • 车票网站模板seo网络营销案例分析
  • 动画设计培训机构快速优化官网
  • 主持人做的化妆品网站网络营销推广方案策划书