当前位置: 首页 > news >正文

九江公司注册seo站长助手

九江公司注册,seo站长助手,泰安新闻今日头条,沧州做网站的公司模型加载 在day2, 我们尝试了对于llama8B进行转换和推理,可惜最后因为OOM而失败,在day4,我们详细的过了一遍tinyllama的推理,值得注意的是,这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换,引擎的…

模型加载

在day2, 我们尝试了对于llama8B进行转换和推理,可惜最后因为OOM而失败,在day4,我们详细的过了一遍tinyllama的推理,值得注意的是,这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换,引擎的生成,而tinyllama则进行了隐式的执行。

如果参考[1],也有明确的说明。目前模型的推理确实支持多种形式。

量化及调参

接下里,我们的关注点来到: 如何进行各种量化方法的调用,在[2]中提供了对应的实例/。

可以看到的是,他是在LLM的加载和隐式的转换过程中,执行的量化。

    llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",# define the quantization config to trigger built-in end-to-end quantization.quant_config=quant_config)

而在生成结果的过程中,还涉及到很多参数,但这些参数,就与模型的engine无关,而更像是“调参”,在推理的时候指定即可。如下

    # Create a sampling params.sampling_params = SamplingParams(temperature=0.8, top_p=0.95)for output in llm.generate(prompts, sampling_params):print(f"Prompt: {output.prompt!r}, Generated text: {output.outputs[0].text!r}")

显存占用

对于LLM来说,显存的有效利用是一个非常务实的话题,在文档[3]中提到了,模型权重,激活值和I/O tensor会占用显存大小,这里的I/O tensor概念感觉很很隐晦,按我的理解,这是通过一个类似page的形式,进行显存管理?其中,也包含了kv cache,.

另外,文档中还提到了memory pool, 这个的概念,我也不太理解其对应的实现。

今天就先到这吧。

 

[1] LLM Examples Introduction — tensorrt_llm documentation

[2] LLM Quantization — tensorrt_llm documentation 

[3] Memory Usage of TensorRT-LLM — tensorrt_llm documentation

http://www.yidumall.com/news/39044.html

相关文章:

  • 莆田人做的网站西安seo优化工作室
  • 工会网站建设可以网站seo搜索引擎优化教程
  • 软件设计师是干什么的seo快速排名
  • amh wordpress 后台404seo 最新
  • 淄博市建设委员会网站百度推广中心
  • 做网站的怎么赚钱宜昌网站seo
  • 苏州能做网站短视频seo询盘获客系统
  • 做网站怎么与客户谈判郑州网站推广公司
  • 相亲网站界面设计公众号运营
  • 有哪些免费的黄页网seo教学培训
  • 关于花卉的网站怎么做百度客服人工在线咨询电话
  • 最大的网站模板网淘宝推广软件
  • 个人网站建设yxhuying永久免费google搜索引擎
  • 中文搭建式软件开发工具网站优化 seo和sem
  • 网站关键词优化怎么做东莞seo优化
  • 怀远做网站成都seo优化
  • 网站开发运营费用短视频营销的发展趋势
  • 杜集网站建设今日早间新闻
  • 企业网站源码mba77cm什么网站都能进的浏览器
  • 潍坊做网站联系方式中国突然宣布大消息
  • 网站建设推广合同深圳推广公司推荐
  • 网站建设银川石家庄热搜
  • 西安政府网站建设公司友链交易平台
  • 网站后台建设教程软文营销范文
  • 网页搜索是什么意思seo是什么平台
  • 网页游戏网站有哪些百度登录页面
  • 三网合一企业网站网站推广和seo
  • 将网站发布到微信小程序怎么做百度指数查询移动版
  • 免费网站空间10gseo查询seo
  • 杭州做网站哪家好seo网站推广培训