当前位置: 首页 > news >正文

安全的合肥网站建设百度实名认证

安全的合肥网站建设,百度实名认证,wordpress图标不显示,企业网站建站 广州 视频以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。示例:vllm serve "gpt-neo-2.7B"--co…

以下是 vllm serve 的常见参数说明以及它们的作用:


1. 基本参数

model_tag
  • 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。
  • 示例
    vllm serve "gpt-neo-2.7B"
    
--config CONFIG
  • 说明:允许从 YAML 配置文件加载参数。适合复杂配置。
  • 示例
    vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml
    
--host HOST--port PORT
  • 说明:设置服务运行的主机地址和端口。
  • 默认值host=127.0.0.1port=8000
  • 示例
    vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080
    

2. 模型加载与优化

--tensor-parallel-size
  • 说明:设置 Tensor 并行的数量(多 GPU 分布式推理)。
  • 示例
    --tensor-parallel-size 8
    
--cpu-offload-gb
  • 说明:允许将部分模型权重或中间结果卸载到 CPU 内存中,模拟 GPU 内存扩展。
  • 默认值0(禁用 CPU 卸载)。
  • 示例
    --cpu-offload-gb 128
    
--gpu-memory-utilization
  • 说明:指定 GPU 内存利用率,值为 0-1 的小数。
  • 默认值0.9
  • 示例
    --gpu-memory-utilization 0.8
    
--max-model-len
  • 说明:模型的最大上下文长度(序列长度)。
  • 示例
    --max-model-len 16384
    
--max-num-batched-tokens
  • 说明:每批次处理的最大 token 数量。适用于优化吞吐量。
  • 示例
    --max-num-batched-tokens 60000
    
--dtype
  • 说明:设置数据类型,通常用于控制权重和激活值的精度。
    • float32:32位浮点数(精确但消耗内存)。
    • float16:16位浮点数(推荐)。
    • bfloat16:16位浮点数(适合 NVIDIA A100 等设备)。
  • 示例
    --dtype float16
    

3. 日志与调试

--uvicorn-log-level
  • 说明:控制 uvicorn Web 服务器的日志级别。
  • 选项debug, info, warning, error, critical, trace
  • 示例
    --uvicorn-log-level debug
    
--disable-log-stats
  • 说明:禁用统计日志,减少性能开销。
  • 示例
    --disable-log-stats
    
--disable-log-requests
  • 说明:禁用请求的日志记录。
  • 示例
    --disable-log-requests
    

4. 分布式设置

--distributed-executor-backend
  • 说明:设置分布式推理的执行后端。
  • 选项ray, mp(多进程)
  • 默认值ray(如果安装了 Ray)
  • 示例
    --distributed-executor-backend ray
    
--pipeline-parallel-size
  • 说明:设置流水线并行的阶段数量。
  • 示例
    --pipeline-parallel-size 4
    

5. 前端与安全

--api-key
  • 说明:启用 API 访问控制,客户端需提供此密钥。
  • 示例
    --api-key my_secure_api_key
    
--ssl-keyfile--ssl-certfile
  • 说明:配置 HTTPS 证书,启用安全通信。
  • 示例
    --ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem
    
--disable-fastapi-docs
  • 说明:禁用 FastAPI 的 OpenAPI 文档(Swagger UI)。
  • 示例
    --disable-fastapi-docs
    

6. 调度与优化

--swap-space
  • 说明:每个 GPU 的 CPU 换页空间(GiB)。
  • 示例
    --swap-space 8
    
--max-num-seqs
  • 说明:每次迭代的最大序列数量,适合控制吞吐量。
  • 示例
    --max-num-seqs 16
    
--enable-prefix-caching
  • 说明:启用前缀缓存以减少重复计算。
  • 示例
    --enable-prefix-caching
    

7. 特殊用途参数

--quantization
  • 说明:设置量化方法,减少内存占用。
  • 选项
    • bitsandbytes:8位量化(推荐)。
    • fp8:FP8(需要支持 FP8 的设备)。
  • 示例
    --quantization bitsandbytes
    
--enable-lora
  • 说明:启用 LoRA(低秩适配器)功能。
  • 示例
    --enable-lora
    

示例命令

结合以上参数的一个完整示例:

vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug

如需进一步调整,请参阅 vLLM 官方文档。

http://www.yidumall.com/news/14488.html

相关文章:

  • 舆情中心百度seo排名优化公司
  • 企业网站欣赏网络营销成功案例
  • 做视频资源网站有哪些邵阳seo优化
  • 国安中建建设集团网站真正永久免费网站建设
  • 网站模块是啥简述seo
  • 可以做彩票广告的网站吗竞价推广开户
  • html网页开发武汉搜索引擎排名优化
  • 广州专业做网站建设网络营销主要内容
  • 成都科技网站建设电话多少钱电子商务
  • 北京管庄网站建设公司seo知识点
  • 做视频点播网站如何赚钱seo关键词排名优化怎样
  • 德州金航网络公司网站建设cilimao磁力猫在线搜索
  • 最好的网站建设组织深圳百度快速排名提升
  • wordpress无法选择服务器配置长沙网站推广排名优化
  • 云服务器 可以做网站吗淄博网站seo
  • 大气网站欣赏危机公关
  • wordpress阿里云数据库标题优化
  • 自动优化网站建设热线营销策划书模板范文
  • wordpress 4.5.2 中文西安网络推广seo0515
  • 淘宝小程序开发文档重庆百度seo
  • 淘宝哪些做网站关键词排名的有用吗hao123网址之家官网
  • 登录网站怎么做自助建站系统哪个好用
  • 广州开公司的基本流程及费用宁波seo推广优化哪家强
  • 文件传输协议登陆网站校园推广方案
  • 有什么网站建设比较好的公司互联网营销师证书
  • wordpress添加网站地图优化标题关键词技巧
  • wordpress 采集 json免费下优化大师
  • 高端企业网站建设流程网站seo快速排名优化
  • php做网站标题加链接山西百度推广开户
  • 移动网站排名教程网络广告营销案例有哪些