vLLM 相关文章 - 一江山水的随笔

当前位置：首页 - 标签“vLLM“ - 正文

Enjoy life！

公告：欢迎光临我的个人博客，希望博客的内容能够对您有所帮助！

【推荐】本站交流QQ群：962693412

扫描二维码加入本站交流QQ群：962693412 ！！！本站QQ群：962693412...

2019-08-29 | 随笔 | 3330°c

vLLM让大模型推理快10倍？PagedAttention原理详解与实战部署

先说效果：vLLM真能让推理快10倍？我最近试了vLLM，结论是：确实能快，但不是所有场景都10倍。在批量处理请求时，吞吐量提升2-10倍很常见，尤其是显存紧张时。比如我用A100跑Llama 2-7B，传统方法同时处理8个请求就爆显存，vLLM能轻松处理64个，速度提升明显。但如果是单次推理，加...

2026-04-15 | 技术 | 727°c

推理比训练更重要？AI落地=推理成本战争，厂商卷vLLM/TGI/Triton

先说结论：推理是AI落地的命门，成本决定一切最近总听人说“推理比训练更重要”，乍一听有点反直觉——训练不是更烧钱、更技术密集吗？但仔细一想，我明白了：训练是“一次性投资”，推理是“持续开销”。AI要真正用起来，推理成本才是大头。这就好比造一辆车（训练）花100万，但每天开它（推理）的油费、保养费可...

2026-04-10 | 技术 | 1616°c

‹‹ 1 ››