| 
![]() Scaling 即正义?智谱挠了挠头——
很可怜,况且压力山大…… 
智谱最新发布的一篇时间博客,画风略略有点不相似: 莫得昔时的硬核时间输出,反而大倒苦水从 GLM-5 以来的多形状样踩坑,官方称之为「Scaling Pain」。 咱们的推理基础技艺正承受着前所未有的压力,每天王人要干事数亿次 Coding Agent 调用。 昔时几周,一些用户在使用 GLM-5 系列模子推行复杂 Coding Agent 任务时,遭受多种格外,比如乱码、复读和少见字符生成。 况且这些问题在圭臬推理环境中根柢复现不出来!!! 
排查数周,团队终于揪出真凶,绝对刺破Scaling Laws路上的隐形 Bug。 不仅详确回想了自身遭受的崇高阅历,还给出了一套极具实操性的避坑指南。 简便来说,若是屏幕前的你正缱绻给我方的 Agent 加码,那么这篇来自一线实战的阅历回想,提倡先反复阅读背诵~ 
定位重要 Bug 事情是酱紫的—— 自从 GLM-5 发布以来,智谱通过不雅察用户的大范围 Coding Agent 推理过程,发现了三类格外景象: 乱码输出:本色参差意外旨; 重复生成:模子连续重复输出交流本色; 少见字:出现格外字符。 这引起了团队工程师的警悟,于是说干就干,先是通过腹地回放用户反应,重复运行交流苦求数百次,截止永久无法触发格外。 换言之,模子自己并非根本原因。 在进一步模拟在线环境后,团队尝试调换 PD 差异比例并执续提高系统负载,格外景象终于得以复现,在每 10000 个苦求中大致能复现出 3-5 个格外输出。 这讲明,格外景象很有可能出自豪负载下的推理景况料理,指向底层推理链路。 但同期也引出了另一个问题,线下的复现率仍低于用户线上反应的频率,这就意味着现存的检测顺序存在遗漏或触发要求尚未满盈心事。 于是智谱团队接续对格外输出的检测顺序进行优化。他们发现投契采样(Speculative Decoding)贪图可当作格外检测的遑急参考。 投契采样本来用于升迁模子推感性能,它先由小模子生成草稿(draft tokens),再由大模子考据是否给与这些 token,最终玩忽在不蜕变输出分散的情况下升迁 decode 恶果。 
而在 GLM-5 的三类格外中,乱码和少见字的 spec_accept_length 十分低,也便是说方向模子的 KV 缓存景况与草稿模子之间存在昭着不匹配。 复读则领有过高的 spec_accept_length,标明损坏的 KV 缓存可能导致详确力模式退化,将生成过程推向高置信度的重复轮回。 基于以上不雅察,智谱回想出了一套在线格外监控战略: 当 spec_accept_length 执续低于 1.4 且生成长度卓绝 128 token,或者 spec_accept_rate 卓绝 0.96,系统就会主动中止刻下生成,并将苦求再行交回给负载平衡器。 紧接着,milan智谱启动进一步通晓格外原因: PD 差异架构下的 KV Cache 竞态 
团队通过分析苦求人命周期和推理引擎中的 PD 差异推行时序,将问题归因于苦求人命周期与 KV Cache 回收与复用时序之间的不一致,从而激发的 KV Cache 复用结巴。 为了排斥这类竞态情况,商榷东说念主员在推理引擎中引入了更为严格的时序不休,会在苦求闭幕和 KV Cache 写入完成之间建立显式同步。 具体来说,在发出中止提示后,解码阶段会向预填充阶段发送示知。预填充阶段唯有在兴奋以下任一要求时才会复返安全回收信号:未启动任何 RDMA 写入,或扫数先前发出的写入操作已满盈完成。而解码阶段唯有在收到此阐明后才会回收并重用相应的 KV Cache 槽位。 该机制将确保 KV Cache 写入不会卓绝内存复用领域,从而幸免跨苦求的 KV Cache 损坏。 最终树立该 bug 后,格外输出的发生率从约万分之十几下落至万分之三以下。 HiCache 加载时序缺失 此外,当 KV Cache 换入与规划重迭时,刻下收场未能保证数据在使用前已完成加载,导致可能出现未就绪 KV Cache 被走访的情况。 
为处罚这一问题,团队重构了 HiCache 读取进程,同期引入数据加载与规划之间的显式同步不休。 在启动 Indexer 算子之前,先插入一个 Load Stream 同步点,确保相应级别的 Indexer 缓存已满盈加载。Forward Stream 唯有在数据准备就绪后才会进行规划,从而排斥了 read-before-ready 的问题。 欺诈此树立后,在交流的使命负载要求下,由推行时序不一致引起的格外被排斥,系统终于得以巩固。 Prefill 侧优化 事实上,这两种 Bug 王人指向了归拢个常见的系统瓶颈: 在长高下文的 Coding Agent Serving 任务中,Prefill 阶段照旧成为影响系统性能的主要身分。 于是为了缓解 Prefill 阶段在高并发下的内存和带宽压力,团队另外联想了 KV Cache 分层存储决策——LayerSplit。 
在该决策中,每个 GPU只存储部分层的 KV Cache,显耀镌汰了每个 GPU 的内存占用。然后在推行 Attention 规划前,将对应层的 KV Cache 播送给其他关连 rank。 为了镌汰通讯支拨,还进一步联想有 KV Cache 播送与 indexer 规划的重迭机制,将通讯蔓延瞒哄在规划过程中。这么唯独的稀薄通讯支拨就来自 Indexer Cache 的播送,其大小仅为 KV Cache 的八分之一,合座通讯资本不错忽略不计。 
团队将 LayerSplit 和GLM-5.1联结发现,在 Cache 掷中率达到 90%、苦求长度在 40k 到 120k 区间内时,系统蒙胧量提高了 10% 到 132%,且跟着高下文长度的增多,收益也随之增长。 总体而言,该优化显耀升迁了系统在 Coding Agent 场景下的处贤惠商。 同期智谱也觉得,当智能信得过参加高并发、长高下文的 Coding Agent 场景后,厚爱推理基础技艺的输出质料变得至关遑急。畴昔大范围 AI 需要的不仅是 Scaling Law 鼓动的智商增长,还必须有等量级的系统工程相沿。 参考聚会: [ 1 ] https://z.ai/blog/scaling-pain [ 2 ] https://www.zhipuai.cn/zh/research/159 — 接待 AI 居品从业者共建 — � �「AI 居品学问库」是量子位智库基于持久居品库跟踪和用户行径数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、商榷者的中枢信息重要与决策支执平台。 一键珍贵 � � 点亮星标 科技前沿阐发逐日见米兰体育 澳门十大赌城官方网站
|