这次折腾,本质上是在给自己的本地大模型环境补一堂“系统工程”课。最初的旧配置是双机:PC1 为 32GB DDR5 + RTX 5070 Ti 16GB,PC2 为 32GB DDR4 + RTX 3070 Ti 16GB,两台机器通过 2.5G 网络做 RPC。新配置则变成了 PC1: 5070 Ti 16GB + 5060 Ti 16GB,PC2: Tesla V100 32GB,总显存来到 64GB,目标也很明确:希望把 30B 左右模型跑到 6-bit/8-bit,并尽量逼近 20 tokens/s。
如果只看“显存总量”,这次升级确实很诱人。旧方案虽然也能跑,但更像是在一堆 16GB 小卡之间硬凑空间;新方案里,V100 的 32GB HBM2 和 5070 Ti 的高显存带宽,终于把“能不能装下 30B”这个问题拉回到了可操作区间。尤其是 30B 6-bit,按聊天记录里的估算,权重大致在二十多 GB,再加上量化元数据、运行缓冲和 KV cache,64GB 总显存已经有了相当现实的操作空间。换句话说,这笔钱并不是白花,至少把系统从“勉强能跑”推到了“开始有工程余量”的阶段。
但 GPT 在分析里给出的关键提醒也很扎实:这套机器真正的瓶颈,不再是单纯的显存,而是三件事叠在一起。
第一是 VRAM。显存容量决定了模型能不能舒适地放进去,也决定了上下文和 KV cache 能不能留出余量。这里 V100 和 5060 Ti 都有价值,但价值不一样。V100 是真正改变格局的那张卡,因为 32GB 大显存直接抬高了天花板;5060 Ti 更像“补仓位”的容量卡,能让 31B/32B 的 8-bit 没那么挤,却未必按比例提升速度。
第二是 网络带宽。原本的 2.5GbE 对跨机 RPC 来说已经不是“小短板”,而是硬门槛。聊天记录里说得很直白:10GbE 的真实吞吐通常能接近 9.4Gbps,会明显好于 2.5G,但它也只是把网络从“严重瓶颈”降到“可接受瓶颈”,不会神奇地把双机混卡变成单机三卡的效率。这个判断非常关键,因为它直接打掉了“只要上 10G 就能 30 t/s”的幻想。
第三是 异构 GPU。5070 Ti、5060 Ti、V100 三张卡的定位并不一致:5070 Ti 和 V100 都有接近 900GB/s 的显存带宽,而 5060 Ti 明显更慢;再叠加 V100 是 PCIe Gen3、被动散热卡,整个系统的表现不会按总显存线性增长。llama.cpp 虽然支持 RPC 和 --tensor-split,但这类拓扑通常必须手调,默认分配未必会按照“快卡多干、慢卡少干”的理想方式工作。也就是说,异构组合能跑,但很难“插上就满血”。
基于这三个瓶颈,升级优先级其实非常清楚,我觉得原聊天里的排序相当有参考价值:
10G 网络优先于一切。PC1 上 64GB RAM是第二优先。V100 散热/风道是第三优先。10G 交换机排在10G 直连之后。
这里面最容易被忽略的是第四条。对当前双机场景来说,先买两张 SFP+ 网卡加一根 DAC 线做直连,通常比直接上 10G 交换机更便宜、延迟更低、发热也更好控。只有当 NAS、第三台机器、工作站都要一起进 10G 网络时,交换机才开始变得合理。所以严格说,这次升级里“交换机 vs 直连”的答案并不是模糊的折中,而是很明确的:先直连,后交换机。
至于最关心的性能预期,现实一点反而更踏实。GPT 在原对话里给出的打分,我基本认同:
30B 6-bit:8/10,可达成。逼近 20 tokens/s:5.5/10,有机会但不稳。30B 8-bit 且稳定 20 tokens/s:3/10,不适合作为硬目标。- 整体投入回报:
7/10,前提是尽快把2.5G升到10G。
把这些分数翻成更通俗的话,就是:这套机器更像一台“容量优先的工程机”,而不是一台“极限速度机”。30B 6-bit 有现实希望跑到 15~20 t/s 区间,前提是模型对 llama.cpp 友好、上下文别太夸张、网络真跑到 10G、V100 没有因为散热或供电掉链子;而 30B 8-bit 更合理的预期是“能稳跑、画质更稳”,不该默认它还能轻松冲上 20 tokens/s。
还有一个很重要的外延结论,是关于未来目标的。聊天记录里提到如果最终想奔着 70B~80B 8-bit 去,那么现在这套 64GB 总显存的多机 RPC 方案并不是终点。公开 GGUF 体积里,31B/32B Q8_0 大约 35GB,Q6_K 大约 27GB;但 70B Q8_0 已经接近 75GB,Q6_K 也接近 58GB。这意味着 5060 Ti 对 31B 8-bit 的确有帮助,但这种帮助主要是“装得更宽松”,不是“速度暴涨”;而一旦往 70B 以上走,问题就不再是多拼一张 16GB 卡,而是要不要直接进入 48GB/80GB 单卡级别的世界。
所以,这次升级给我的最大收获不是“终于凑出 64GB 显存”,而是更清楚地认识到本地大模型部署的真实逻辑:先补短板,再谈堆料;先解决网络与拓扑,再幻想速度;先接受“容量卡”和“主力卡”的角色差异,再谈极限跑分。V100 值,10G 更值,64GB 内存也值;但这些值,更多体现在“让 30B 跑得顺、跑得稳”,而不是一步登天。
如果要把这次折腾压缩成一句结论,那就是:从 5070Ti + 3070Ti + 2.5G RPC 升到 5070Ti + 5060Ti + V100 + 10G 预备,方向是对的,但预期必须理性。别把它想成“30B 8-bit 稳定 20 t/s”的终极解法,而应该把它看成一台已经摸到 30B 舒适区边缘的工程机。真正值得高兴的,不是参数表更好看了,而是我终于知道下一笔钱该花在哪里,以及哪些幻想应该及时打住。