本地大模型双机升级复盘：从5070Ti+3070Ti到V100+5060Ti的理性预期

这次折腾，本质上是在给自己的本地大模型环境补一堂“系统工程”课。最初的旧配置是双机：PC1 为 32GB DDR5 + RTX 5070 Ti 16GB，PC2 为 32GB DDR4 + RTX 3070 Ti 16GB，两台机器通过 2.5G 网络做 RPC。新配置则变成了 PC1: 5070 Ti 16GB + 5060 Ti 16GB，PC2: Tesla V100 32GB，总显存来到 64GB，目标也很明确：希望把 30B 左右模型跑到 6-bit/8-bit，并尽量逼近 20 tokens/s。

如果只看“显存总量”，这次升级确实很诱人。旧方案虽然也能跑，但更像是在一堆 16GB 小卡之间硬凑空间；新方案里，V100 的 32GB HBM2 和 5070 Ti 的高显存带宽，终于把“能不能装下 30B”这个问题拉回到了可操作区间。尤其是 30B 6-bit，按聊天记录里的估算，权重大致在二十多 GB，再加上量化元数据、运行缓冲和 KV cache，64GB 总显存已经有了相当现实的操作空间。换句话说，这笔钱并不是白花，至少把系统从“勉强能跑”推到了“开始有工程余量”的阶段。

但 GPT 在分析里给出的关键提醒也很扎实：这套机器真正的瓶颈，不再是单纯的显存，而是三件事叠在一起。

第一是 VRAM。显存容量决定了模型能不能舒适地放进去，也决定了上下文和 KV cache 能不能留出余量。这里 V100 和 5060 Ti 都有价值，但价值不一样。V100 是真正改变格局的那张卡，因为 32GB 大显存直接抬高了天花板；5060 Ti 更像“补仓位”的容量卡，能让 31B/32B 的 8-bit 没那么挤，却未必按比例提升速度。

第二是 网络带宽。原本的 2.5GbE 对跨机 RPC 来说已经不是“小短板”，而是硬门槛。聊天记录里说得很直白：10GbE 的真实吞吐通常能接近 9.4Gbps，会明显好于 2.5G，但它也只是把网络从“严重瓶颈”降到“可接受瓶颈”，不会神奇地把双机混卡变成单机三卡的效率。这个判断非常关键，因为它直接打掉了“只要上 10G 就能 30 t/s”的幻想。

第三是 异构 GPU。5070 Ti、5060 Ti、V100 三张卡的定位并不一致：5070 Ti 和 V100 都有接近 900GB/s 的显存带宽，而 5060 Ti 明显更慢；再叠加 V100 是 PCIe Gen3、被动散热卡，整个系统的表现不会按总显存线性增长。llama.cpp 虽然支持 RPC 和 --tensor-split，但这类拓扑通常必须手调，默认分配未必会按照“快卡多干、慢卡少干”的理想方式工作。也就是说，异构组合能跑，但很难“插上就满血”。

基于这三个瓶颈，升级优先级其实非常清楚，我觉得原聊天里的排序相当有参考价值：

10G 网络 优先于一切。
PC1 上 64GB RAM 是第二优先。
V100 散热/风道 是第三优先。
10G 交换机 排在 10G 直连 之后。

这里面最容易被忽略的是第四条。对当前双机场景来说，先买两张 SFP+ 网卡加一根 DAC 线做直连，通常比直接上 10G 交换机更便宜、延迟更低、发热也更好控。只有当 NAS、第三台机器、工作站都要一起进 10G 网络时，交换机才开始变得合理。所以严格说，这次升级里“交换机 vs 直连”的答案并不是模糊的折中，而是很明确的：先直连，后交换机。

至于最关心的性能预期，现实一点反而更踏实。GPT 在原对话里给出的打分，我基本认同：

30B 6-bit：8/10，可达成。
逼近 20 tokens/s：5.5/10，有机会但不稳。
30B 8-bit 且稳定 20 tokens/s：3/10，不适合作为硬目标。
整体投入回报：7/10，前提是尽快把 2.5G 升到 10G。

把这些分数翻成更通俗的话，就是：这套机器更像一台“容量优先的工程机”，而不是一台“极限速度机”。30B 6-bit 有现实希望跑到 15~20 t/s 区间，前提是模型对 llama.cpp 友好、上下文别太夸张、网络真跑到 10G、V100 没有因为散热或供电掉链子；而 30B 8-bit 更合理的预期是“能稳跑、画质更稳”，不该默认它还能轻松冲上 20 tokens/s。

还有一个很重要的外延结论，是关于未来目标的。聊天记录里提到如果最终想奔着 70B~80B 8-bit 去，那么现在这套 64GB 总显存的多机 RPC 方案并不是终点。公开 GGUF 体积里，31B/32B Q8_0 大约 35GB，Q6_K 大约 27GB；但 70B Q8_0 已经接近 75GB，Q6_K 也接近 58GB。这意味着 5060 Ti 对 31B 8-bit 的确有帮助，但这种帮助主要是“装得更宽松”，不是“速度暴涨”；而一旦往 70B 以上走，问题就不再是多拼一张 16GB 卡，而是要不要直接进入 48GB/80GB 单卡级别的世界。

所以，这次升级给我的最大收获不是“终于凑出 64GB 显存”，而是更清楚地认识到本地大模型部署的真实逻辑：先补短板，再谈堆料；先解决网络与拓扑，再幻想速度；先接受“容量卡”和“主力卡”的角色差异，再谈极限跑分。V100 值，10G 更值，64GB 内存也值；但这些值，更多体现在“让 30B 跑得顺、跑得稳”，而不是一步登天。

如果要把这次折腾压缩成一句结论，那就是：从 5070Ti + 3070Ti + 2.5G RPC 升到 5070Ti + 5060Ti + V100 + 10G 预备，方向是对的，但预期必须理性。别把它想成“30B 8-bit 稳定 20 t/s”的终极解法，而应该把它看成一台已经摸到 30B 舒适区边缘的工程机。真正值得高兴的，不是参数表更好看了，而是我终于知道下一笔钱该花在哪里，以及哪些幻想应该及时打住。

本地大模型双机升级复盘：从5070Ti+3070Ti到V100+5060Ti的理性预期

Similar Posts

Comments