a day ago RTX4060-8G本地运行Qwen3.6 35B A3B模型;台式机,拓展坞双场景测试结果🌐 链接: https://linux.do/t/topic/2209917🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-05-20 09:01:20 LINUX DO RTX4060-8G本地运行Qwen3.6 35B A3B模型;台式机,拓展坞双场景测试结果 本人手头有两张4060,一直很想跑稍大一些(相比9B 4B)的模型,基于最近llama.cpp支持的一些新功能运行35B A3B模型测试。 模型Qwen3.6 35B A3B APEX-MTP Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf -》13.7 GB 省流: 台式机和USB4拓展坞都可以跑在8g显存的显卡上,MTP的速度挺快的,30+tokens/s,代码能跑到45-50 因为显存不够,上下文prompt太多了以后处理起来很慢,拓展坞情况比我的台式机慢3…