魔头
原帖由 @黄金大表哥 于 2026-3-24 16:41 发表 给个27B下载链接,我用的lm studio没有推荐这个。 然后这个评估就是一个单独的网页,接入本机api对吧? 晚点跑跑看
查看详细资料
TOP
混世魔头
原帖由 @xif7456 于 2026-3-24 10:35 发表 魔搭就可以下,试试q6kxl或q8kxl https://www.modelscope.cn/models/unsloth/Qwen3.527BGGUF/files 那个测试网址里面有作者的gihub 也可以下载回来本地跑,就是一个html网页 直接去他仓库下也可以。 https://github.com/gengchaogit/llm_speedtest
原帖由 @黄金大表哥 于 2026-3-25 00:49 发表 试了几下服务启用了,上下文是262144,先睡了: ## 测试结果 (OpenAI兼容接口 Qwen327BQ8_K_XL) 备注:MSS1 MAX, LM Studio | 并发数: 1 | 提示词长度 (tokens) | 预填充耗时 (ms) | 预填充速度 (tokens/s) | 输出长度 (tokens) | 输出耗时 (ms) | 输出速度 (tokens/s) | ||||||| | 571 | 3695.80 | 154.50 | 128 | 24354.50 | 5.26 | | 1087 | 5822.20 | 186.70 | 128 | 24386.70 | 5.25 | | 1605 | 8334.50 | 192.57 | 128 | 24446.20 | 5.24 | | 2116 | 10485.70 | 201.80 | 128 | 24482.40 | 5.23 | | 2635 | 12497.90 | 210.84 | 128 | 24520.30 | 5.22 | | 3156 | 14661.50 | 215.26 | 128 | 24400.90 | 5.25 | | 3661 | 16915.20 | 216.43 | 128 | 24448.40 | 5.24 | | 4190 | 19118.40 | 219.16 | 128 | 24416.70 | 5.24 | | 4711 | 21385.00 | 220.29 | 128 | 24497.00 | 5.23 | | 5212 | 23563.00 | 221.19 | 128 | 24530.40 | 5.22 | | 5726 | 25919.80 | 220.91 | 128 | 24565.10 | 5.21 | | 6257 | 28354.10 | 220.67 | 128 | 24843.50 | 5.15 | | 6760 | 30826.00 | 219.30 | 128 | 24784.30 | 5.16 | | 7270 | 33180.70 | 219.10 | 128 | 24848.10 | 5.15 | | 7781 | 35621.50 | 218.44 | 128 | 24704.20 | 5.18 | | 8302 | 37911.90 | 218.98 | 128 | 24785.20 | 5.16 | 总吞吐量性能统计 (1 并发) 总预填充吞吐范围: 154.50 221.19 tokens/s 总输出吞吐范围: 5.15 5.26 tokens/s 平均总预填充吞吐: 209.76 tokens/s 平均总输出吞吐: 5.21 tokens/s 百分位统计 (P50/P90/P95) Prefill吞吐: P50: 218.71 | P90: 220.79 | P95: 220.98 tokens/s Decode吞吐: P50: 5.22 | P90: 5.25 | P95: 5.25 tokens/s 本帖最后由 黄金大表哥 于 2026324 16:50 通过手机版编辑
原帖由 @xif7456 于 2026-3-25 02:11 发表 辛苦兄弟了!看来如果要上这台机只能用9B,27b还是太难为他了
索索当自强
银河飞将
究极管理員
原帖由 @黄金大表哥 于 2026-3-25 10:35 发表 要讲性能还是nv dgx spark,有电脑人士的ai专机。 就是起步价高些, 好处是现在也没什么溢价,台厂的、二手充新的都还便宜些。 我前短时间发了个dgx的评测视频,其实它很能处理多并发。 当然,再大规模的目前只能看mac studio,等M5 ultra。 我是因为没有私人机、工作方向偏控制电路板什么的,软件规模也小,基本就是写一点原型demo。 硬件上离不开x86、Windows、PCIe卡槽(哪怕是半高也可以接转接线)。 但总之,一味强调GPU性能(游戏圈玩法),意义不大了。游戏圈玩法是游戏厂商为了玩家考虑,特化了贴图精度和数量。 本帖最后由 黄金大表哥 于 2026325 02:36 通过手机版编辑
原帖由 @xif7456 于 2026-3-25 03:34 发表 AI硬件才第一代,暂时不考虑,买点二手玩玩就行了。不过为了跑顺这27b,也耗了很多精力,有点烦了,才想看看这些一体机的成绩到底如何,网上也没个靠谱的评测,up主都是随便测一下,最多16k的上下文就拿出来吹了,根本没法看。 你这个需求买coding plan不是更好吗。搞本地部署的要么为了玩龙虾,要么涉密材料不得不部署。如果是写些demo ,云端体验好太多了