» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


 22 12
发新话题
打印

买了ROG幻X2025 128GB 版本

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-24 16:41 发表
给个27B下载链接,我用的lm studio没有推荐这个。
然后这个评估就是一个单独的网页,接入本机api对吧?
晚点跑跑看
魔搭就可以下,试试q6kxl或q8kxl
https://www.modelscope.cn/models/unsloth/Qwen3.5-27B-GGUF/files

那个测试网址里面有作者的gihub 也可以下载回来本地跑,就是一个html网页
直接去他仓库下也可以。
https://github.com/gengchaogit/llm_speedtest


TOP

posted by wap, platform: Chrome
引用:
原帖由 @xif7456  于 2026-3-24 10:35 发表
魔搭就可以下,试试q6kxl或q8kxl
https://www.modelscope.cn/models/unsloth/Qwen3.527BGGUF/files

那个测试网址里面有作者的gihub 也可以下载回来本地跑,就是一个html网页
直接去他仓库下也可以。
https://github.com/gengchaogit/llm_speedtest
试了几下服务启用了,上下文是262144,先睡了:


## 测试结果 (OpenAI兼容接口 - Qwen3-27B-Q8_K_XL)

备注:MS-S1 MAX, LM Studio | 并发数: 1

| 提示词长度 (tokens) | 预填充耗时 (ms) | 预填充速度 (tokens/s) | 输出长度 (tokens) | 输出耗时 (ms) | 输出速度 (tokens/s) |
|---------------------|-------------------|-------------------------|-------------------|---------------|---------------------|
| 571 | 3695.80 | 154.50 | 128 | 24354.50 | 5.26 |
| 1087 | 5822.20 | 186.70 | 128 | 24386.70 | 5.25 |
| 1605 | 8334.50 | 192.57 | 128 | 24446.20 | 5.24 |
| 2116 | 10485.70 | 201.80 | 128 | 24482.40 | 5.23 |
| 2635 | 12497.90 | 210.84 | 128 | 24520.30 | 5.22 |
| 3156 | 14661.50 | 215.26 | 128 | 24400.90 | 5.25 |
| 3661 | 16915.20 | 216.43 | 128 | 24448.40 | 5.24 |
| 4190 | 19118.40 | 219.16 | 128 | 24416.70 | 5.24 |
| 4711 | 21385.00 | 220.29 | 128 | 24497.00 | 5.23 |
| 5212 | 23563.00 | 221.19 | 128 | 24530.40 | 5.22 |
| 5726 | 25919.80 | 220.91 | 128 | 24565.10 | 5.21 |
| 6257 | 28354.10 | 220.67 | 128 | 24843.50 | 5.15 |
| 6760 | 30826.00 | 219.30 | 128 | 24784.30 | 5.16 |
| 7270 | 33180.70 | 219.10 | 128 | 24848.10 | 5.15 |
| 7781 | 35621.50 | 218.44 | 128 | 24704.20 | 5.18 |
| 8302 | 37911.90 | 218.98 | 128 | 24785.20 | 5.16 |

总吞吐量性能统计 (1 并发)
总预填充吞吐范围:
154.50 - 221.19 tokens/s
总输出吞吐范围:
5.15 - 5.26 tokens/s
平均总预填充吞吐:
209.76 tokens/s
平均总输出吞吐:
5.21 tokens/s
百分位统计 (P50/P90/P95)
Prefill吞吐:
P50: 218.71 | P90: 220.79 | P95: 220.98 tokens/s
Decode吞吐:
P50: 5.22 | P90: 5.25 | P95: 5.25 tokens/s

本帖最后由 黄金大表哥 于 2026-3-24 16:50 通过手机版编辑



TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-25 00:49 发表
试了几下服务启用了,上下文是262144,先睡了:


## 测试结果 (OpenAI兼容接口  Qwen327BQ8_K_XL)

备注:MSS1 MAX, LM Studio | 并发数: 1

| 提示词长度 (tokens) | 预填充耗时 (ms) | 预填充速度 (tokens/s) | 输出长度 (tokens) | 输出耗时 (ms) | 输出速度 (tokens/s) |
|||||||
| 571 | 3695.80 | 154.50 | 128 | 24354.50 | 5.26 |
| 1087 | 5822.20 | 186.70 | 128 | 24386.70 | 5.25 |
| 1605 | 8334.50 | 192.57 | 128 | 24446.20 | 5.24 |
| 2116 | 10485.70 | 201.80 | 128 | 24482.40 | 5.23 |
| 2635 | 12497.90 | 210.84 | 128 | 24520.30 | 5.22 |
| 3156 | 14661.50 | 215.26 | 128 | 24400.90 | 5.25 |
| 3661 | 16915.20 | 216.43 | 128 | 24448.40 | 5.24 |
| 4190 | 19118.40 | 219.16 | 128 | 24416.70 | 5.24 |
| 4711 | 21385.00 | 220.29 | 128 | 24497.00 | 5.23 |
| 5212 | 23563.00 | 221.19 | 128 | 24530.40 | 5.22 |
| 5726 | 25919.80 | 220.91 | 128 | 24565.10 | 5.21 |
| 6257 | 28354.10 | 220.67 | 128 | 24843.50 | 5.15 |
| 6760 | 30826.00 | 219.30 | 128 | 24784.30 | 5.16 |
| 7270 | 33180.70 | 219.10 | 128 | 24848.10 | 5.15 |
| 7781 | 35621.50 | 218.44 | 128 | 24704.20 | 5.18 |
| 8302 | 37911.90 | 218.98 | 128 | 24785.20 | 5.16 |

总吞吐量性能统计 (1 并发)
总预填充吞吐范围:
154.50  221.19 tokens/s
总输出吞吐范围:
5.15  5.26 tokens/s
平均总预填充吞吐:
209.76 tokens/s
平均总输出吞吐:
5.21 tokens/s
百分位统计 (P50/P90/P95)
Prefill吞吐:
P50: 218.71 | P90: 220.79 | P95: 220.98 tokens/s
Decode吞吐:
P50: 5.22 | P90: 5.25 | P95: 5.25 tokens/s

本帖最后由 黄金大表哥 于 2026324 16:50 通过手机版编辑
辛苦兄弟了!看来如果要上这台机只能用9B,27b还是太难为他了


TOP

posted by wap, platform: Android
引用:
原帖由 @xif7456  于 2026-3-25 02:11 发表
辛苦兄弟了!看来如果要上这台机只能用9B,27b还是太难为他了
要讲性能还是nv dgx spark,有电脑人士的ai专机。
就是起步价高些,
好处是现在也没什么溢价,台厂的、二手充新的都还便宜些。
我前短时间发了个dgx的评测视频,其实它很能处理多并发。
当然,再大规模的目前只能看mac studio,等M5 ultra。

我是因为没有私人机、工作方向偏控制电路板什么的,软件规模也小,基本就是写一点原型demo。
硬件上离不开x86、Windows、PCIe卡槽(哪怕是半高也可以接转接线)。

但总之,一味强调GPU性能(游戏圈玩法),意义不大了。游戏圈玩法是游戏厂商为了玩家考虑,特化了贴图精度和数量。

本帖最后由 黄金大表哥 于 2026-3-25 02:36 通过手机版编辑

TOP

千问120B能跑多少token/s?

哦看到了,5token/s,那只能算能跑,距离能用还有点远。

[ 本帖最后由 ppigadvance 于 2026-3-25 11:01 编辑 ]

TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-25 10:35 发表
要讲性能还是nv dgx spark,有电脑人士的ai专机。
就是起步价高些,
好处是现在也没什么溢价,台厂的、二手充新的都还便宜些。
我前短时间发了个dgx的评测视频,其实它很能处理多并发。
当然,再大规模的目前只能看mac studio,等M5 ultra。

我是因为没有私人机、工作方向偏控制电路板什么的,软件规模也小,基本就是写一点原型demo。
硬件上离不开x86、Windows、PCIe卡槽(哪怕是半高也可以接转接线)。

但总之,一味强调GPU性能(游戏圈玩法),意义不大了。游戏圈玩法是游戏厂商为了玩家考虑,特化了贴图精度和数量。

本帖最后由 黄金大表哥 于 2026325 02:36 通过手机版编辑
AI硬件才第一代,暂时不考虑,买点二手玩玩就行了。不过为了跑顺这27b,也耗了很多精力,有点烦了,才想看看这些一体机的成绩到底如何,网上也没个靠谱的评测,up主都是随便测一下,最多16k的上下文就拿出来吹了,根本没法看。

你这个需求买coding plan不是更好吗。搞本地部署的要么为了玩龙虾,要么涉密材料不得不部署。如果是写些demo ,云端体验好太多了

TOP

posted by wap, platform: Android
引用:
原帖由 @xif7456  于 2026-3-25 03:34 发表
AI硬件才第一代,暂时不考虑,买点二手玩玩就行了。不过为了跑顺这27b,也耗了很多精力,有点烦了,才想看看这些一体机的成绩到底如何,网上也没个靠谱的评测,up主都是随便测一下,最多16k的上下文就拿出来吹了,根本没法看。

你这个需求买coding plan不是更好吗。搞本地部署的要么为了玩龙虾,要么涉密材料不得不部署。如果是写些demo ,云端体验好太多了
本来也想买个电脑。
跑ai能当助手,写小的控制程序。
装pcie卡,可以玩FPGA,DAQ之类的电子硬件。
这个槽只有铭凡的机器有。铭凡ms-s1独有pcie槽,独有2个80G USB4v2(雷电网口可级联)。
玩不带光追的黑猴有60帧。(个人对光追无感)。
可以装Linux虚拟机、Windows虚拟机,或容器,避免本机被杂货工业软件污染。反正内存是通用的。硬通货。
老了还能四合一组集群。

这么水桶的机器,还有啥挑剔的?
这玩意更像新时代的SUV。当然,是城市版mini SUV。论多拉快跑肯定不如卡车甚至MPV。但总比轿车能装。(重GPU的机器类似于跑车,H100就是火车了)

退一步,就算只玩ai编程,公司办公电脑显然不让用各种外来ai服务。个人只有一个一千块的赛扬N200巴掌主机支撑了。

买了就买了,买来就是全新2手。3月初价格已经涨到18xxx-19999了,我买价16868,今天新品21999,就算现在卖掉也能16868原价出吧?

本帖最后由 黄金大表哥 于 2026-3-25 04:31 通过手机版编辑

TOP

 22 12
发新话题