» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

买了ROG幻X2025 128GB 版本

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-18 21:00 发表
我买了个铭凡mss1 max刚玩了几天。我觉得可以的。毕竟是x86平台,以后即便本地大模型不够了,也还能做几件事:
1,决策型agent用云端收费大模型,干杂事是各种小模型用本地的。换句话说,虚拟公司的业务主管角色用网络大模型,虚拟公司的小干事们用本地小模型仿真。尤其小龙虾这种纯跑腿的通讯员。
2,开臭皮匠程序猿和臭皮匠审核员等多种角色。今天看微信公众号已经有人在虚拟唐朝三省六部制了门下省负责驳回。
这种互烧、提炼的方法,要靠ai ide、小龙虾和大量的token。本地大模型可以24小时烧。
3,可以级联、可以分立。级联处理更大模型。当然可能不一定划算,那么第二台机器可以买nv GB10,推理专用,第一台只负责当ai小配角外加x86杂务。即便是将来卖二手,因为能组集群,残值也比别的机器高些。

千问35b、还有那个千问coder(80B,3B)都是很流畅。另外下了nv nemotron 3 super,一跑就报错。不会玩了。不知道amd有没有办法跑nv大模型。
amd你快出个大模型啊。就针对96G显存出。

本帖最后由 黄金大表哥 于 2026318 13:02 通过手机版编辑
有点兴趣,请问Qwen27b跑满256k上下文,prefill 和decode是多少t/s呀?
我现在用着4张2080ti 22g,嫌吵


TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-23 21:23 发表
不知道怎么跑测试,LM studio。
开了Qwen3.535BA3B,size on disk 也是22.7G,上下文长度改为262144,其他参数默认:

GPU卸载,40,CPU线程池大小 12, 评估批处理大小 512, max concurrent predictionns 4,
Unified KV Cache ON, RoPE 频率基和RoPE频率比例 都是自动,KV缓存到GPU内存 ON,保持模型在内存中 on,尝试mmap() on,种子 随机种子,
专家数量 8,Number of layers for which to force CPU 0,
快速注意力 on, K缓存量化类型/V缓存量化类型 都是未选。

然后让它写一篇万字长文。
一共耗时1分05秒,复制到记事本是6178个字符。
1秒100个字?不知道算几个token。
网上翻译了下,5209tk?/65s = 80.1 t/s?

又开了一个GLM zaiorg/glm4.7flash Q4_K_M.gguf (qwen还留在内存里没撤出),size 18.13G, 上下文拉满202752个token,其他都是默认值。让写一篇万字长文描述美伊战争(给了两句话说新闻,ai没上网),没开thinking,简单思考花了34秒,一共1分20秒写完。记事本统计3630个字符。贴到网上算了下token,2818个。
那么这里是2818t / 80s = 35.2 t/s?



这里有个评测:
我们再将模型的规模拉大,来看看这台机器运行GPTOSS120B模型(Q4量化)的表现。该模型是OpenAI于2025年8月开源的MoE模型,其性能媲美OpenAI o4mini。实测显示,铭凡MSS1 MAX运行该模型的推理速度高达48.05 tokens/s,运行起来十分流畅。

作者:微型计算机
链接:https://zhuanlan.zhihu.com/p/2018468790531274275
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本帖最后由 黄金大表哥 于 2026323 13:56 通过手机版编辑
只输入几个字测不出啥的,如果要跑Claude code或龙虾,经常提示词就10多k了,还是要看下长上下文的输出速度才有意义。
35B其实没27B好用,只是快,用这个网址测一下27B的速度吧,可以从8096开始,一直到262144,步长随意,看一下长上下文的衰减情况。
https://gengchaogit.github.io/llm_speedtest/



TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-24 16:41 发表
给个27B下载链接,我用的lm studio没有推荐这个。
然后这个评估就是一个单独的网页,接入本机api对吧?
晚点跑跑看
魔搭就可以下,试试q6kxl或q8kxl
https://www.modelscope.cn/models/unsloth/Qwen3.5-27B-GGUF/files

那个测试网址里面有作者的gihub 也可以下载回来本地跑,就是一个html网页
直接去他仓库下也可以。
https://github.com/gengchaogit/llm_speedtest


TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-25 00:49 发表
试了几下服务启用了,上下文是262144,先睡了:


## 测试结果 (OpenAI兼容接口  Qwen327BQ8_K_XL)

备注:MSS1 MAX, LM Studio | 并发数: 1

| 提示词长度 (tokens) | 预填充耗时 (ms) | 预填充速度 (tokens/s) | 输出长度 (tokens) | 输出耗时 (ms) | 输出速度 (tokens/s) |
|||||||
| 571 | 3695.80 | 154.50 | 128 | 24354.50 | 5.26 |
| 1087 | 5822.20 | 186.70 | 128 | 24386.70 | 5.25 |
| 1605 | 8334.50 | 192.57 | 128 | 24446.20 | 5.24 |
| 2116 | 10485.70 | 201.80 | 128 | 24482.40 | 5.23 |
| 2635 | 12497.90 | 210.84 | 128 | 24520.30 | 5.22 |
| 3156 | 14661.50 | 215.26 | 128 | 24400.90 | 5.25 |
| 3661 | 16915.20 | 216.43 | 128 | 24448.40 | 5.24 |
| 4190 | 19118.40 | 219.16 | 128 | 24416.70 | 5.24 |
| 4711 | 21385.00 | 220.29 | 128 | 24497.00 | 5.23 |
| 5212 | 23563.00 | 221.19 | 128 | 24530.40 | 5.22 |
| 5726 | 25919.80 | 220.91 | 128 | 24565.10 | 5.21 |
| 6257 | 28354.10 | 220.67 | 128 | 24843.50 | 5.15 |
| 6760 | 30826.00 | 219.30 | 128 | 24784.30 | 5.16 |
| 7270 | 33180.70 | 219.10 | 128 | 24848.10 | 5.15 |
| 7781 | 35621.50 | 218.44 | 128 | 24704.20 | 5.18 |
| 8302 | 37911.90 | 218.98 | 128 | 24785.20 | 5.16 |

总吞吐量性能统计 (1 并发)
总预填充吞吐范围:
154.50  221.19 tokens/s
总输出吞吐范围:
5.15  5.26 tokens/s
平均总预填充吞吐:
209.76 tokens/s
平均总输出吞吐:
5.21 tokens/s
百分位统计 (P50/P90/P95)
Prefill吞吐:
P50: 218.71 | P90: 220.79 | P95: 220.98 tokens/s
Decode吞吐:
P50: 5.22 | P90: 5.25 | P95: 5.25 tokens/s

本帖最后由 黄金大表哥 于 2026324 16:50 通过手机版编辑
辛苦兄弟了!看来如果要上这台机只能用9B,27b还是太难为他了

TOP

posted by wap, platform: iPhone
引用:
原帖由 @黄金大表哥  于 2026-3-25 10:35 发表
要讲性能还是nv dgx spark,有电脑人士的ai专机。
就是起步价高些,
好处是现在也没什么溢价,台厂的、二手充新的都还便宜些。
我前短时间发了个dgx的评测视频,其实它很能处理多并发。
当然,再大规模的目前只能看mac studio,等M5 ultra。

我是因为没有私人机、工作方向偏控制电路板什么的,软件规模也小,基本就是写一点原型demo。
硬件上离不开x86、Windows、PCIe卡槽(哪怕是半高也可以接转接线)。

但总之,一味强调GPU性能(游戏圈玩法),意义不大了。游戏圈玩法是游戏厂商为了玩家考虑,特化了贴图精度和数量。

本帖最后由 黄金大表哥 于 2026325 02:36 通过手机版编辑
AI硬件才第一代,暂时不考虑,买点二手玩玩就行了。不过为了跑顺这27b,也耗了很多精力,有点烦了,才想看看这些一体机的成绩到底如何,网上也没个靠谱的评测,up主都是随便测一下,最多16k的上下文就拿出来吹了,根本没法看。

你这个需求买coding plan不是更好吗。搞本地部署的要么为了玩龙虾,要么涉密材料不得不部署。如果是写些demo ,云端体验好太多了

TOP

发新话题