小侠
查看详细资料
TOP
魔神至尊
原帖由 @夏青 于 2026-3-18 03:14 PM 发表 应该看看小岛秀夫版 帅
混世魔头
魔头
原帖由 @土狗必须死 于 2026-3-18 11:54 PM 发表 昨天还问这本子显卡怎么样呢,今天就有新帖子了,能玩生9吗?还有普通使用者,现在也不知道用ai能干嘛?
原帖由 lelivre 于 2026-3-19 00:35 发表 posted by wap, platform: Android 评测很多了就不累赘了,简单说就是和RTX4060差不多,NS2都能打的生化9没理由这台不能打。
天外飞仙
原帖由 @黄金大表哥 于 2026-3-18 21:00 发表 我买了个铭凡mss1 max刚玩了几天。我觉得可以的。毕竟是x86平台,以后即便本地大模型不够了,也还能做几件事: 1,决策型agent用云端收费大模型,干杂事是各种小模型用本地的。换句话说,虚拟公司的业务主管角色用网络大模型,虚拟公司的小干事们用本地小模型仿真。尤其小龙虾这种纯跑腿的通讯员。 2,开臭皮匠程序猿和臭皮匠审核员等多种角色。今天看微信公众号已经有人在虚拟唐朝三省六部制了门下省负责驳回。 这种互烧、提炼的方法,要靠ai ide、小龙虾和大量的token。本地大模型可以24小时烧。 3,可以级联、可以分立。级联处理更大模型。当然可能不一定划算,那么第二台机器可以买nv GB10,推理专用,第一台只负责当ai小配角外加x86杂务。即便是将来卖二手,因为能组集群,残值也比别的机器高些。 千问35b、还有那个千问coder(80B,3B)都是很流畅。另外下了nv nemotron 3 super,一跑就报错。不会玩了。不知道amd有没有办法跑nv大模型。 amd你快出个大模型啊。就针对96G显存出。 本帖最后由 黄金大表哥 于 2026318 13:02 通过手机版编辑
原帖由 @xif7456 于 2026-3-23 02:24 发表 有点兴趣,请问Qwen27b跑满256k上下文,prefill 和decode是多少t/s呀? 我现在用着4张2080ti 22g,嫌吵
五道杠
原帖由 @土狗必须死 于 2026-3-19 01:08 发表 多谢亲,之前还听说能到4070水平,那我还是继续老拯救者吧!
原帖由 @黄金大表哥 于 2026-3-23 21:23 发表 不知道怎么跑测试,LM studio。 开了Qwen3.535BA3B,size on disk 也是22.7G,上下文长度改为262144,其他参数默认: GPU卸载,40,CPU线程池大小 12, 评估批处理大小 512, max concurrent predictionns 4, Unified KV Cache ON, RoPE 频率基和RoPE频率比例 都是自动,KV缓存到GPU内存 ON,保持模型在内存中 on,尝试mmap() on,种子 随机种子, 专家数量 8,Number of layers for which to force CPU 0, 快速注意力 on, K缓存量化类型/V缓存量化类型 都是未选。 然后让它写一篇万字长文。 一共耗时1分05秒,复制到记事本是6178个字符。 1秒100个字?不知道算几个token。 网上翻译了下,5209tk?/65s = 80.1 t/s? 又开了一个GLM zaiorg/glm4.7flash Q4_K_M.gguf (qwen还留在内存里没撤出),size 18.13G, 上下文拉满202752个token,其他都是默认值。让写一篇万字长文描述美伊战争(给了两句话说新闻,ai没上网),没开thinking,简单思考花了34秒,一共1分20秒写完。记事本统计3630个字符。贴到网上算了下token,2818个。 那么这里是2818t / 80s = 35.2 t/s? 这里有个评测: 我们再将模型的规模拉大,来看看这台机器运行GPTOSS120B模型(Q4量化)的表现。该模型是OpenAI于2025年8月开源的MoE模型,其性能媲美OpenAI o4mini。实测显示,铭凡MSS1 MAX运行该模型的推理速度高达48.05 tokens/s,运行起来十分流畅。 作者:微型计算机 链接:https://zhuanlan.zhihu.com/p/2018468790531274275 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本帖最后由 黄金大表哥 于 2026323 13:56 通过手机版编辑
原帖由 @xif7456 于 2026-3-24 07:10 发表 只输入几个字测不出啥的,如果要跑Claude code或龙虾,经常提示词就10多k了,还是要看下长上下文的输出速度才有意义。 35B其实没27B好用,只是快,用这个网址测一下27B的速度吧,可以从8096开始,一直到262144,步长随意,看一下长上下文的衰减情况。 https://gengchaogit.github.io/llm_speedtest/