老规矩私有bench

案例都很不错



第三个在这个案例中做热力学图的模型,前两个是Mythos和3.5Flash


正如知乎nao榜所言,日后通过中转贩子使用opus的人,都需要面对一个问题,你用的opus如果是glm5.2冒充的,而且难以分辨。
在实际bot agent体验上,如果不是对opus4.6特别熟悉的人基本无法分辨出两者。并且其追随上文的能力很强。如果上文用的opus,继续用glm5.2根本无法分别。
其缺点目前来看,上下文注意力可能不如4.6强(说实在的比4.6强的也几乎没有)。这次上1M上下文盲猜的DS V4的技术落地,DSA的注意力只能说目前来看中规中矩而已。
不过真的恭喜智谱啊,这是国模第一次达到这个高度,glm5.5或者glm6是否真的能和fable掰手腕呢?
确实,以后购买中转站都得小心了,他到底给我用的是什么?
太牛了吧,和opus4.6就那么点差距了,几乎一样了!
gpt-5.4 xhigh跑分竟然比gpt-5.5 xhigh高
这就说明国模技术和claude和gpt的差距并不大,根本没有所谓的半年一年,也就3个月左右,如果卡方面的资源差距再小点的话,更加可能是被追上跟艹的。难怪A除这么怕。
要真的有这个质量,我倒是也不介意用国模了,加点多模态的模型和glm5.2一起用
想问下大佬你这是oneshot的结果还是多轮agent的结果?能否给出修改的轮数之类的
现在唯一的问题是,怎么抢到 GLM coding plan?
glm-5.2有说模型参数多少,啥时候开源吗?如果参数和5.1一致,也太猛了吧
但是coding plan经常断货, api又太贵, 不如codex
话说大佬有试过过一段时间再测模型么,比如这个时间段再去测一下5.1,也不知道传言的降智是否是真的
均衡发展和偏科发展的区别吧,glm 不支持多模态啊
那是不是说明国模现在的算法是领先A/了,网传Opus4.6的参数规模在3-5T