DeepSeek发布新论文开云网页版 (中国)官方在线登录,梁文锋参与签字。
1月1日音问,DeepSeek发布了一篇新论文,提倡了一种名为mHC(流形欺压超通顺)的新架构。该研讨旨在处治传统超通顺在大边界模子进修中的不结实性问题,同期保抓其权贵的性能增益。这篇论文的第一作家有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得夺认识是,DeepSeek独创东谈主梁文锋也在作家名单中。

论文摘抄指出,近来,以超通顺(HC)为代表的研讨通过拓宽残差流宽度和千般化通顺花式,拓展了夙昔十年间诱骗的无数选拔的残差通顺范式。天然这些阅兵带来了权贵的性能晋升,但通顺花式的千般化从根柢上缩小了残差通顺固有的恒等映射特质,导致严重的进修不结实性与受限的可彭胀性,同期还酿成了权贵的内存打听支拨。为了处治这些问题,DeepSeek提倡了流形欺压超通顺(mHC)——一种通用框架,梗概将HC的残差通顺空间投影到特定流形上,从而复原恒等映射特质,并交融严格的基础设施优化以确保开动效能。实证据际标明,mHC梗概有用维持大边界进修,在提供彰着性能晋升的同期具备更优的可彭胀性。DeepSeek揣测,mHC看成HC的一种机动而实用的拓展,将有助于深化对拓扑架构想象的相识,并为基座模子的演进指明富足远景的标的。
里面大边界进修甩掉裸露,mHC可有用维持边界化进修,当彭胀率=4时,仅带来6.7%的极度时候支拨。

图为残差通顺范式的浮现图。本图对比了 (a) 尺度残差通顺、(b) 超通顺以及 (c) 流形欺压超通顺的结构想象。与无欺压的HC不同,mHC通过将通顺矩阵投影到一个欺压流形上,专注于优化残差通顺空间,从而确保进修的结实性。
论文在论断与瞻望部分指出,实证甩掉标明,mHC能有用复原恒等映射特质,相较于传统HC,能以更优的可彭胀性完了结实的大边界进修。重要的是,通过高效的基础设施级优化,mHC以可忽略的计较支拨完了了上述阅兵。
论文还指出,看成HC范式的广义拓展,mHC为将来研讨开辟了多个伏击标的:天然本研讨选拔双立时矩阵确保结实性,但该框架可兼容针对特定学习筹算想象的多种流形欺压探索;揣测对各异化几何欺压的深刻研讨可能催生能更好量度可塑性—结实性联系的新措施。此外,DeepSeek但愿mHC能从头激勉学界对宏不雅架构想象的慈祥。通过深化对拓扑结构若何影响优化与表征学习的相识,mHC将有助于突破现存局限,并可能为下一代基础架构的演进指明新旅途。
近期,DeepSeek动作握住。2025年12月1日,DeepSeek同期发布两个郑再版模子:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。
DeepSeek浮现,DeepSeek-V3.2的筹算是均衡推理能力与输出长度,妥贴精深使用,举例问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;比拟Kimi-K2-Thinking,V3.2的输出长度大幅裁汰,权贵减少了计较支拨与用户恭候时候。
DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长念念考增强版,同期谈论了DeepSeek-Math-V2的定领路释能力。该模子具备出色的教导随从、严谨的数学解释与逻辑考证能力,在主流推理基准测试上的性能发达比好意思Gemini-3.0-Pro。
2025年9月29日,DeepSeek文告,崇拜发布DeepSeek-V3.2-Exp模子。看成迈向新一代架构的中间要领,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏夺眼力机制),针对长文本的进修和推理效能进行了探索性的优化和考证。同期API大幅度降价。在新的价钱策略下,诱骗者调用DeepSeek API的本钱将裁汰50%以上。
2025年9月17日,在最新一期的海外巨擘期刊Nature(天然)中,DeepSeek-R1推理模子研商酌文登上了封面。该论文由DeepSeek团队共同完成,梁文锋担任通信作家,初次公开了仅靠强化学习就能激勉大模子推理能力的伏击研讨后果。这是中国大模子研讨初次登上Nature封面,亦然大家首个历程完满同业评审并发表于巨擘期刊的主流诳言语模子研讨,标识着中国AI工夫在海外科学界赢得最高招供。
Nature在其社论中评价谈:“确凿扫数主流的大模子皆还莫得历程零丁同业评审开云网页版 (中国)官方在线登录,这一空缺终于被DeepSeek冲突。”
