2026-01-02 01:10:22

DeepSeek发布流形约束超连接技术，2026年新春前或推新模型

摘要

DeepSeek基于ResNet与超连接架构，推出流形约束超连接技术，显著提升大模型训练效率。该方法已在30亿至270亿参数模型中验证，性能稳定且无额外计算成本。公司CEO梁文锋主导研究，行业预计2026年春节前将发布新一代模型。

DeepSeek在深度神经网络架构领域取得关键突破，基于ResNet与超连接架构基础，推出全新AI训练方法——流形约束超连接技术。公司首席执行官梁文锋亲自主导技术演进，通过引入流形约束机制，有效控制参数扩张，显著降低大规模模型训练中的内存与计算消耗。该方法已在30亿、90亿及270亿参数规模模型中完成验证，保持性能稳定的同时未增加额外计算开销。

技术架构演进：从超连接到流形约束

最新提出的流形约束超连接方法，是对字节跳动2024年提出的超连接架构的重要升级。原始ResNet通过跨层信号传递实现深层网络训练，但在扩展至大模型时面临学习效率瓶颈。尽管超连接方案改善了信号流动，仍存在内存占用偏高的问题。DeepSeek创新性地引入流形约束机制，动态调控参数空间变化，使训练过程在保持单元计算成本不变的前提下，实现更高效的信号传播与模型收敛。

研究团队指出，该技术具备高度可部署性，仅需最小化基础设施调整即可运行。跨模型规模测试结果充分验证其适应性与稳定性。相较于传统超连接框架，新方法在信号保持能力与横向扩展性方面表现更为突出，为大模型规模化训练提供了新路径。