深圳资讯
DeepSeek发布NSA研究成果,创始人梁文锋亲自参与
Feb 19, 2025 6:24:02 PM

近日,人工智能公司DeepSeek在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力 机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。

论文的第一作者袁景阳是在DeepSeek实习期间完成了这项研究,这一成果的取得对他个人以及DeepSeek来说都是一大喜讯。令人感到惊喜的是,DeepSeek的创始人梁文锋也作为著作者之一出现在论文署名中,排名倒数第二,这一举动在业内引起了不小的讨论。

论文摘要指出,DeepSeek团队认识到长上下文建模对于下一代大型语言模型的重要性。然而,现有的标准注意力机制随着序列长度的增加,其高复杂度成为了性能提升的瓶颈。 机制的提出,正是为了解决这一问题。

通过高效处理长序列的能力,使模型能够直接处理如整本书籍、代码仓库或长轮对话等大规模数据,极大地扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。

此外, 针对现代硬件的优化设计不仅提高了推理速度,还降低了预训练的成本,同时保持了模型的性能。在通用基准测试、长文本任务和基于指令的推理中, 的表现均能达到或超越全注意力模型。

DeepSeek团队认为,稀疏注意力机制为提高模型效率同时保持能力提供了一条有希望的途径。

根据公开资料, 是一种专为长文本训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略等先进技术,对传统AI模型的训练和推理过程进行了显著优化。

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息



版权与免责声明:

感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容:

1.该文章主要收集于互联网,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性。

2.本网站的所有信息仅供参考,不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。

3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时,建议您立即联系本网站的站长或管理员进行删除处理。

相关推荐