DeepSeek代码开源周收官，世界已经变了

3月1日消息，AI公司DeepSeek为期五天的 “代码开源周” 告一段落。

本周一至周五，DeepSeek以每日不定时一更的频率，开源多个代码库，涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。

DeepSeek认为：通用人工智能不存在“高高在上的象牙塔”，而是秉持车库创业精神，与社区共同构建创新力量。

五天的代码开源，展示了DeepSeek在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了AI模型的性能和效率，也为AI领域的研究者和开发者提供了宝贵的资源和工具。

从模型开源，到代码开源，DeepSeek凭一己之力，重塑了大模型世界。

英伟达跌落神坛

在这一周里，AI大模型火起来至今的最大赢家赚钱最多英伟达发布了最新财报。但是股价已经连跌多日，从130多美元跌到120美元左右。

英伟达2025财年第四季度营收同比增长78%，较此前连续五个季度三位数增长的态势显著放缓，且同比增速为近两年来最低水平。2024财年第四季度曾达到265%的峰值‌。

分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta等核心客户同步研发自研芯片以减少对英伟达的依赖；一方面是‌DeepSeek-R1低成本AI模型降低算力需求，部分削弱市场对英伟达高端芯片的依赖‌。

当日，英伟达股价大跌8.5%，市值蒸发2740亿美元。

一个月前，DeepSeek发布的低成本、高性能开源推理模型R1引发市场震动，英伟达股价一度暴跌近17%。

尽管英伟达CEO黄仁勋强调，DeepSeek的开源工具和低成本模型虽然对行业产生了冲击，但英伟达通过软硬件协同优化，依然保持了在AI芯片领域的领先地位。

但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国AI公司DeepSeek的影响的担忧。

被改变的还有同行。

OpenAI最新大模型GPT-4.5被槽太贵

闭源大模型no1的OpenAI在周五发布了最新的最强大模型GPT-4.5，当然也是最贵的。

GPT-4.5是OpenAI史上参数规模最大的模型，其计算量是上一代的10倍。GPT-4.5的API价格为每百万Tokens 75美元，相较上一代GPT-4o的2.5美元上涨30倍。

GPT-4.5不是一个专注于推理的模型，GPT-4.5并不能完全替代GPT-4o，在基准测试中它的某些能力低于o1、o3-mini。

这款被网友吐槽“贵得要死”的大模型，并没能如OpenAI此前的历届旗舰大模型发布时一样引发好评热议如潮。现在，更多人会用DeepSeek来酸它：有免费好用的DeepSeek开源可用，给我一个花这么多钱用你的理由？

附上DeepSeek代码开源周内容：

2月24日：Flash MLA开源

详情： https://www.techweb.com.cn/it/2025-02-24/2957370.shtml

‌开源内容‌：DeepSeek开源了Flash MLA，这是一个针对英伟达Hopper GPU优化的高效MLA Multi-head Latent Attention，多头潜注意力解码内核。

‌核心特性‌：特别针对可变长度序列进行优化，使用基准为Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平台上，内存受限配置下可达最高3000GB/s，计算受限配置下可达峰值580 TFLOPS。

‌技术亮点‌：FlashMLA的设计参考了FlashAttention 2&3以及CUTLASS的技术实现，通过KV压缩与潜在变量、低秩降维技术、动态序列处理等优化，显著减少了大模型训练和推理过程中的内存占用。

2月25日：DeepEP通信库开源

详情：https://www.techweb.com.cn/it/2025-02-25/2957421.shtml

‌开源内容‌：DeepSeek开源了DeepEP，这是一个用于MoE 混合专家模型训练和推理的EP Expert Parallelism 通信库。

‌核心特性‌：为所有GPU内核提供高吞吐量和低延迟，支持低精度操作包括FP8 。针对NVLink到RDMA的非对称带宽转发场景进行深度优化，提供高吞吐量，并支持SM数量控制。

‌技术亮点‌：对于对延迟敏感的推理解码，DeepEP包含一组低延迟内核和纯RDMA，以最大限度地减少延迟。同时，引入了一种基于钩子的通信计算重叠方法，不占用任何SM资源。

2月26日：DeepGEMM代码库开源

‌ 详情：https://www.techweb.com.cn/it/2025-02-26/2957487.shtml

开源内容‌：DeepSeek开源了DeepGEMM代码库，专为简洁高效的FP8通用矩阵乘法 GEMMs 而设计。

‌核心特性‌：同时支持普通的和专家混合 MoE 分组的GEMM运算，为V3/R1训练和推理提供动力支持。使用CUDA编写，无需编译，通过轻量级即时编译模块在运行时编译所有内核。

‌技术亮点‌：DeepGEMM设计简洁，代码量约为300行，但性能在各种矩阵形状上与专家调优的库相匹配或超越。在H800上测试，计算性能最高可达1358 TFLOPS，内存宽带最高可达2668 GB/s。

2月27日：并行优化策略开源

详情：https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml

开源内容‌：DeepSeek开源了三项并行优化策略，包括DualPipe、EPLB和Profile-data。

DualPipe‌：一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法，显著减少管道气泡空闲时间。

EPLB‌：一个针对V3/R1的专家并行负载均衡工具，根据估计的专家负载计算平衡的专家复制和放置计划。

Profile-data‌：DeepSeek基础设施中的数据分析，包括来自训练和推理框架的性能剖析数据，旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。

2月28日：3FS文件系统开源

‌ 详情：https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml

开源内容‌：DeepSeek开源了Fire-Flyer文件系统 3FS ，一个高性能并行文件系统。

‌核心特性‌：应对AI训练和推理工作负载的挑战，利用现代SSD和RDMA网络提供共享存储层，简化分布式应用程序的开发。在由180个存储节点组成的大型测试集群上，总读取吞吐量达到约6.6个TIB/S。

‌技术亮点‌：3FS的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载如数据准备、数据加载器、检查点、用于推理的KVCache 等。

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息

版权与免责声明:

感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容：

1.该文章主要收集于互联网，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性。

2.本网站的所有信息仅供参考，不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。

3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时，建议您立即联系本网站的站长或管理员进行删除处理。

分享到

DeepSeek代码开源周收官，世界已经变了

微信扫一扫：分享

相关推荐

真我Neo7 SE评测：2000元价位段的“六边形战士”

曹操出行智行自动驾驶平台上线，在苏杭开启Robotaxi运营试点

什么值得买：2月国补推动3C数码消费创新高国产品牌成最大赢家

马蜂窝绳志成：AI技术为旅行社打开新流量入口

OTA首家！同程程心大模型接入DeepSeek

安全带不安全！保时捷中国宣布召回190辆911系列汽车

苹果iPhone 16e电池或接近4000mAh 高于iPhone 16

贾跃亭：FX 6原型车正跨越太平洋运往美国总部

小鹏汽车：2025款G6投入的成本不亚于重新开发一款新车

常用服务

常用查询

热门预约

网上办事

DeepSeek代码开源周收官，世界已经变了

微信扫一扫：分享

分享到

相关推荐

真我Neo7 SE评测：2000元价位段的“六边形战士”

曹操出行智行自动驾驶平台上线，在苏杭开启Robotaxi运营试点

什么值得买：2月国补推动3C数码消费创新高 国产品牌成最大赢家

马蜂窝绳志成：AI技术为旅行社打开新流量入口

OTA首家！同程程心大模型接入DeepSeek

安全带不安全！保时捷中国宣布召回190辆911系列汽车

苹果iPhone 16e电池或接近4000mAh 高于iPhone 16

贾跃亭：FX 6原型车正跨越太平洋 运往美国总部

小鹏汽车：2025款G6投入的成本不亚于重新开发一款新车

常用服务

常用查询

热门预约

网上办事

什么值得买：2月国补推动3C数码消费创新高国产品牌成最大赢家

贾跃亭：FX 6原型车正跨越太平洋运往美国总部