OpenAI的梦魇!DeepSeek V3每秒20个token飞速运行! |
OpenAI的劲敌!DeepSeek V3每秒运行20个token! |
OpenAI的大麻烦!DeepSeek V3每秒20个token的运行速度! |
OpenAI的克星?DeepSeek V3每秒达20个token运行速度! |
OpenAI的忧患!DeepSeek V3以每秒20个token速度运作! |
来源:云头条
2025年3月25日,DeepSeek静悄悄地推出了一款新的大语言模型,这一模型在AI领域引发了巨大的轰动,这既归因于它强大的功能,也与它的部署方式有关。这个容量达641GB、名为DeepSeek - V3 - 0324的模型于今日现身于AI代码库Hugging Face上。
这家公司发布强大产品时向来低调,此次也几乎未发布任何公告,依然延续着这种模式。
此次发布格外引人瞩目的一点在于模型的MIT许可证:这一许可证允许其被免费用于商业用途。此外,早期有报道指出,该模型能够直接在消费级硬件上运行,确切地说是搭载M3 Ultra芯片的苹果Mac Studio。
,时长00:31
AI研究员Awni Hannun于社交媒体发表言论:“新型的4位版本DeepSeek - V3 - 0324,在装配了mlx - lm的512GB M3 Ultra设备上,运行速度能够超过每秒20个token呢!”尽管售价为9499美元的Mac Studio或许拓宽了“消费级硬件”这一概念的范畴,然而,能够在本地运行如此巨大的模型,这与最前沿的AI通常得依靠数据中心才能运行的情况相比,是极为不同的。
模型有着6850亿个参数,可它既没有附带白皮书,也没有相关博文,更不存在营销噱头,仅仅存在一个空白的README文件以及模型自身的权重。
这种做法和许多AI公司惯常采用的精心谋划产品发布的方式形成了强烈的反差,不少AI公司往往在产品真正发布前开展长达数月的宣传炒作。
早期的测试者反馈称新版本对比上一版本有明显的提升。AI研究人员Xeophon在X.com的一个帖子里声称:“我在内部测试平台对新的DeepSeek V3进行了测试,发觉它在所有接受测试的各项指标上都有了极大的进步。如今它是最为优秀的非推理模型,已经取代了Sonnet 3.5。”
要是这一说法能在更广泛的范围内经过测试得以证实,那DeepSeek的新模型就会超过Anthropic的Claude Sonnet 3.5,而Claude Sonnet 3.5属于最受推崇的商业AI系统中的一个。
Sonnet是需要订阅的,与之不同的是,DeepSeek - V3 - 0324的权重能够被任何人免费下载并使用。
DeepSeek - V3 - 0324运用混合专家(MoE)架构,从根源上对大语言模型的运行模式进行了彻底重塑。
传统模型在处理每项任务时会激活自身的全部参数,然而DeepSeek采用的方法是,在执行特定任务的过程中,仅仅激活其总数为6850亿个参数里的大约370亿个。
这种选择性激活简直就是让模型效率发生了根本性的变革。DeepSeek仅仅针对每一项特定任务去激活那些最为相关的“专家”参数,如此一来,它就达成了能够与那些完全激活且规模大得多的模型相匹敌的性能,并且还极大地削减了计算方面的需求。
这个模型运用了两项其他的开创性技术:多头潜在注意力(MLA)与多token预测(MTP)。模型借助MLA提升了其处理长篇幅文本时维持上下文的能力,MTP则是每步生成多个token,并非像通常那样每次只生成一个token。这些创新一起使输出速度提升了将近80%。
开发者工具的创立者Simon Willison于一篇博客文章里着重提到,4位量化的版本能够把所需的存储空间削减至352GB,如此一来,便能够在诸如搭载M3 Ultra芯片的Mac Studio这类高端消费级别的硬件上运行。
这表明AI的部署很可能会发生重大转变。
传统的AI基础设施往往要依靠多块英伟达GPU,这些GPU的功耗通常达到数千瓦,然而Mac Studio在推理期间的功耗还不足200瓦。
这种效率上的差异意味着,AI行业或许有必要重新审视对头部模型性能之于基础设施需求方面的认知。
参考资料:
https://venturebeat.com/ai/deepseek-v3-now-runs-at-20-tokens-per-second-on-mac-studio-and-thats-a-nightmare-for-openai/