中国人工智能公司 DeepSeek 最近发布了新的大型语言模型 DeepSeek-V3-0324。这个 641 千兆字节的模型是在人工智能平台 “Hugging Face” 上发布的,发布前只做了极少的预告,这与该公司低调发布产品的做法是一致的。
该模型的独特之处在于采用了 MIT 许可,允许免费用于商业用途。早期基准测试表明,DeepSeek-V3-0324 能够在消费级硬件上运行,如配备 M3 Ultra 芯片的苹果 Mac Studio。人工智能科学家 Awni Hannun 报告说,使用这种设置可以达到每秒超过 20 个词组的处理速度。这种在本地现成硬件上运行大型语言模型的能力,与利用庞大的数据中心基础设施支持高端人工智能模型的传统方式截然相反。
据 DeepSeek 称,早期试验表明,该模型比以前的版本有了显著改进。该模型经过了内部相关人员的严格测试,表现出色,可能优于所有其他竞争模型,甚至在非推理任务上击败了 Anthropic 的 Claude Sonnet 3.5。不过,与 Sonnet 风格的订阅模型不同,DeepSeek-V3-0324 是免费下载和使用的。
从技术上讲,该模型是一种专家混合(MoE)架构。它有选择地使用每个任务 6,850 亿个参数中的约 370 亿个参数,在保持性能的同时减少计算需求,从而提高效率。该模型还采用了多头潜意识(MLA)和多令牌预测(MTP)技术,有助于提高上下文保持率和输出速度。
如果需要,可以通过 Hugging Face、OpenRouter 的 API 和聊天界面以及 DeepSeek 的聊天平台访问该模型。推理提供商 Hyperbolic Labs 也可以访问该模型。