DeepSeek内部交流纪要总结与讨论记录(字节跳动内部原文归档)

DeepSeek交流纪要

站长推荐:DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替

观点分享

DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。

理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。

结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;

结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;

结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。

在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。

结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。

商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。

交流探讨

Q:DeepSeek成本比较低的主要原因?

A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。

DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化

(1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发

(2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达

成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。

DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。

模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应


Q:对于GPU的需求?

A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度
效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。


Q:DeepSeek会不会促进国内应用发展?

A会使得行业变得更大,大量公司跃跃欲试在搞,之前因为行业增速有所放缓,DeepSeek开源之后会加速决策,生态圈会比较热闹,之前的误区是指望一级市场的投资者扶持大企业,因为花别人钱会有考核,现在造血能力比较强的企业,还有一级市场公司决策会更顺畅些,因为有开源模型作为参考。

发表评论