早在2024年DeepSeek-V2模型发布时,业内已经关注到这家公司及旗下的开源模型。美图设计室技术负责人郭晨晖表示,为了在美图的AI应用场景中给用户更好的效果体验,在自研的基础上,美图也一直对国内外优秀的大模型保持关注。DeepSeek-V2发布时,美图的外采AI团队就关注到了该模型,与DeepSeek团队接触尝试合作。不过为了寻求稳定性,美图当时主要通过第三方AI Infra服务商调用DeepSeek模型API。2024年9月,美图设计室接入了V2模型,辅助文案扩写,V3、R1模型发布后,他们也陆续进行了更新。“我们产品和业务团队看到一些适合结合的模型,就会去做效果评估,合适的可能就会引入到我们自己的应用场景里。”郭晨晖说。郭晨晖 来源:受访者DeepSeek官方提供了两个接入方法,一是模型跑起来后,通过一些编程方式去调用它的API接口;二是用户在手机上装一个APP或打开官网的聊天窗口,直接跟它对话,聊天窗口的背后就在调用API。不过,由于目前DeepSeek的流量过高,又存在服务器、人手不足等情况,导致DeepSeek自己的API会出现超时等问题。郭晨晖表示,美图旗下产品有着大体量的用户基数,一些功能推广开来后流量可能会激增数十倍、上百倍,这种情况下,公有云的服务保障能力相对更强。不仅如此,DeepSeek的模型比较大,尤其是“满血版”模型对硬件有一定要求;基于性价比层面的考虑,美图的业务场景存在很显著的(使用)高峰、低峰效应,云厂商可以抹平各家调用API高低峰期的差异。“如果我们自己进行部署,低峰期资源利用率可能比较低,会有比较大的资源浪费。”郭晨晖说。因此,美图目前接入DeepSeek-R1模型的方式,主要是调用云厂商的API,在此基础上进行一定的私有化部署。与美图类似,部署端侧芯片的此芯科技,也一直对新发布的各种大模型保持关注,尤其是比较适合在端侧进行本地化部署的模型。此芯科技生态战略总经理周杰表示,对于一些开源的大模型,尤其是SOTA模型(State of the Art,在某一领域或任务中表现最佳的模型),他们会第一时间投入资源进行相应的异构适配。因此在DeepSeek去年发布V2以及今年发布R1后,此芯科技都第一时间尝试适配这些模型。在周杰看来,DeepSeek-V2模型的主要创新点有两个,一是通过MLA(多头潜在注意力)架构有效地降低了KV缓存(Transformer模型在自回归解码过程中使用的一种优化技术)的开销,因为大语言模型对于内存带宽和容量的要求很高,一旦能够降低KV缓存,可以给算力平台带来很大帮助;二是DeepSeek发布的MoE(混合专家)模型,对传统MoE架构进行了优化改造,这个架构可以让一个(参数)更大的模型在资源有限的情况下被使用。当时,此芯科技很快适配了V2模型的light版本,即16B大小的模型。“虽然16B参数看起来也很大,但实际运行时,它只会激活2.4B参数。我们觉得这样的模型非常适合在端侧运行,此芯科技的P1芯片也可以给2.4B参数规模的模型提供比较好的支持。”周杰告诉《中国企业家》。周杰 来源:受访者对于此芯科技如何“接入”DeepSeek,周杰解释道:“用户现在使用DeepSeek等应用,很多需要调用云端的算力,相当于DeepSeek自己的数据中心或云厂商,提供了一些API给终端侧应用调用,用户使用DeepSeek APP时,就可以调用云端的AI能力。但是部分端侧场景可能对数据隐私等方面有很高的要求,这种情况下就需要在本地进行运算,在端侧部署后,用户可以在断网的情况下运行DeepSeek等模型。”从算力和系统层面满足了运行一个大语言模型的基本要求后,此芯科技就可以结合客户项目的实际需求,跟DeepSeek等模型厂商进行商业化合作,对模型进行微调优化,把具体项目落地。V2推出后,清程极智内部也尝试接入该模型,但当时的市场需求较少,他们就没有推广使用。今年R1出来后,他们觉得这是一个非常好的机会,决定接入DeepSeek并大规模向客户推广。清程极智是做系统软件的,对外基于系统软件提供推理服务,因此不是像部分应用公司那样直接接入DeepSeek的API,而是为客户提供一套专属的DeepSeek的API用于应用服务。“我们接入的方式是把DeepSeek的开源模型下载下来,在我们的算力系统上用系统软件把服务部署起来。”汤雄超说。通俗来讲,R1模型是一个几百G大小的文件,但下载后无法直接使用。“它只是一个文件,不是一个可用的服务,我们要做的是把这个模型运行起来,让它去对外提供服务的接口。通过API的服务接口,用户就可以跟模型进行对话了。”汤雄超解释道。基于前期技术积累,清程极智在把模型文件下载下来后,一天内就迭代出了第一个版本,随后针对R1模型结构进行了优化,正式“满血版”官宣上线只用了一周。在汤雄超看来,技术环节的工作都比较顺利,接入DeepSeek后,更多的挑战来自于商务侧或市场侧。具体来说,DeepSeek的流量给公司带来了非常多来咨询的客户,但每个客户的需求都不太一样。“包括算力平台、芯片型号、服务器规格等都不一样,我们需要针对不同的算力等基础,做针对性的调优。”汤雄超说。