
2025年2月23日,一则来自美国AI公司Anthropic的公告,在AI行业掀起轩然大波。公告指控中国三家大模型厂商DeepSeek、Kimi和MiniMax发起工业级“蒸馏”攻击元鼎证券,通过虚假账户与代理服务大规模调用Claude模型接口获取输出结果,用于优化自身模型能力。这一事件,将AI模型训练中“蒸馏”这一常见手段,推到了舆论的风口浪尖,也引发了行业对于技术边界、商业规则以及创新路径的深度思考。
## “蒸馏”技术:行业“潜规则”与规则冲突
在AI模型技术领域,“蒸馏”并非新生事物,而是一种被广泛使用的训练方式。简单来说,就是用强模型的输出去训练弱模型,利用商业模型生成合成数据来提升自家模型性能。全球AI开源社区HuggingFace亚太生态负责人王铁震就将其视为“公开的秘密”。从技术原理上讲,这类似于经验传承,强者将其积累的知识输出,弱者借此学习和成长,以提升自身能力。
然而,规则的冲突在此显现。包括Anthropic在内的一些海外AI公司,在服务条款(ToS)中明确禁止厂商使用其输出结果来开发竞争模型。这就好比在知识共享的领域里,划出了一条“竞争禁区”。硅基流动联合创始人杨攀提出质疑:“模型就在那里,不让人用吗?”这种质疑,反映了行业对于规则合理性的不同认知。
杨攀用一个生动的例子来解释“蒸馏”和此次指控。他把学霸比作强模型,学渣比作弱模型。学霸辛苦学习考了95分,将学科笔记公开展示,学渣抄了笔记成绩从60分提高到80分,学霸却骂学渣窃取劳动果实。在开发者社区里,观点分化明显。支持Anthropic的开发者认为,大规模注册假账号、针对性“薅羊毛”的行为违反商业契约,破坏了AI行业的公平竞争原则;而网友则讽刺Anthropic,指出其训练模型时用的互联网数据,也未必都给原作者付过费。王铁震还提到Claude爬取互联网大量信息,将其描述为“偷师”人类,埃隆·马斯克更是发帖嘲讽,甚至指出Claude“蒸馏”了其他模型的能力。这一系列争论,凸显了“蒸馏”技术在行业应用中的复杂性和争议性。
## 成本困局:“偷师”背后的无奈选择
在模型公司负责海外业务与技术开源的工程师李轩,对“蒸馏”有着不同的看法。他认为Anthropic公告中的“蒸馏”攻击一词包含贬义,也不认可将国产模型厂商类比为“学渣”。在他看来,被点名的三家中国大模型企业学习态度并不差,只是与Anthropic这样的厂商相比,更像是穷孩子与富孩子,“后者有钱买各类书籍学习,而前者买不起”。
从技术定义上,“蒸馏”边界并非绝对。李轩更愿意用“数据合成”“冷启动”等中性词汇替代“蒸馏”。他指出,DeepSeek在V3大模型技术报告中称使用“冷启动数据”,却未明确数据来源。本质上,通过调用其他模型获取训练素材的做法在行业内很普遍,大家只是心照不宣。这是为了补充训练数据,提升模型在特定领域的表现,弥补自身能力短板。
而“蒸馏”之所以成为一些厂商的选择,成本是关键因素。以数学竞赛题为例,海外厂商可投入上亿美元邀请顶级科学家标注数据,一套IMO级别的数学题,标注成本可能高达数千万元,单条题目标注费用甚至超过1万元。而国产厂商受资金限制,难以承担如此高昂的成本。李轩算了一笔账,MiniMax被指控向Claude模型发送请求量超过1300万次,对应的API调用成本可能高达数亿元。MiniMax在招股书中披露,从2023年至2025年前9个月,元鼎证券-股票配资平台|专业股票配资服务不到3年时间账面亏损超12亿美元,摩根士丹利估算其月均现金消耗约2790万美元。
除了数据标注成本,算力也是国产大模型面临的隐性瓶颈。目前,国内大模型训练主要依赖英伟达GPU,但受美国出口管制影响,高端芯片获取难度极大。李轩形象地描述:“国产大模型面临‘有钱也买不到卡’的困境,训练阶段算力不足会限制模型规模,推理阶段算力不足会影响用户体验。”在这种资源受限的情况下,“蒸馏”成为一些模型厂商不得不取舍的选择。
## 创新路径:借鉴与突破的平衡之道
在“蒸馏”争议中,创新成本与创新能力的关系备受关注。2025年7月,KimiK2宣布完全开源且允许商用,AI研究科学家SebastianRaschka称其架构与DeepSeekV3基本一致。Kimi团队随后回复,曾尝试多种不同于DeepSeekV3的MoE/Dense结构变种,但始终没有设计在loss(损失值)指标上显著超过DeepSeekV3,最终决定完全继承其底层架构。
李轩认为,并非国内厂商缺乏创新能力,而是创新成本过高。自研新架构需要投入大量资源进行实验验证,且失败风险极高。相比之下,借鉴成熟架构的性价比更高,一些模型厂商为进一步节约成本会选择采集冷启动数据。这就如同在科技发展的道路上,后来者往往需要在借鉴前人经验的基础上寻找突破点。
## 独立思考:规则、创新与行业未来
在这场“蒸馏”风波中,我们看到了规则与创新之间的矛盾。海外AI公司通过服务条款限制“蒸馏”行为,旨在维护自身的竞争优势和商业利益;而国产模型厂商在资源有限的情况下,选择“蒸馏”作为提升能力的手段,也是无奈之举。这反映出AI行业在快速发展过程中,规则制定的滞后性。
从创新的角度看,完全禁止“蒸馏”可能会阻碍技术的传播和发展。但如果无限制地“蒸馏”,又会导致行业创新动力不足,陷入同质化竞争的困境。如何在两者之间找到平衡,是行业需要思考的重要问题。或许,建立更加合理的知识共享和竞争规则,鼓励在借鉴基础上的创新,才是推动AI行业健康发展的关键。
## 行业转向:垂直场景与基础研究的新机遇
在长期推动模型业务“出海”过程中,李轩意识到海外模型在中文理解和文化适配方面存在不足,而这正是国产模型的机会。尤其当“蒸馏”成为行业普遍操作,“偷师”逐渐出现天花板。一位国产大模型管理人士表示,现今模型间已经“蒸”不出高价值的数据了,如果全球从业者都选择蒸馏,没有人探索原生逻辑,AI的进化或将陷入“近亲繁殖”的循环。
面对数据枷锁,国产大模型厂商并非无计可施。与海外厂商追求全能型模型不同,国内厂商可聚焦垂直场景,打造细分领域的优势,如中文处理、政务服务、医疗健康等。李轩还观察到,国内厂商正在加大基础研究投入,在高效训练、小样本学习、多模态融合等领域出现不少研究成果,甚至可以基于领先的国产模型架构进行二次创新,推出更高效的新模型,加入到全球模型能力的竞争中。
在这场AI模型的“蒸馏”风波中元鼎证券,我们看到了技术、成本、规则和创新之间的复杂博弈。国产大模型厂商在资源受限的情况下,通过“蒸馏”寻求发展,虽面临争议,但也有其无奈之处。而未来,聚焦垂直场景和加大基础研究投入,或许是国产大模型突破困境、实现创新发展的有效路径。AI行业的竞争才刚刚开始,如何在规则与创新之间找到平衡,如何在全球竞争中占据一席之地,国产大模型厂商还有很长的路要走。
元鼎证券-股票配资平台|专业股票配资服务提示:本文来自互联网,不代表本网站观点。