DeepSeek为何来自于一个量化公司

目前最热门的话题之一必然是DeepSeek。这家中国公司以不到600万美元的训练成本,就开发出与OpenAI旗下ChatGPT性能接近的AI模型。

DeepSeek的突破完全在我意料之中。这家公司源自中国头部量化交易机构幻方量化,作为另一家量化机构创始人,我深刻理解这类突破为何会诞生于量化机构。

在阿尔法星研究,我们的交易决策完全由自主AI模型驱动。当模型性能提升20%,公司利润就会同步增长20%——这意味着资产负债表上的真金白银。这种反馈机制直接而高效:模型越强,利润越高。训练费用由公司自有资金承担,因此每节省一美元训练成本,都会直接转化为公司利润。与幻方量化类似,阿尔法星研究自身具有强大盈利能力,这使得我们在AI研发中必须精打细算,始终关注技术实效。

OpenAI则呈现截然不同的商业模式。作为尚未盈利的创业公司,其估值(及山姆·奥特曼个人财富)完全取决于资本市场的认可。虽然ChatGPT的性能提升有助于估值,但这种关联链条过于漫长。在训练成本方面,OpenAI甚至存在反向激励——越是豪掷千金采购GPU,越能向投资人证明大模型研发的”必要投入”,从而推高公司估值。这种独特生态催生了令人玩味的现象:OpenAI在训练上的”挥霍”程度,反而成为其估值攀升的推手。

深入剖析可见耐人寻味的角色错位:DeepSeek虽属金融企业,但其利润完全源自技术创新,是真正以技术为本的机构;OpenAI虽冠以科技公司之名,其资金却来自金融估值游戏,本质上更接近金融运作。这种差异在创始人背景中亦可见端倪:DeepSeek CEO梁文峰是幻方量化联合创始人兼技术负责人,而OpenAI创始人山姆·奥特曼则出身Y Combinator创投机构。

量化机构称雄AI研发还另有深层原因。金融市场赋予我们处理”带噪声小数据”的独特能力:在阿尔法星研究,我们面对的是被市场操纵者污染的、仅GB级的金融数据。这种环境倒逼我们专注于模型架构创新,而非盲目堆砌H100显卡和PB级数据。

另一个关键优势来自极速系统构建能力。为实现高频交易的微秒级优势,我们建设了横跨东京、香港、芝加哥、纽约的微波通信网络,确保交易系统全链路延迟低于1毫秒(甚至微秒级)。这种追求极致效率的技术基因,正是媒体报道中DeepSeek绕过CUDA、采用底层编程优化训练效率的根源——这正是量化机构做AI的标准操作范式。

创立阿尔法星研究前,我曾在美国顶尖量化机构城堡证券(Citadel Securities)担任研究工程师,更早则在亚马逊、Meta等科技公司任职。一个有趣的对比是:当我在科技公司工作时,提及职业总会收获赞誉,常有人感谢我为科技进步作贡献;但在城堡证券期间,每次谈及雇主,往往遭遇尴尬沉默,甚至被指为”邪恶对冲基金从业者”。这种认知偏见令人遗憾。正如计算机与互联网最初源自军事需求,最终惠及全人类,我相信以DeepSeek/幻方量化为代表的量化机构,将与软件互联网企业共同推动AI技术革命。阿尔法星研究也将为此持续贡献力量。

 

关于作者:李新野,阿尔法星研究创始人兼CEO。该公司是位于纽约的AI研究与量化交易机构。与DeepSeek创始人梁文峰相似,李新野同样来自中国广东省。

 

原载于我的英文博客:https://sinyalee.com/essays/?p=138 。中文翻译由DeepSeek提供。

文章已创建 229

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部