吴翼:NOI金牌进姚班,放弃OpenAI股权回国,加入清华教下一代姚班学生

吴翼:NOI金牌进姚班,放弃OpenAI股权回国,加入清华教下一代姚班学生

本文核心观点
吴翼:NOI 金牌进姚班,UC 伯克利博士,OpenAI 研究员。放弃 OpenAI 股权回国,加入清华教下一代姚班学生。

吴翼:NOI金牌进姚班,放弃OpenAI股权回国,加入清华教下一代姚班学生

NOAI竞赛 · AI人物

2016年,NeurIPS大会公布最佳论文奖。

NeurIPS是机器学习领域最顶级的学术会议,每年几千篇投稿,最佳论文通常只有一两篇。

获奖的那篇论文叫Value Iteration Networks,作者之一是一个叫吴翼的中国博士生。

这是他在深度学习领域发表的第一篇论文。投了10次被拒,第11次才中——一中就是最佳论文。

七年前,这个人还在江苏常州的高中里刷信奥题。

常州少年,NOI全国第5

吴翼是江苏常州人,1992年出生。小学参加计算机兴趣小组,初一正式跟着常州高级中学的曹文老师学信息学竞赛。

2009年,高二暑假,NOI金牌,全国第5名,544分。保送清华姚班。

紧接着入选国家队,2010年代表中国参加IOI,比赛在加拿大。吴翼是那一届中国队的队长。

结果:银牌,全球第31名,离金牌线差3分。

同年中国队四个人——冯齐纬和赖陆航拿了金牌,潘宇超和吴翼拿了银牌。但后来走得最远的,恰恰是拿银牌的吴翼。

在伯克利"闭着眼"选了个项目

2014年,吴翼从姚班毕业,去UC Berkeley读博。

一开始他的研究方向跟AI没关系——编译器和逻辑推理。做了一段时间,发现自己既不擅长也不喜欢。

他主动找到Pieter Abbeel教授,说想转强化学习。Abbeel给了他三个项目让他挑。

"闭着眼随便选了一个。"

这个"随便选的"项目,就是后来拿了NeurIPS最佳论文的Value Iteration Networks——把一种经典的规划算法嵌进神经网络里,让AI不只是模式匹配,还能像人一样做路径规划。

投了10次被拒10次。第11次,最佳论文。

OpenAI:教AI玩捉迷藏

博士快毕业的时候,吴翼其实已经答应了姚期智先生回清华任教,签了助理教授合同。但正式回国前,他想在美国业界看看。

本来想去Google Brain,但Google说只能待一年半太短了,不给名额。阴差阳错,他去了OpenAI

2019年到2020年,吴翼在OpenAI做了大约18个月。

他参与的最知名项目叫"捉迷藏"(Hide and Seek)。研究团队搭了一个虚拟世界,里面有两拨AI小人——一拨藏,一拨找。没有人告诉它们该怎么玩,只给了最简单的规则:藏住了得分,找到了得分。

然后让它们自己博弈了几十亿轮。

结果这些AI小人涌现出了六个阶段的策略演化:一开始只会跑,后来学会搬箱子建堡垒,再后来学会用斜坡翻墙——防守方发现之后,又学会了把斜坡锁住……

这段演示视频发布后,成了OpenAI历史上点击量最高的研究视频之一。全世界都在讨论:AI真的能从零开始"发明"工具。

就是在这期间,公司给他提了升职和股权期权。他拒绝了——因为他答应了姚先生要回去。

今天OpenAI估值超过千亿美元。吴翼后来自嘲:"当年不懂股权的价值。"

回国:教书、研究、创业,同时推

2020年,吴翼正式回到清华大学交叉信息研究院,成为助理教授。

回来之后,他没有只在学校里做研究。

在清华,他带博士生,教深度学习课,发了40多篇顶会论文。研究方向从多智能体强化学习,扩展到大模型推理、人机交互、机器人。

在蚂蚁集团,他是强化学习实验室的首席科学家。2025年,他带团队做出了AReaL——一个专门为大模型推理训练设计的开源强化学习系统。用7B的小模型,在数学推理测试AIME24上跑出了61.9分,训练速度比传统方法快将近3倍。

创业方面,2023年他创办了边塞科技,方向是用大模型和强化学习做智能体。他自己说,创业是经历过最"卷"的阶段,AI创业几乎每天都在与"死亡赛跑"。

2025年,吴翼入选MIT Technology Review"35岁以下科技创新35人"亚太区榜单,同年获得世界人工智能大会(WAIC)云帆奖。

吴翼,从姚班少年到教姚班的人。

微信二维码

扫码备注【NOAI】加交流群