陈丹琦:IOI金牌进姚班,到斯坦福时没听过NLP,现在是普林斯顿教授

陈丹琦:IOI金牌进姚班,到斯坦福时没听过NLP,现在是普林斯顿教授

本文核心观点
陈丹琦:IOI 金牌保送清华姚班。初到斯坦福读博时连 NLP 是什么都没听过,今天是普林斯顿大学计算机系教授、自然语言处理领域顶级研究者之一。

陈丹琦:IOI金牌进姚班,到斯坦福时没听过NLP,现在是普林斯顿教授

AI人物 | 感受他们为世界做出的贡献

打开OI Wiki,搜"CDQ分治",这个算法每个学信奥的孩子都会碰到。

CDQ是一个人名字的拼音缩写。写出这个算法的人叫陈丹琦,写的时候她还是长沙雅礼中学的高中生。

今天,她是普林斯顿大学计算机系教授。而她到斯坦福读博的时候,英语还说不流利,"自然语言处理"这个词都没听说过。

长沙雅礼,朱全民的学生

陈丹琦1990年出生在湖南长沙。父亲陈挚是国防科技大学数学系副教授。

她从小对数学敏感,小学三年级开始学奥数,初三开始系统学信息学。高中就读于长沙雅礼中学,教练是朱全民——雅礼信奥的核心人物。

2006年,高一,第一次参加NOI(全国青少年信息学奥林匹克竞赛)——银牌,第25名,332分。

2007年,高二,第二次NOI——银牌,第22名,441分。那年金牌最后一名445分。差4分。

两次NOI,都是银牌。

IOI四人全金

NOI银牌,但成绩足够进入国家集训队。

2008年,经过选拔,陈丹琦入选中国国家队,前往埃及开罗参加第20届IOI(国际信息学奥林匹克竞赛)——信息学竞赛的最高舞台。

那年中国队四个人:俞华程、陈丹琦、杜瑜良、杨弋。四人全部金牌。陈丹琦排名第13。

她是湖南省第一位获得IOI金牌的女生。

国家集训队期间,她交了一份作业,整理出一种处理偏序问题的分治方法。后来竞赛选手们给这个方法取了个简称:CDQ分治。今天OI Wiki上有专门一章讲它,十几年来一直是竞赛选手的必学内容。

15岁认识的人

2008年秋,陈丹琦进入清华大学姚班

姚班是图灵奖得主姚期智创办的计算机精英班。那一届姚班同学里,有她的IOI队友俞华程。其实两人认识更早——陈丹琦后来在博士论文致谢里写:

"当我第一次见到华程时,我才15岁,从那时起,我们一起经历了几乎所有的事情:从高中的编程竞赛,到我们在清华大学度过的美好大学时光,再到2012年我们共同进入斯坦福大学攻读计算机科学博士学位。"

15岁认识,一起竞赛、一起清华、一起斯坦福。两人在博士论文提交前四个月结了婚。

不会英语,没听过NLP

2012年,陈丹琦去斯坦福读博,导师是Christopher Manning——自然语言处理领域最重要的学者之一。

她自己写的当时的状态:

"当我于2012年开始攻读博士学位时,我几乎不会说流利的英语(在斯坦福我不得不修读五门英语课程),对这个国家知之甚少,也从未听说过'自然语言处理'这个术语。"

一个IOI金牌选手,到了斯坦福,英语课上了五门,NLP是什么都不知道。

六年后她毕业时,做出了两个被整个领域记住的工作。

第一个:让计算机理解句子结构。 2014年,她用神经网络做依存句法分析。在此之前,计算机分析一句话里每个词跟其他词的关系,靠的是手写规则,又慢又脆弱。她的方法又快又准,后来Google做语言分析工具SyntaxNet时直接借鉴了这个思路。

第二个:让AI读完整个维基百科来回答问题。 2017年,她做了一个叫DrQA的系统。你问一个问题,系统先从维基百科500多万篇文章里检索出相关段落,再用神经网络从里面找答案。"先检索,再阅读"——这个思路,就是后来大模型领域大火的RAG(检索增强生成)的原型。今天你让ChatGPT联网搜索再回答,用的就是这条路。

2018年,博士毕业。斯坦福把当年的Arthur Samuel最佳博士论文奖给了她。

普林斯顿

2019年,陈丹琦加入普林斯顿大学计算机系,领导普林斯顿NLP小组。2025年,晋升副教授。

她的研究从"教AI读懂文字"扩展到语言模型的完整生命周期——怎么训练、怎么对齐人类偏好、怎么理解模型内部在干什么。她还担任普林斯顿语言与智能研究中心的副主任。

俞华程,当年IOI的队友,现在也是普林斯顿计算机系教授,研究理论计算机科学。

MIT《麻省理工科技评论》"35岁以下科技创新35人"、斯隆研究奖、NSF CAREER奖、三星AI年度研究者——她的奖单已经很长了。Google Scholar上,论文被引用超过8万次。

她的普林斯顿主页上有一个小细节:名字下面有一行"How to pronounce?",点开是标准的汉语拼音发音示范。

陈丹琦,从雅礼中学写CDQ分治的女生,到让AI理解人类语言的人。

微信二维码

扫码备注【NOAI】加交流群