偷偷撸1 01年实习生被曝认真字节RL核默算法！系字节LLM攻坚小构成员

你的位置：丝袜美腿 > 自拍视频免费偷窥 > 偷偷撸1 01年实习生被曝认真字节RL核默算法！系字节LLM攻坚小构成员

偷偷撸1 01年实习生被曝认真字节RL核默算法！系字节LLM攻坚小构成员

发布日期：2025-07-06 11:45 点击次数：76

一个超越 DeepSeek GRPO 的要津 RL 算法出现了！偷偷撸1

用上该算法后，Qwen2.5-32B 模子只经过 RL 磨练，不引入蒸馏等其他时间，在 AIME 2024 基准上拿下 50 分，优于调换 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen，且 DAPO 使用的磨练步数还减少了 50%。

这个算法名为 DAPO，字节、清华 AIR 调处实验室 SIA Lab 出品，现已开源。

论文通信作家和开源名目认真东说念主齐是一个叫 Qiying Yu 的东说念主。

Qiying Yu，何许东说念主也？

量子位搜陷阱罗公开贵寓，整理出以下信息：

禹棋赢，01 年生，本科毕业于哈工大，直博参加清华 AIR，目前博士三年事在读。客岁年中，他以计划实习生的身份加入字节初次推出的「Top Seed 东说念主才诡计」。

咱们还从知情东说念主士处得知了禹棋赢的另一重身份——

在字节大模子团队里面认真打造"技艺显耀擢升的下一代谈话模子"的攻坚小组中，禹棋赢是惟一的实习生。

天然是实习生，但在这个大神云集的小组里，禹棋赢被委以重负，平直认真 RL 场地的计划。

凭什么？

事情要从客岁夏天提及。

客岁 10 月，他在字节第一个跑出 aha moment

客岁 5 月，字节启动「Top Seed 东说念主才诡计」，最终登科多名应届和在读博士构成史无先例的 AI 计划团队，禹棋赢就在其中。

为期 2 个月的 warm up landing（访佛可目田探索的合适期）后，禹棋赢锚定了我方的场地——大谈话模子推理。

竟然定下场地的同期，禹棋赢就和 mentor 王明轩细目，要作念一个智谋的强推理技艺模子。

这事儿和豆包大模子主团队的名目并行股东，主如果禹棋赢一个东说念主在探索。

更为要津的是，看到"采样更多，弱模子准确率也不错很高"的征象后，他刚硬以及确信要用 RL 来作念。

不久之后的 9 月，RL 与 CoT 引诱使逻辑准确性和泛化技艺大幅擢升的 OpenAI-o1 就出现了。

场地没错！那就"沿这条路一直往后作念"。

知彼亲信，降龙伏虎。禹棋赢运转技俩拿 o1 跑 case，比如挨个作念 IMO 题（其中部分题目取得谜底不难，严谨的阐明经过才是得分点）。

不跑没相关，一跑起来问题就露馅了。

o1 能给出正确谜底，然而阐明经过枯竭。

基于此，禹棋赢和团队其时就赌了一把，判断 o1 是纯基于 outcome supervision train 出来的。

于是乎，禹棋赢 get 了一个与其时主流想路不同的猛烈时间信号：

用 outcome based reward 去作念 RL。

就这样干吧！接着即是基于字节里面小模子和里面代码库，用很少的 GPU、学术界开源数据集，任性迭代、任性跑。

这一干还真给他干出东西来了——

一运转，能把小模子的数学技艺擢升几十分，杰出里面最大、最强的模子。

自后，禹棋赢竟然每天齐会发现模子表示出一些新技艺，一些此前大伙儿一直想让它有、但又望尘不及的技艺。

目前，不需要构造任何东西，只需要通过 RL，模子我方就能把这些技艺表示出来，以致表示复杂的类 o1 的推理技艺。

以至于那段时候禹棋赢异常兴隆，每天拽着王明轩任性谈判到夜深。

他我方更是平直在会议室摆了张床住在公司。

天然他和床的相关，在那 1 个多月里其实是这样的：深夜 12 点能躺下，但兴隆得根底睡不康健，凌晨 2 点又爬起来写代码，可能 5 点多一个 idea 灵感乍现就又爬起来。

基本上每整夜齐异常兴隆地起来好几次，就这样醒醒睡睡偷偷撸1，也不认为累。

此处出现了一个要津的时候节点。

"偶而十月十几号，咱们发现要模子输出异常复杂的数学公式时，它会说 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。"禹棋赢认为大模子这个反想事后换想维的行动很有灵性。

屏息凝想，他和王明轩盯着屏幕反复说明，最终认定——这即是他们所追求的技艺的雏形！

凭据截图，其时他们在文档里敲下这样一段话：

异常有料想。愈加刚硬地信托 Outcome-based RL 一定能引发出异常利弊的行动！！！

没错，DeepSeek-R1 引东说念主选藏的 Aha Moment（顿悟时刻），禹棋赢在客岁 10 月在字节里面跑通了。

传说，尔后，禹棋赢被邀请参加 LLM 攻坚小组，并委以「认真 RL 场地」的重负。

下一战，"计划了了 RL 的 scaling 法例"

以上细节，来自最近互联网冲浪时在一个知乎话题下的无意发现。答主匿名，共享了在字节大模子团队 Top Seed 实习的经历，从事 RL 场地。

经量子位求证说明，该答主即是禹棋赢。

沿着这条头绪，咱们在互联网上征集整理了禹棋赢的更多"战绩"。

据 HIT 诡计学部团委公众号贵寓，禹棋赢是哈尔滨工业大学 2018 级本科生。

他以材料专科入学，半途转到诡计机科学与时间专科，主要计划场地为天然谈话处理。

按照目前贵寓来看，这应该是名天资型选手——大二才运转学编程，但同庚就加入了博导车万翔的科研团队。

大四时，禹棋赢在左旺孟说明注解团队以一作身份在 ECCV 上发表了一篇论文。

本科毕业后，禹棋赢直博清华，目前清华 AIR 博三在读。

此前，他曾先在智源实习，当作中枢作家产出了 Emu、EVA-CLIP 系列责任，奴隶的 mentor 是曹越（前光年以外联创）和王鑫龙（智源计划院视觉模子计划中心认真东说念主）。

客岁 5 月字节开启 Top Seed 诡计后，他在 6 月通过校企相助名目入选，欧美性交电影成为首批 Top Seed 成员。

量子位获悉，和禹棋赢同期的 Top Seed 实习生还有两届 IMO 满分选手、LLaDA 一作、 Buffer of Thoughts 一作等东说念主。

这里补充一句，前边咱们提到过禹棋赢的 mentor 王明轩，即是客岁量子位最初曝光的字节大模子要津 8 东说念主之一。

大伊香蕉在线精品视频

△王明轩，图源豆包大模子团队公众号

禹棋赢加入 Top Seed 后，就有了和王明轩总共发现 aha moment，每晚谈判到 11 点、谁也不想离开公司的牢记经历。

后头在 LLM 攻坚小组，有一个好讯息，和一个坏讯息。

好讯息是，加入攻坚小组后，不管是工程上如故数据上取得的各方因循齐更多了。

加上组织扁平，饱读舞 end to end 把模子、预磨练、后磨练买通，引诱险阻游去想考问题，举座交流异常高效。

"坏"讯息是，1 月底，DeepSeek-R1 从天而下。

禹棋赢在知乎帖中感叹，正本"那时每天齐在判辨冲破与兴隆中渡过，但有点缺憾的是，到 1 月就被 Deepseek 打爆了 hhh。"

倒不是凉了半截，至少 R1 的出现示意一直刚硬股东的道路莫得错，DeepSeek 团队还把它作念得很优雅，且实测后果异常优秀。

自后的测试适度炫耀，如果聘请蒸馏不错立即擢升推理后果，但其时为了信得过弄了了机理，禹棋赢和共事们如故聘请从容来，作念恒久的事情，step by step 擢升数据质料。

回看那段日子，禹棋赢认为"记念里十足莫得窘况"，兴隆得睡不着觉的感受还百不获一在目。

"怕什么真义无限，进一寸有进一寸的快乐。"他在知乎帖中写说念，团队里不管是工程如故算法，齐会把追求真义、追求时间试验的冲破当作异常大的 reward，人人会认为这个很欢跃。

目前的禹棋赢又有了新的追求：他 bet LLM RL 时间 towards AGI，接下来的筹画是计划了了 RL 的 scaling。

大模子行业，训戒不再是惟一筹码

禹棋赢身上引诱了太多 tag，是现如今大模子一线极具代表性的缩影。

还有个更戏剧性的 tag，必须要提的那种——

进字节前，禹棋赢还在智源作念多模态场地实习的时候，传说异常多一线大模子团队的 HR 齐给他和共事抛过橄榄枝。

那时候，禹棋赢是在 DeepSeek 和字节中作念的最终聘请。

谜底嘛，人人读到这确信齐知说念了。

之是以这样选，禹棋赢我方说得很了了，"字节场景和资源丰富，探索空间饱和，上限够高。"

况且和外界印象不相通，新东说念主在这里也不错取得很好的 nurture，"明轩、永辉时时来找我交流，我也不错说是在字节读的博"。

如果再来一次，靠近 DeepSeek，我如故会选 ByteDance。

我认为 DeepSeek 战争力真的很强，但我会致力于让 ByteDance 胜算更大小数！

有点中二？有焚烧？

这倒不是要津，要津是真的有地方能连结禹棋赢的高燃。

字节对禹棋赢的重用，试验上是当下顶尖大模子团队对"责罚前沿问题技艺"的极致追求——一个能在 RL 场地从 0 到 1 跑通要津时间的年青东说念主，即使身份仅仅实习生，也能成为攻坚战中弗成替代的突击手。

这种情况在 AI、在大模子这行并不是新鲜事了。

以试验责罚问题的技艺而非阅历界说价值的逻辑，早一经在重塑 AI 产业的东说念主才坐标系。

OpenAI 从 GPT-1 运转就这样，一作 Alec Radford 刚从非顶尖高校本科毕业，自后竟然参与了 OpenAI 统统的要紧冲破；到 GPT-4o、Sora，团队半壁山河齐是新东说念主、年青东说念主。

DeepSeek 也这样，是清北应届生撑起一派天。创业团队更不必多说，大部分齐是年青毕业生组局。

目前又有了字节 TopSeed 实习生禹棋赢这个例子。

他们的故事折射出 AI 大模子期间的全新图景——训戒不再是惟一筹码，趣味心与践诺力才是通行证。

AGI 范畴，大片的未知范畴恭候探索。当一个新的模子架构或磨练技艺被忽视，不管是老法师如故外行村村民，齐需要重新学习和合适。

另一边，过往的泰斗技艺论可能成为通往 AGI 的想维镣铐。

年青东说念主天然训戒相对枯竭，但不落窠臼，还领有一些独属于初出茅屋者的特色：他们对时间直观的信任高于既有范式，有拦齐拦不住的关注与趣味心，对试错资本怀抱极高的耐受度。

这一切对探索 AGI 来说，稀奇异常。

异常 nice 的事情即是，学界和工业界齐很认这张通行证。

学界培养和重用年青东说念主。每个 AI 顶会上齐降生忽闪的新星；各大高校大模子有关专科，每年齐有更年青的东说念主担任教职，为自后者引路。

工业界迎接和托举年青东说念主。就拿字节 Top Seed 这个大模子东说念主才项筹画杆为例，为包括实习生在内的年青东说念主提供充分算力资源、业界顶级待遇，不仅赐与探索空间，还不错将计划转为试验期骗。

一条新鲜的、表示的逻辑链摆在咱们咫尺：

当 AGI 探索参加无东说念主区，谁离前沿和新的规模更近，谁就能引颈和界说章程，绝岂论阅历和出身。

One More Thing

At last，看到这儿的一又友们有福了，来吃终末一口瓜：

量子位独家获悉，本年字节还会不竭 Top Seed 名目。

将由原谷歌 DeepMind 副总裁、现字节杰出豆包大模子团队认真 AI 基础计划探索责任的吴永辉亲身带队。

参考贵寓：

[ 1 ] https://www.zhihu.com/people/wabjpz

[ 2 ] https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

一键三连「点赞」「转发」「防范心」

迎接在辩驳区留住你的主义！偷偷撸1

上一篇：黑丝内射家和万事兴161188103：上译经典电影《死别了，火器》完竣版。
下一篇：没有了

相关资讯

热点资讯

友情链接：