丝袜美腿-偷偷撸1 01年实习生被曝认真字节RL核默算法!系字节LLM攻坚小构成员

偷偷撸1 01年实习生被曝认真字节RL核默算法!系字节LLM攻坚小构成员

发布日期:2025-07-06 11:45  点击次数:76

偷偷撸1 01年实习生被曝认真字节RL核默算法!系字节LLM攻坚小构成员

一个超越 DeepSeek GRPO 的要津 RL 算法出现了!偷偷撸1

用上该算法后,Qwen2.5-32B 模子只经过 RL 磨练,不引入蒸馏等其他时间,在 AIME 2024 基准上拿下 50 分,优于调换 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen,且 DAPO 使用的磨练步数还减少了 50%。

这个算法名为 DAPO,字节、清华 AIR 调处实验室 SIA Lab 出品,现已开源。

论文通信作家和开源名目认真东说念主齐是一个叫 Qiying Yu 的东说念主。

Qiying Yu,何许东说念主也?

量子位搜陷阱罗公开贵寓,整理出以下信息:

禹棋赢,01 年生,本科毕业于哈工大,直博参加清华 AIR,目前博士三年事在读。客岁年中,他以计划实习生的身份加入字节初次推出的「Top Seed 东说念主才诡计」。

咱们还从知情东说念主士处得知了禹棋赢的另一重身份——

在字节大模子团队里面认真打造"技艺显耀擢升的下一代谈话模子"的攻坚小组中,禹棋赢是惟一的实习生。

天然是实习生,但在这个大神云集的小组里,禹棋赢被委以重负,平直认真 RL 场地的计划。

凭什么?

事情要从客岁夏天提及。

客岁 10 月,他在字节第一个跑出 aha moment

客岁 5 月,字节启动「Top Seed 东说念主才诡计」,最终登科多名应届和在读博士构成史无先例的 AI 计划团队,禹棋赢就在其中。

为期 2 个月的 warm up landing(访佛可目田探索的合适期)后,禹棋赢锚定了我方的场地——大谈话模子推理。

竟然定下场地的同期,禹棋赢就和 mentor 王明轩细目,要作念一个智谋的强推理技艺模子。

这事儿和豆包大模子主团队的名目并行股东,主如果禹棋赢一个东说念主在探索。

更为要津的是,看到"采样更多,弱模子准确率也不错很高"的征象后,他刚硬以及确信要用 RL 来作念。

不久之后的 9 月,RL 与 CoT 引诱使逻辑准确性和泛化技艺大幅擢升的 OpenAI-o1 就出现了。

场地没错!那就"沿这条路一直往后作念"。

知彼亲信,降龙伏虎。禹棋赢运转技俩拿 o1 跑 case,比如挨个作念 IMO 题(其中部分题目取得谜底不难,严谨的阐明经过才是得分点)。

不跑没相关,一跑起来问题就露馅了。

o1 能给出正确谜底,然而阐明经过枯竭。

基于此,禹棋赢和团队其时就赌了一把,判断 o1 是纯基于 outcome supervision train 出来的。

于是乎,禹棋赢 get 了一个与其时主流想路不同的猛烈时间信号:

用 outcome based reward 去作念 RL。

就这样干吧!接着即是基于字节里面小模子和里面代码库,用很少的 GPU、学术界开源数据集,任性迭代、任性跑。

这一干还真给他干出东西来了——

一运转,能把小模子的数学技艺擢升几十分,杰出里面最大、最强的模子。

自后,禹棋赢竟然每天齐会发现模子表示出一些新技艺,一些此前大伙儿一直想让它有、但又望尘不及的技艺。

目前,不需要构造任何东西,只需要通过 RL,模子我方就能把这些技艺表示出来,以致表示复杂的类 o1 的推理技艺。

以至于那段时候禹棋赢异常兴隆,每天拽着王明轩任性谈判到夜深。

他我方更是平直在会议室摆了张床住在公司。

天然他和床的相关,在那 1 个多月里其实是这样的:深夜 12 点能躺下,但兴隆得根底睡不康健,凌晨 2 点又爬起来写代码,可能 5 点多一个 idea 灵感乍现就又爬起来。

基本上每整夜齐异常兴隆地起来好几次,就这样醒醒睡睡偷偷撸1,也不认为累。

此处出现了一个要津的时候节点。

"偶而十月十几号,咱们发现要模子输出异常复杂的数学公式时,它会说 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。"禹棋赢认为大模子这个反想事后换想维的行动很有灵性。

屏息凝想,他和王明轩盯着屏幕反复说明,最终认定——这即是他们所追求的技艺的雏形!

凭据截图,其时他们在文档里敲下这样一段话:

异常有料想。愈加刚硬地信托 Outcome-based RL 一定能引发出异常利弊的行动!!!

没错,DeepSeek-R1 引东说念主选藏的 Aha Moment(顿悟时刻),禹棋赢在客岁 10 月在字节里面跑通了。

传说,尔后,禹棋赢被邀请参加 LLM 攻坚小组,并委以「认真 RL 场地」的重负。

下一战,"计划了了 RL 的 scaling 法例"

以上细节,来自最近互联网冲浪时在一个知乎话题下的无意发现。答主匿名,共享了在字节大模子团队 Top Seed 实习的经历,从事 RL 场地。

经量子位求证说明,该答主即是禹棋赢。

沿着这条头绪,咱们在互联网上征集整理了禹棋赢的更多"战绩"。

据 HIT 诡计学部团委公众号贵寓,禹棋赢是哈尔滨工业大学 2018 级本科生。

他以材料专科入学,半途转到诡计机科学与时间专科,主要计划场地为天然谈话处理。

按照目前贵寓来看,这应该是名天资型选手——大二才运转学编程,但同庚就加入了博导车万翔的科研团队。

大四时,禹棋赢在左旺孟说明注解团队以一作身份在 ECCV 上发表了一篇论文。

本科毕业后,禹棋赢直博清华,目前清华 AIR 博三在读。

此前,他曾先在智源实习,当作中枢作家产出了 Emu、EVA-CLIP 系列责任,奴隶的 mentor 是曹越(前光年以外联创)和王鑫龙(智源计划院视觉模子计划中心认真东说念主)。

客岁 5 月字节开启 Top Seed 诡计后,他在 6 月通过校企相助名目入选,欧美性交电影成为首批 Top Seed 成员。

量子位获悉,和禹棋赢同期的 Top Seed 实习生还有两届 IMO 满分选手、LLaDA 一作、 Buffer of Thoughts 一作等东说念主。

这里补充一句,前边咱们提到过禹棋赢的 mentor 王明轩,即是客岁量子位最初曝光的字节大模子要津 8 东说念主之一。

大伊香蕉在线精品视频

△王明轩,图源豆包大模子团队公众号

禹棋赢加入 Top Seed 后,就有了和王明轩总共发现 aha moment,每晚谈判到 11 点、谁也不想离开公司的牢记经历。

后头在 LLM 攻坚小组,有一个好讯息,和一个坏讯息。

好讯息是,加入攻坚小组后,不管是工程上如故数据上取得的各方因循齐更多了。

加上组织扁平,饱读舞 end to end 把模子、预磨练、后磨练买通,引诱险阻游去想考问题,举座交流异常高效。

"坏"讯息是,1 月底,DeepSeek-R1 从天而下。

禹棋赢在知乎帖中感叹,正本"那时每天齐在判辨冲破与兴隆中渡过,但有点缺憾的是,到 1 月就被 Deepseek 打爆了 hhh。"

倒不是凉了半截,至少 R1 的出现示意一直刚硬股东的道路莫得错,DeepSeek 团队还把它作念得很优雅,且实测后果异常优秀。

自后的测试适度炫耀,如果聘请蒸馏不错立即擢升推理后果,但其时为了信得过弄了了机理,禹棋赢和共事们如故聘请从容来,作念恒久的事情,step by step 擢升数据质料。

回看那段日子,禹棋赢认为"记念里十足莫得窘况",兴隆得睡不着觉的感受还百不获一在目。

"怕什么真义无限,进一寸有进一寸的快乐。"他在知乎帖中写说念,团队里不管是工程如故算法,齐会把追求真义、追求时间试验的冲破当作异常大的 reward,人人会认为这个很欢跃。

目前的禹棋赢又有了新的追求:他 bet LLM RL 时间 towards AGI,接下来的筹画是计划了了 RL 的 scaling。

大模子行业,训戒不再是惟一筹码

禹棋赢身上引诱了太多 tag,是现如今大模子一线极具代表性的缩影。

还有个更戏剧性的 tag,必须要提的那种——

进字节前,禹棋赢还在智源作念多模态场地实习的时候,传说异常多一线大模子团队的 HR 齐给他和共事抛过橄榄枝。

那时候,禹棋赢是在 DeepSeek 和字节中作念的最终聘请。

谜底嘛,人人读到这确信齐知说念了。

之是以这样选,禹棋赢我方说得很了了,"字节场景和资源丰富,探索空间饱和,上限够高。"

况且和外界印象不相通,新东说念主在这里也不错取得很好的 nurture,"明轩、永辉时时来找我交流,我也不错说是在字节读的博"。

如果再来一次,靠近 DeepSeek,我如故会选 ByteDance。

我认为 DeepSeek 战争力真的很强,但我会致力于让 ByteDance 胜算更大小数!

有点中二?有焚烧?

这倒不是要津,要津是真的有地方能连结禹棋赢的高燃。

字节对禹棋赢的重用,试验上是当下顶尖大模子团队对"责罚前沿问题技艺"的极致追求——一个能在 RL 场地从 0 到 1 跑通要津时间的年青东说念主,即使身份仅仅实习生,也能成为攻坚战中弗成替代的突击手。

这种情况在 AI、在大模子这行并不是新鲜事了。

以试验责罚问题的技艺而非阅历界说价值的逻辑,早一经在重塑 AI 产业的东说念主才坐标系。

OpenAI 从 GPT-1 运转就这样,一作 Alec Radford 刚从非顶尖高校本科毕业,自后竟然参与了 OpenAI 统统的要紧冲破;到 GPT-4o、Sora,团队半壁山河齐是新东说念主、年青东说念主。

DeepSeek 也这样,是清北应届生撑起一派天。创业团队更不必多说,大部分齐是年青毕业生组局。

目前又有了字节 TopSeed 实习生禹棋赢这个例子。

他们的故事折射出 AI 大模子期间的全新图景——训戒不再是惟一筹码,趣味心与践诺力才是通行证。

AGI 范畴,大片的未知范畴恭候探索。当一个新的模子架构或磨练技艺被忽视,不管是老法师如故外行村村民,齐需要重新学习和合适。

另一边,过往的泰斗技艺论可能成为通往 AGI 的想维镣铐。

年青东说念主天然训戒相对枯竭,但不落窠臼,还领有一些独属于初出茅屋者的特色:他们对时间直观的信任高于既有范式,有拦齐拦不住的关注与趣味心,对试错资本怀抱极高的耐受度。

这一切对探索 AGI 来说,稀奇异常。

异常 nice 的事情即是,学界和工业界齐很认这张通行证。

学界培养和重用年青东说念主。每个 AI 顶会上齐降生忽闪的新星;各大高校大模子有关专科,每年齐有更年青的东说念主担任教职,为自后者引路。

工业界迎接和托举年青东说念主。就拿字节 Top Seed 这个大模子东说念主才项筹画杆为例,为包括实习生在内的年青东说念主提供充分算力资源、业界顶级待遇,不仅赐与探索空间,还不错将计划转为试验期骗。

一条新鲜的、表示的逻辑链摆在咱们咫尺:

当 AGI 探索参加无东说念主区,谁离前沿和新的规模更近,谁就能引颈和界说章程,绝岂论阅历和出身。

One More Thing

At last,看到这儿的一又友们有福了,来吃终末一口瓜:

量子位独家获悉,本年字节还会不竭 Top Seed 名目。

将由原谷歌 DeepMind 副总裁、现字节杰出豆包大模子团队认真 AI 基础计划探索责任的吴永辉亲身带队。

参考贵寓:

[ 1 ] https://www.zhihu.com/people/wabjpz

[ 2 ] https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

一键三连「点赞」「转发」「防范心」

迎接在辩驳区留住你的主义!偷偷撸1



相关资讯
热点资讯
  • 友情链接:

Powered by 丝袜美腿 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2022 版权所有