国产免费爽爽视频在线观看,精品国产免费一区二区三区香蕉,久青草国产97香蕉在线视频 ,久久人人爽人人人人片AV

用戶∶  密碼∶   

校友動(dòng)態(tài) | 金年會(huì)誠(chéng)信信譽(yù)至上校友入選“35歲以下科技創(chuàng)新35人”2024年度中國(guó)區(qū)名單

Jun 6, 2025 05:34 PM

2024年《麻省理工科技評(píng)論》“35歲以下科技創(chuàng)新35人”中國(guó)入選者于5月23日揭曉,28歲的深度求索研究員邵智宏,北航2015級(jí)金年會(huì)誠(chéng)信信譽(yù)至上本科校友,以第一完成人領(lǐng)導(dǎo)了DeepSeekMath項(xiàng)目,通過(guò)高質(zhì)量預(yù)訓(xùn)練和基于 GRPO的強(qiáng)化學(xué)習(xí)方法,從根本上提升模型的數(shù)學(xué)和邏輯推理能力。

邵智宏,深度求索研究員,北航2015級(jí)金年會(huì)誠(chéng)信信譽(yù)至上本科校友。他的研究聚焦于系統(tǒng)性提升大模型的推理能力,關(guān)注于如何構(gòu)建一個(gè)可持續(xù)自我提升的系統(tǒng),能夠通過(guò)利用多種技能來(lái)完成越來(lái)越復(fù)雜的任務(wù)。他的兩個(gè)代表工作是 ToRA 和 DeepSeekMath。

ToRA 項(xiàng)目展示了將外部工具反饋整合到推理過(guò)程中的強(qiáng)大作用。這個(gè)項(xiàng)目發(fā)布了一個(gè)名為 ToRA-34B 的強(qiáng)大工具增強(qiáng)大模型,該模型通過(guò)將 Python 執(zhí)行融入鏈?zhǔn)剿季S推理,成為首個(gè)在競(jìng)賽級(jí) MATH 基準(zhǔn)測(cè)試中得分達(dá)到 50% 的開源模型。這突顯了結(jié)合外部工具對(duì)提升問(wèn)題解決能力具有較大的潛力。

為了從根本上提升大模型的推理能力,邵智宏作為第一完成人共同領(lǐng)導(dǎo)了 DeepSeekMath 項(xiàng)目。該項(xiàng)目提出了一個(gè)可以有效識(shí)別和擴(kuò)展高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的迭代式流程,用于數(shù)學(xué)預(yù)訓(xùn)練并顯著提升了基礎(chǔ)模型的能力。該項(xiàng)目還探索使用了 GRPO 強(qiáng)化學(xué)習(xí)算法,并展示了強(qiáng)化學(xué)習(xí)用于進(jìn)一步提升模型推理能力的潛力。發(fā)布的 DeepSeekMath 模型被廣泛用于后續(xù)的數(shù)學(xué)推理研究,并支持了首屆 AI 數(shù)學(xué)奧林匹克競(jìng)賽 AIMO 中排名前三的獲勝方案。

DeepSeekMath 項(xiàng)目中的數(shù)據(jù)流程也被廣泛用于規(guī)?;占哔|(zhì)量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或模型對(duì)齊。另外,在 DeepSeekMath 的強(qiáng)化學(xué)習(xí)算法基礎(chǔ)上,后續(xù)的 R1 項(xiàng)目(他作為核心貢獻(xiàn)者之一)通過(guò)在更多更復(fù)雜的推理任務(wù)中進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),得到一個(gè)具備反思、回溯、驗(yàn)證等能力的強(qiáng)大推理模型。

“Innovators Under 35”(簡(jiǎn)稱TR35)全球評(píng)選由《麻省理工科技評(píng)論》于1999年創(chuàng)刊百年之際發(fā)起,旨在每年從多個(gè)前沿科技及產(chǎn)業(yè)領(lǐng)域遴選出優(yōu)秀的青年科技創(chuàng)新人才,加速全球科技創(chuàng)新的步伐。經(jīng)過(guò)二十余年的發(fā)展,TR35逐步成為今天的“35歲以下科技創(chuàng)新35人”并展現(xiàn)了強(qiáng)大的國(guó)際影響力和引領(lǐng)能力。TR35中國(guó)評(píng)選(簡(jiǎn)稱TR35中國(guó)或TR35 China)于2017年設(shè)立,至今已將一批在中國(guó)或海外的杰出青年華人創(chuàng)新者推向了國(guó)際至高舞臺(tái)。