<tfoot id="ouu4w"><rt id="ouu4w"></rt></tfoot>
  • 
    
  • <bdo id="ouu4w"></bdo>
        <cite id="ouu4w"><table id="ouu4w"></table></cite>
      • 您當前的位置: 首頁-AI-詳情

        大模型領域中國學者的原創貢獻:在深度學習大門上按了18次門鈴

        2023-07-06 16:59:12來源:澎湃新聞

        ·“2018年3位圖靈獎獲得者尤舒亞·本吉奧、杰弗里·辛頓和楊立昆打開了深度學習的大門,而開啟這扇大門的第一聲門鈴,是辛頓和微軟的中國學者鄧力按下的。”

        ·“何愷明把神經網絡做深了,谷歌把神經網絡的入口拉大了,又深又大,才成為今天的大模型。”


        (資料圖)

        7月6日,商湯科技創始人湯曉鷗在2023世界人工智能大會開幕式上發表演講。7月6日,2023世界人工智能大會在上海開幕。人工智能科學家、香港中文大學教授、商湯科技創始人湯曉鷗在開幕式上發表演講。他的演講主題《你好,上海》來自原創電影《你好,李煥英》,他說,中國電影人通過原創的電影內容創造了54億票房奇跡,而“中國的科技原創者也開始看到了曙光”。“我今天想簡單回顧一下,在大模型領域,中國學者到底做了哪些原創的貢獻?”湯曉鷗介紹了他的3位學生王曉剛、何愷明、林達華的工作和成就。比如,王曉剛帶領開發的DeepID系列首次讓機器的人臉識別超過了人的眼睛,何愷明有關殘差網絡(ResNet)的論文解決了深度網絡的梯度傳遞問題,林達華的計算機視覺開源算法體系OpenMMLab成為國際上最具影響力的視覺算法開源體系。

        “曉剛當年的對手是谷歌”

        湯曉鷗從幾個歷史事件開始回顧,他表示,2018年3位圖靈獎獲得者尤舒亞·本吉奧(Yoshua Bengio)、杰弗里·辛頓(Geoffrey Hinton)和楊立昆(Yann LeCun)打開了深度學習的大門,而開啟這扇大門的第一聲門鈴,是辛頓和微軟的中國學者鄧力按下的,他們2011年取得了在深度學習語音識別上跨時代的突破。

        “那么,2011年到2013年深度學習領域剛剛起步的時候,我們做了什么?”湯曉鷗介紹了他的學生,商湯聯合創始人、執行董事及首席科學家王曉剛博士,“2011年到2013年的國際計算機視覺與模式識別會議(CVPR)和國際計算機視覺大會(ICCV)這兩個計算機視覺最重要的會議上,全球共有29篇文章關于深度學習,其中有14篇出自我們的實驗室。我們有18項工作在全世界第一次將深度學習用到視覺問題上,包括人臉識別、人臉檢測、人臉重建、物體檢測、人體姿態、圖像超分、三維形狀識別等計算機視覺最核心的問題。在深度學習的大門上,我們按了18次門鈴。”

        湯曉鷗介紹了他的學生王曉剛博士的學術成果。湯曉鷗還表示,王曉剛帶領的DeepID-Net團隊開發的DeepID系列,首次讓機器的人臉識別超過了人的眼睛。此后,王曉剛還取得了中國學者第一個ImageNet大規模視覺識別挑戰賽的世界冠軍,“在ImageNet競賽上,曉剛當年的對手是谷歌。”

        此外,王曉剛帶領的商湯聯合團隊在今年還獲得了CVPR最佳論文,推出首個感知決策一體化自動駕駛通用大模型。兩篇論文登上最佳論文候選名單(Award Candidate),其中自動駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規劃為導向的自動駕駛)斬獲本屆CVPR最佳論文獎。

        GPT系列采用中國學者研發的結構

        湯曉鷗介紹的第二個學生是何愷明,本科就讀于清華大學,2003年廣東高考狀元,在香港中文大學多媒體實驗室取得博士學位。“何愷明在我的實驗室讀碩士期間發表了第一篇文章,取得了2009年的CVPR最佳論文。這是CVPR整個25年歷史上亞洲的第一篇最佳論文。”

        “他的第一項工作是,在微軟亞洲研究院發布的有關殘差網絡(ResNet)的論文。”湯曉鷗表示,在2015年之前,深度學習最多只能訓練20層,而CNN(卷積神經網絡)模型ResNet在網絡的每一層引入了一個直連通道,從而解決了深度網絡的梯度傳遞問題,獲得了2016年CVPR的最佳論文獎,是計算機視覺歷史上被引用最多的論文。

        “在ResNet之后就可以有效地訓練超過百層的深度神經網絡,把網絡打得非常深。”湯曉鷗說,“在大模型時代,以Transformer(谷歌開發的一種深度學習模型,OpenAI在此基礎上開發了GPT)為核心的大模型,包括GPT系列,也普遍采用了ResNet結構,以支撐上百層的Transformer的堆疊。何愷明把神經網絡做深了,谷歌把神經網絡的入口拉大了,又深又大,才成為今天的大模型。”

        湯曉鷗表示,何愷明還有一項工作——Mask R-CNN算法,是就職于Facebook時開發的,是一個真正高性能的物體檢測算法框架,獲得了ICCV 2017年最佳論文。“愷明應該是世界上唯一一個在畢業不到10年內3次以第一作者身份獲得CVPR和ICCV最佳論文的人。”湯曉鷗表示,Mask R-CNN首次把基于掩碼的自編碼思想用于視覺領域的非監督學習,開啟了計算機視覺領域自監督學習的大門,并被推廣到3D領域、音頻領域,甚至是AI for science(人工智能用于科研)領域。

        開發書生大模型系列

        “第三個學生叫林達華,碩士就讀于香港中文大學,他在2010年在MIT(麻省理工學院)讀博士期間獲得NIPS(神經信息處理系統大會)最佳學生論文,這是機器學習的最高獎。”湯曉鷗以一項頂級成就開啟林達華的介紹,“他的第一項工作,是計算機視覺開源算法體系OpenMMLab。2018年從一個小團隊開始,在沒有推廣投入的條件下,以口口相傳的形式成為國際上最具影響力的視覺算法開源體系。在GitHub上累積了8萬多個星標,目前用戶遍及全球140多個國家和地區,60%用戶來自海外。”

        湯曉鷗表示,林達華的另一項工作是參與了書生大模型體系的開發。湯曉鷗說,上海人工智能實驗室、商湯科技聯合香港中文大學、復旦大學及上海交通大學開發的千億級參數大語言模型“書生·浦語”,作為國內首個千億參數語境長度8k的多語種大語言模型,具體評測細節將于7月6日發布。

        此外,林達華參與的LandMark大模型也將于當天正式發布。據湯曉鷗介紹,該模型是全球首個城市級NeRF(Neural Radiance Fields,神經輻射場)實景三維大模型,有2000億參數,可覆蓋100平方公里,2021年12月林達華團隊首次提出了City NeRF技術,早于谷歌把NeRF技術從物體級拓展到城市級。

        (本文來自澎湃新聞,更多原創資訊請下載“澎湃新聞”APP)

        標簽:

        上一篇:用好紅色法治資源 涵養湖湘法治文化
        下一篇:最后一頁