具身AI的實驗:一個團隊的Alexa Prize奪冠歷程|環球速看
機器之心原創
作者:楊德澤
亞馬遜Alexa Prize的打分系統每4個小時就會更新一次,這將決定著SEAGULL團隊最終結果,在經歷206天的代碼更新之后,他們才能知道他們摘得了冠軍,在此之前則是一次又一次打分的“膽戰心驚”。
(資料圖)
在總時間超過一年的比賽中,他們得過從1-5的所有分數。4月29日凌晨2:50,也就是比賽結束前的最后十分鐘,SEAGULL團隊提交了他們最后一次代碼。之后,亞馬遜就會根據用戶的綜合打分,為這次Alexa Prize決出最終冠軍得主。
在人工智能領域,Alexa Prize已經成為了全球最受矚目的人工智能競賽之一,它獎金豐厚,用戶群體龐大,還提供優質的計算資源供參賽團隊使用。對于最終能夠進入決賽的高校隊伍來說,這和平時在學校里的實驗室環境完全不一樣,它不是面對實驗室寫出一篇paper,而是要做出一個真正能夠對話的機器人。
據亞馬遜官方介紹, Alexa Prize競賽面對大學生團隊、學術界和工業界有興趣推進 AI 科學的研究人員。比賽分為公共基準測試階段和實時交互階段,而僅有5-10支隊伍能通過公共基準測試階段的預選去完成最終的競逐。
與往年不同,今年的挑戰增加了SimBot項目,專注于推進具身AI的研究。SimBot采用亞馬遜自己開發的Arena模擬器,這是一個類似游戲的3D虛擬環境,設定為未來世界的實驗室,具備各種可交互的道具和可操作的儀器設備,和一個能在Arena中自由行動玩耍、名叫SimBot的小機器人。用戶的目標是通過語音指導機器人,使用環境中的道具完成各種或日常或新鮮的任務,例如制作一杯咖啡,使用時光機器修復破損的碗,或使用鐳射光線為派對解凍蛋糕。
相比于傳統對話機器人只需要處理語言輸入并給出回復,SimBot任務的難點在于,機器人還需要處理視覺信號從而“看懂”環境,并通過執行動作改變環境中物體的狀態,達成任務目標。因此,SimBot中的語言理解和對話建模涉及多個模態(語言+視覺)的復雜交互,而從接受用戶指令到給出出行動方案的過程,又涉及對物理狀態的推理決策和行為規劃。
對于SimBot的評估也就變成了一個復雜的任務。Amazon Echo Show 是一款類似天貓精靈的語音視頻交互產品,最終成績將通過它背后的打分系統來產生,其用戶包含了從8-80歲各類人群,這也意味著,入選的隊伍要面對的是真實的亞馬遜產品用戶而懂技術的學術評委。據亞馬遜官方介紹,傳統的具身化人工智能任務通常采用自動化和非交互式的評估流程,重點是任務成功率,而SimBot使用交互式的人機循環評估,更加注重整體用戶體驗。
如何在一個特定的開發環境里短時間做出一個可對話、能感知、有互動的AI呢?這是所有參賽隊伍需要面對的問題,它不光是技術方面的整合和優化,另一方面也是產品方面的創新,比如:如何讓自己的機器人更受用戶喜愛,如何讓系統運行更快更穩定等等。
·誰在參加亞馬遜Prize?
張亦弛是密歇根大學博士三年級的學生,研究方向是對話系統,偶然有一天收到自己導師發來的一個鏈接,這就SEGULL團隊參加Alexa Prize的開始?!伴_發出一個非常棒的聊天機器人,拿到這樣一個量級的比賽第1名,讓大家一塊分獎金,這種體驗得多棒?!?
SEGULL團隊共有9個人,全部來自其密歇根大學SLED實驗室?!拔覀儏⑴c的一個重要原因是SimBot挑戰是具身化人工智能領域的一個先驅性競賽,與我們實驗室的研究重點完全一致。”SLED其英文含義是Situated?Language and?Embodied?Dialogue(情景化語言和具身對話), SLED Lab主要研究方向是具身智能和自然語言處理,包括具身以及多模態(視頻、3D等)情況中的自然語言理解、具身智能體的建模與動作規劃、情景化人機對話系統、物理常識推理(physical commonsense reasoning)、心智理論(theory of mind)、持續學習等。
SLED Lab相信,人類語言的使用方式,是由我們的目標、共同經歷,以及我們對彼此的能力、知識和判斷所塑造的。通過對豐富的物理、情境、溝通語境構建計算模型,以及創建能和人類通過語言溝通的具身智能體,SLED實驗室正在推進具身智能和NLP的下一代技術。
具身智能是人工智能領域的集大成者,也被一些科學家認為是人工智能學界的終極問題,最終目的就是要造出一個能夠對話、能夠感知、能夠對人類行為能夠做出反饋的機器人。
“具身智能是AI領域皇冠上的明珠,因為它涵蓋了人工智能領域的方方面面,”SLED實驗室導師Joyce Chai教授表示:“Simbot是機會也是挑戰,它為團隊提供了一個探索交叉學科和發現科研問題的絕佳平臺?!?
亞馬遜Alexa大賽由來已久,最初的愿景是“正常地與人類交談 20 分鐘”。這個看似輕松的目標事實上包含了具身智能的方方面面,按照官方說法,Alexa Prize的目標是建立一個能夠進行自然、有趣和有深度對話的人工智能系統,該系統能夠與人類進行開放領域的對話,包括社交對話、娛樂、教育等。
SEAGULL團隊將其看作是具身智能的一次嘗試。
“一種能力強大的具身AI應該能夠在現實世界中運作,操作環境中的物體,理解和處理多模態輸入,并通過與人類交流不斷提高自己的能力。開發出一種高效的具身智能體的潛在影響是巨大的,從在餐廳中充當服務員和幫助老年人完成家務,到實現通用人工智能(AGI)的愿景?!? 正如SEGULL技術報告提到的這樣。
Alexa Prize第二階段競爭的主要內容是建模并持續優化,直到做出一個能夠和人類對話互動的機器人,而評判的標準就是,3D虛擬環境里的“人”能否真的像人。在這個模糊的目標之下,包含了具身智能中的感知、交互、決策等等方面,問題在于,如何去做?
·教會一個機器人真正地對話
在一個普普通通的餐桌上,放著一個開了一個缺口的碗,屏幕上出現一雙手作為第一人稱虛擬環境的表示,如果你告訴這臺機器,“給我一杯牛奶”,它會先把碗放進SEAGULL設計的時光機里,讓這個碗回到缺口之前,然后從冰箱內拿出牛奶,倒入碗中。如果你愿意,還可以讓AI幫你在3D虛擬環境中幫你做一頓早餐。
這意味著,這臺AI已經具有了多輪對話能力、識別能力、決策能力等,它已經懂得像人一樣解決一些前置問題,比如在倒牛奶之前它懂得打開冰箱找到牛奶。
所謂高級人工智能,是能夠在具體環境中感知、推理、行動和通信的智能體,“當機器人擁有身體之后,對于這個世界就有了改變的能力?!盨EAGULL團隊Co-Leader楊佳寧如是說。
2021年11月,SEAGULL團隊成為進入初選的十名隊伍之一,開始了時間跨度18個月的角逐。他們需要在接下來的時間里做出一個可以真正對話、執行指令的人工智能。
對于參賽隊伍來說,有兩種常見的方法,一種是端到端(End-to-end)的解決方法,這也是當下學術界普遍比較看好主流的具身智能解決方案之一。另外一種是模塊化(Modular)的解決方法,模塊化架構允許輕松添加、修改和刪除技能和策略,促進系統的靈活性和適應性。
端到端建模是一種將整個系統作為一個統一模型進行建模的方法。神經網絡將輸入數據直接映射到輸出,中間過程不需要人工設計的階段或模塊。端到端的網絡由完全由數據驅動學習過程——在數據足夠多的情況下,網絡會自動學習到特征提取、規律總結,甚至復雜推理等涌現能力。模塊化建模則采用分解問題的方式,將整個系統分解成多個模塊或階段,每個模塊負責處理特定的任務或功能。這種方法更加注重系統的可解釋性和可控性,因為每個模塊都有清晰的功能和輸入輸出,同時也降低了對數據的依賴性。
這兩種方法中的任何一種都首先需要面對一個問題,如何讓機器人對人類世界做出反應,這就需要告訴計算機,擺在它面前的是一杯實在的牛奶,而非“milk”這個單詞。當一個無法理解“牛奶”或者“距離”的AI撞上亞馬遜的產品用戶,最終結果就是一個”很笨的AI”。
SEAGULL以及其他團隊需要面臨的第二個問題就是,在一個無法預測、可解釋性不強的系統中,當發現自己的虛擬機器人有問題的時候該如何調優以及在兩百多天的比賽中不被其他團隊超過。
“模塊化系統天然具備更高的可解釋性和可控性。”楊佳寧對機器之心說道,“由于系統被分解成多個模塊,每個模塊都可以獨立設計和優化,易于調試和維護。在構建各個模塊的過程中,通常也可以更好地利用領域專家的知識針對各個技能的特定需求進行設計,極大緩解了數據量不足的問題。”
SEAGULL隊伍估計,SimBot比賽作為一個“冷啟動”場景,數據量并沒有那么大以滿足端到端建模的需要,其次,由于端到端模型缺乏中間狀態,模型的可解釋性和可控性不強。換言之,如果機器人的表現出現問題,很難診斷到底問題出在哪里。而SimBot比賽中,機器人需要具備感知、狀態追蹤、任務進度估計、環境建模、行為決策、對話決策等多種能力,診斷問題和進行定點提高尤為重要。
相比之下,SEAGULL最終選擇了模塊化建模的道路。面對以上這些技術挑戰, SEAGULL 團隊表示,他們不想冒險去挑戰一個完不成的智能,”一個完整的AI和完成比賽比追求一種技術路線更為重要?!?
·優秀的人工智能離不開對于人的重視
除了設計系統架構和算法之外,在真實人機交互方面,SEAGULL 團隊也投入了大量的工作。
這是做出一個優秀產品的關鍵部分,“有時候機器可能會做出一些很笨的事情”,比如由于距離設置的問題看不見一杯牛奶,事實上,這些問題在技術上非常好解決而”對于用戶而言卻致命——用戶會覺得我們的AI很“笨”,這就需要的不僅僅是技術,而是增加對于產品的了解,了解到用戶真正想用AI做的事情。
SEAGULL團隊的方法可能看起來很樸素,但它具有創造性,并且提出了一個經常被忽視的人工智能事實:人工智能產品的最終呈現還是和人的交互。解決“AI很笨”的方法很簡單:他們將目光轉向了校內同學。
為了看到更多用戶的使用體驗,SEAGULL團隊隨機邀請了很多校內同學來體驗自己的虛擬機器人。SEAGULL團隊稱,可以使用任何方式來和Alexa進行對話,在實際體驗中他們發現,有時候費大力氣寫代碼為系統增加的一些功能,并沒有讓系統的表現變好,但是一些bug一定會被用戶記住。另外,一些小的設定反而很受用戶喜歡,比如時光機、用鐳射光給咖啡加熱等等。
SEAGULL團隊認為,自己和其他團隊形成區別的關鍵是三種形式的洞察:
“第一種是它的「情境洞察」,指的是機器人對當前情境的理解。在SEAGULL中,我們設計了一個全面的狀態跟蹤系統,可以跟蹤游戲中的大量信息,包括物體的位置和物理狀態、用戶和機器人之間的互動歷史,以及提及的目標和任務進展。這些豐富的信息影響機器人做出的每個決策,使其能夠始終做出理性決策。
第二種意識形態是「知識洞察」。我們注意到許多與我們的機器人交互的用戶不確定要給出哪些指令或如何完成給定的任務。為了更好地幫助用戶,我們為機器人設計了一個專門的知識庫?;谶@個知識庫,我們開發了一個基于知識驅動的建議策略,為用戶在游戲中的進展提供指導和支持。在比賽過程中,我們觀察到這個功能對用戶的體驗產生了積極的影響,使他們感到更加自信和舒適。
第三,我們的機器人具備「自我洞察」,也就是它對自身能力和限制的認識。這種意識反映在我們的機器人對任務的解釋和規劃上。當任務變得困難時,機器人會與用戶合作,共同制定更合理的策略。例如,在游戲中,機器人可以要求用戶協助推動物體,或者尋找其他方法來完成任務。這種合作和靈活性有助于提高機器人在現實世界中的適應能力?!?
在調整過認知之后,SEAGULL團隊的目標不再只是智能化而更多的是產品化,重心會放到用戶和系統整體性上來。楊佳寧表示,“在學術環境中,研究人員經常在過度規范化的環境中工作。我們被屏蔽了維護可靠、用戶友好的服務所需的工作,僅關注核心算法組件。然而,在現實中,成功的人工智能應用涵蓋了一個必須精心設計的流程。這個流程必須提供可靠的服務,提供愉快的用戶體驗,并能處理訓練數據分布之外的情況。”
SEAGULL團隊的機器人主要根據人的問題來生成回復或者做出行動,在機器人系統內部,SEAGULL團隊設計有一個技能庫、知識模塊和決策模塊,它們也決定了如何對人類的提問做出回應。它和人的社交在某種意義上具有相似性,這意味著,團隊可以根據他們的希望,為用戶定制對話進行的方向。他們還增加了一個狀態跟蹤模塊,它可以更新回應用戶的技能選擇,并為選擇最佳技能跟蹤上下文情境。
“一個智能機器人不僅應該遵循關于做什么的命令,還應該對用戶的社交意圖作出適當的回應,”張亦弛說道?!袄?,當機器人表現良好時,用戶可能會贊揚它;當機器人表現不佳時,用戶可能會表達沮喪或失望;或者用戶可能出于對游戲的好奇提出問題。在SEAGULL中,我們進一步促進了這種社交互動,這是一個至今未被廣泛探索的維度?!?
一個場景令張亦弛至今記憶猶新,當自己的導師Joyce Chai使用過自己的產品之后跟他開玩笑“有點愣”,他解釋道,這只是一個技術上的小瑕疵,“一切盡在掌握?!?
標簽:
- 1 昊天國際建投(01341)發布年度業績,股東應占溢利1.08億港元 同比扭虧為盈
- 2 福特野馬多少錢 全球微頭條
- 3 當前視點!【世界說】美國作者:隱蔽的系統性種族主義使美國在“反恐戰爭”中殺害的幾十萬平民幾乎全是有色人種
- 4 中國銀行業協會召開2023年安全生產工作會議
- 5 暗黑破壞神46月28日游俠加強一覽
- 6 潤達醫療跌停 機構凈賣出1.00億元 滬股通凈買入2118.72萬元_環球動態
- 7 環球短訊!2023鄭東新區圃田鄉衛生院九價預約(6月29日預約)
- 8 世界熱訊:至正股份:選舉施君為董事長
- 9 世界今熱點:6月28日鋼價預測:急報!鋼價要...
- 10 進博故事?選擇進博的理由|進博老朋友:年年都有“新鮮感”,年年都有“新收獲”