盤點2015人工智能五類重大突破
今年在人工智能和機器學習領域取得的進展令人印象深刻。這些領域中受到認可的進展一年比一年多,但我們仍然能夠趕上這速度。如今這些工作的大部分都建立在年初其他團隊的成果之上,大多數其他領域與此不同,它們之間的引用跨越了幾十年。
要寫一篇這個領域廣泛發展的總結,幾乎不可避免地會導致大量的擬人描述,這篇總結確實如此。使用這些比喻僅僅是為了方便為談論這些功能。要記住的一點是,即使許多這些功能聽起來可以思考樣,但是它們通常與人類認知工作原理不盡相同。目前的系統只能完成功能性的、機械式的任務,系統不具有思考的能力,盡管這種情況在逐步減少,但由于不能獨立思考,系統能做的事情仍舊很有限。敬告:在閱讀這篇文章時,這些功能可能會從天方夜譚到平淡無奇。
2015年人工智能重大的突破分為5類:跨環境抽象(abstracting across environments),直覺概念理解(intuitive concept understanding),創造性抽象思維(creative abstract thought),虛構畫面(dreaming up visions),和靈巧精細動作技能(dexterous fine motor skills)。我會突出講述一些重要的事件,它們推動了今年人工智能的發展。
1.跨環境抽象
人工智能領域的一個長期目標是實現人工通用智能,一個單一的學習程序可以同時在完全不同的領域進行學習和行動,可以轉換一些學習到的技巧和知識,比如學會做餅干,并將這種技巧用在做布朗尼蛋糕上,甚至比以前做的更出色。在這種通用領域取得顯著進展的是Parisotto、Ba和Salakhutdinov。他們在DeepMind上建立了開創性的DQN,論文發表在今年的早些時候的《自然》雜志上,它可以學習玩很多不同的雅達利游戲,并且玩的還不錯。
這個團隊并沒有在每個游戲上使用全新的網絡,而是將深度多任務強化學習與深度遷移學習結合,這樣可以在不同類型的游戲上使用同樣的深度神經網絡。這不僅僅會使得單個實例可以成功地在多個不同游戲中使用,而且還能更好更快地學習新游戲,因為它記得其他游戲的一些模式。比如,它可以更快地學習新的網球游戲,因為它在玩乒乓球的時候已經形成了這樣的概念——用球拍擊球是有意義的抽象。這還不算是通用智能,但是它是達到通用智能的一塊墊腳石。
不同模式推理是今年的又一大亮點。艾倫人工智能研究所和華盛頓大學一直致力于研究測試對話AI,經過多年的研究,已經從四年級水平測試提升到了八年級水平測試,今年他們宣布已經開發出一套系統可以解決美國高考中的幾何學部分的問題。這些幾何測試包括圖表組合(combinations of diagrams),補充信息(supplemental information)和詞語問題(word problems)。在更小范圍的AI中,這些不同的形式將典型地分別分析,基本上根據不同的環境。這套系統結合了計算機視覺和自然語言處理,將它們內嵌在同樣的結構化形式體系中,然后應用集合推理來回答選擇題,它的表現可以與美國高二年級學生平均水平媲美。
2.直覺概念理解
在過去的幾年里,深度學習產生了一種更為通用的多模式概念方法:亞符號知識(Subsymbolic knowledge )和推理(reasoning)可以隱式地被系統理解,而不需要明確的編程甚至明確的表示。今年,對于我們人類可以涉及到的概念的亞符號理解的研究已經取得了相當好的進展。這一進展有助于研究古老符號的來源——這些符號或文字的意思如何形成。這種日益流行用來解決這一問題的方式使用了聯合嵌入方法(joint embeddings )——深度分布式表示,同一概念上的不同形式或看法,非常緊湊地放置在一個高維度的向量空間中。
去年,這項技術被運用到了例如自動撰寫圖片標題這些功能上,而今年,來自斯坦福大學和特拉維夫大學的團隊將這一基本思想沿用到了聯合嵌入圖像和三維形狀上,以橋接計算機視覺和圖形。Rajendran等人則使用聯合嵌入,以不同方式和不同語言,一次性支持多種有意義相關映射的聚集。隨著這些嵌入變得更加復雜和詳細,它們就可以成為更多復雜人工智能廣為使用的技術。Ramanathan等人已經利用它們創建了一個系統,可以從一組相片和字典的不同行為類型中學習有意義的關系模式。
隨著單一系統做的事情越來越多,以及將深度學習作為基礎,數據特征和所學概念之間的界限將會消失。這種深度特征實現的另一個例子是,來自康奈爾和WUStL的團隊,使用一種降維的深度網絡權重形成卷積特征表面,可以簡單地在該表面滑動,從而自動地、真實地對照片的某一方面做有意義的改動,例如,改變人物的面部表情或者年齡或者為照片著色。
深度學習技術的一個障礙是,它們需要大量的訓練數據來產生良好的結果。相反,人類往往能夠從單個例子學習。Salakhutdinov、Tenenbaum和Lake已經克服了這個困難,他們使用了一項技術叫做從單實例中使用貝葉斯程序歸納法進行人類層次的概念學習(human-level concept learning through Bayesian program induction from a single example)。該系統然后能夠繪制符號的變化形式,而且與人類繪制出來的難以區分。
3.創造性抽象思維
除了了解簡單的概念,深度學習還要把握因果結構的各個方面——理解想法是如何相互配合來引導事件發生或是以時間為主線講述一個故事——并能夠基于這些理解創建事物。基于來自于DeepMind神經圖靈機和Facebook記憶網絡的基本思想,深度學習和新記憶架構的結合在這個方向會大有前途。這些結構為深度神經網絡中的每個節點提供了記憶的簡單接口。
Kumar和Socher的動態記憶網絡改進了原有的記憶網絡,能夠更好地支持關注(attention)和序列理解。與原來的網絡一樣,該系統可以閱讀故事,并回答關于故事的問題,隱式地學習20種推理,比如演繹,歸納,時間推理,以及路徑尋找。從來沒有對任何這種推理進行編程。Weston等人最近開發的端到端記憶網絡加入了每個輸出符號多計算跳躍的能力,擴展了建模能力和表達能力,可以捕獲亂序的,長依賴性,以及無序集的事物,進一步提高了這種任務的精確性。
程序本身當然也是數據,它們當然會使用復雜的因果關系,結構,語法,類序列化性質,所以編程在這種方式上已經成熟。去年,神經圖靈機使得深度學習編程成為可能。今年,Grefenstette等人展示了程序如何被轉換或者從樣本輸出中獲得產出,比神經圖靈機的效率高了許多,它使用的是一種新類型的基于記憶的遞歸神經網絡(RNNs),節點只需訪問不同的數據結構,比如堆棧和隊列。DeepMind的Read和de Freitas最近也展示了他們的神經程序員解釋器如何表示可以控制高層次和特定領域功能的低層次程序。
另一個精通理解上下文時間,并用此創建新產品的例子是,今年開發的一個尚未成熟但具有創意的視頻摘要功能。首爾國立大學的Park和Kim開發了一種新架構,稱為連貫遞歸卷積網絡(coherent recurrent convolutional network),將它用來從圖像序列中生成新的流動的文本故事。
另一個包括抽象思維中因果關系理解,假設和創造性的重要形式是科學假設。塔夫茨大學的一個團隊將遺傳算法和遺傳途徑模擬結合開發了一套系統,它是第一個發現科學理論的人工智能系統,它發現為什么扁形蟲身體能夠如此容易地再生。在短短幾天內它就發現了科學家一個世紀都沒能發現的理論。這給那些詢問“我們為什么想要讓AI首先要有求知欲”的人一個響亮的回答。
4.虛構畫面
今年AI并不止停留在編寫程序,游記,科學理論上。現在有些AI已經能夠進行想象了,或者使用技術術語,產生幻覺(hallucinate),同時也是意義深遠的比喻。深度學習不僅擅長模式識別,而且還擅長模式理解,因此創建新模式也很在行。
來自麻省理工和微軟研究院的一支團隊開發了一套深度卷積反圖像網絡(deep convolution inverse graphic network),它有一種特殊訓練的技術,可以讓圖形代碼層的神經元分化成圖像中有意義的轉變。這么做,他們用深度學習構建一個圖形引擎,可以用新二維圖像來理解三維圖像,可以以真實照片的角度想象,如果改變拍攝角度或光照諸如此類的因素,圖像會是什么樣。
來自紐約大學和Facebook的一支團隊設計了一種方法從其他圖像中它看過的有意義的合理的元素來生成逼真的新圖像。使用金字塔形對抗網絡——其中一些試圖產生逼真的圖像,而其他的來評判這些圖像的逼真度——他們的系統在想象新圖像方面做的越來越好。雖然網上的例子清晰度相當低,但是在離線的時候我看到了十分相關的高清晰度的結構。
此外,2015年這方面重大的事件還有,基于簡短英文描述的圖像進行深度想象全新影像的能力。雖然場景渲染有象征意義,一些反對的聲音存在很久了,今年已經見證了純神經網絡系統使用非確切編程的方式來做這些。多倫多大學的團隊將關注機制(attention mechanisms )運用于圖像生成,基于描述的各個成分的意思,處理每次請求的attention不同。所以,機器人現在可以夢到電動羊了。
今年,甚至在新動畫短片中的計算機想象力方面也取得了令人印象深刻的進展。美國密歇根大學的團隊創建了一個深度類推系統(deep analogy system),可以識別范例中復雜的隱含關系,并且能夠將這種關系當成查詢案例的可生性轉變。他們在許多合成應用上用到了這個系統,但是最令人印象深刻的要屬基于一張從未見過目標角色的單個靜止的圖像,和不同角度的不同角色的對比視頻短片,生成了一個全新的動畫角色視頻短片。
這里使用圖像生成是為了便于演示,他們開發的計算想象技術可以運用于各種領域和模式。比如用于聲音或音樂方面。
5.敏捷和靈巧精細動作技能
今年AI進展并不局限于電腦屏幕。
今年的早些時候,一支德國的靈長類學團隊記錄下了靈長類手部動作與對應的神經活動情況,然后他們可以基于腦部活動來預測會做出什么細微動作。他們同樣可以教機器手臂這些細微動作技能,旨在設計神經增強的假肢。
在今年年中,一支來自加州大學伯克利分校的團隊宣布了一種更為通用簡便的教機器人細微動作技巧的方法。他們采用了基于深度強化學習的引導策略搜索,讓機器人能夠開瓶蓋,用錘子背部去除木材上的釘子,以及其他日常行為。這種行為對人類來說微不足道,但對于機器來說非常困難,這支團隊的系統執行這類任務的靈巧度和速度可以與人類媲美。它實際上是通過手眼協調,經過幾次嘗試后通過練習,改善手法來完成這些任務。
回顧2015
這絕不是今年AI和機器學習(ML)領域卓著功勛的完整列表。今年也有許多更基礎的發現和發展,包括我認為比上面所列更有革命性的發展。但這些還處于發展初期,所以不在此文所選范圍內。
今年無疑產生了一些令人印象深刻的進展。但是我們希望在2016年能夠看到更多。來年,我希望看到更根本的深度架構,符號和亞符號更好地整合,一些很棒的對話系統,最終稱霸圍棋游戲的AI,深度學習被用于更精細機器人規劃和電機控制,高品質視頻摘要,和更富有創造性和更高分辨率的虛構圖像,這都是其中一瞥。更讓人興奮的還將會是我們意料之外的發展。