我已授權

註冊

【重磅】機器閱讀理解終於超越人類水平!權威競賽排名中國霸榜,MSRA、阿裏、騰訊前二

2018-01-13 14:13:56 和訊名家 
新智元報道【新智元導讀】2018年1月3日,微軟亞洲研究院的r-net率先第一個在SQuAD machine reading comprehension challenge 上達到82.650,這意味著在ExactMatch (精準匹配)指標上首次超越人類在2016年創下的82.304。之後兩天,阿裏巴巴iDST也取得佳績,刷新F1分數至88.607, 中國AI崛起,中國的自然語言理解研究已經走在世界前列。
  新智元報道【新智元導讀】2018年1月3日,微軟亞洲研究院的r-net率先第一個在SQuAD machine reading comprehension challenge 上達到82.650,這意味著在ExactMatch (精準匹配)指標上首次超越人類在2016年創下的82.304。之後兩天,阿裏巴巴iDST也取得佳績,刷新F1分數至88.607, 中國AI崛起,中國的自然語言理解研究已經走在世界前列。
【重磅】機器閱讀理解終於超越人類水平!權威競賽排名中國霸榜,MSRA、阿裏、騰訊前二
  2018年1月3日,微軟亞洲研究院的r-net率先在SQuAD machine reading comprehension challenge 上達到82.650,這意味著在ExactMatch (精準匹配)指標上首次超越人類在2016年創下的82.304。
值得註意的是,其中阿裏巴巴數據科學與技術研究院IDST在1月5日刷新了F1分數至88.607。騰訊NLP團隊在一個月前的數據也緊隨其後,可喜可賀。
值得註意的是,其中阿裏巴巴數據科學與技術研究院IDST在1月5日刷新了F1分數至88.607。騰訊NLP團隊在一個月前的數據也緊隨其後,可喜可賀。
【重磅】機器閱讀理解終於超越人類水平!權威競賽排名中國霸榜,MSRA、阿裏、騰訊前二
  在前10名單中,我們看到了中國團隊的“霸榜”:

  並列第1:阿裏巴巴 iDST NLP、微軟亞洲研究院

  並列第2:微軟亞洲研究院、騰訊DPDAC NLP

  並列第4:阿裏巴巴 iDST NLP、微軟亞洲研究院

  第5:科大訊飛(002230,股吧)與哈工大聯合實驗室

  第9:阿裏巴巴 iDST NLP

  第10:浙江大學

  包括阿裏巴巴、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡內基·梅隆大學)、斯坦福大學等在內的全球自然語言處理領域的研究人員,共同推動著自然語言理解的進步。

  微軟亞洲研究院副院長周明在朋友圈評論:祝賀中國的自然語言理解研究已經走在世界前列!高興的同時也更加意識到自然語言理解長路漫漫,更需繼續努力。

SQuAD:機器閱讀理解界的ImageNet
SQuAD:機器閱讀理解界的ImageNet

  做機器閱讀理解研究的學者,想必對由斯坦福大學自然語言計算組發起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽並不陌生。

  它也被譽為“機器閱讀理解界的ImageNet”。諸多來自全球學術界和產業界的研究團隊都積極地參與其中。

  SQUAD是斯坦福大學2016年推出的一個閱讀理解數據集,由眾多維基百科文章眾包工作者提出的問題組成,其中每個問題的答案都是相應閱讀段落的一段文字,需要算法找到答案。

  在配套的500多篇文章中,有超過10萬個問題,SQuAD顯著大於以前的閱讀理解數據集。

  那麽,SQuAD機器閱讀理解挑戰賽是怎樣進行的呢?SQuAD通過眾包的方式構建了一個大規模的機器閱讀理解數據集(包含10萬個問題)。

  即將一篇幾百(平均100,最多800)詞左右的短文給標註者閱讀,隨後讓標註人員提出最多5個基於文章內容的問題並提供正確答案。

  SQuAD向參賽者提供訓練集用於模型訓練,以及一個規模較小的數據集作為開發集,用於模型的測試和調優。

  與此同時,他們提供了一個開放平臺供參賽者提交自己的算法,並利用測試集對其進行評分,評分結果將實時地在SQuAD官網上進行更新。

  R-NET:基於自匹配網絡的機器閱讀理解

  為了研究機器閱讀理解問題,微軟亞洲研究院NLP團隊試圖去建模人做閱讀理解的過程。

  他們提出一個名為R-NET的端到端神經網絡模型,該模型的目的是回答針對給定文本段落的問題。

  在R-NET的技術報告中,他們首先將問題和文本與門控註意力循環網絡(gated attention-based recurrent networks)相匹配,以獲得question-aware的文本表示。

  然後,他們提出一個self-matching的註意力機制,通過將文本自身進行匹配來優化表示,從而有效地對整個段落中的信息進行編碼。

  最後,研究人員使用提示網絡( pointer network)來定位文本中答案的位置。這個模型在SQuAD和MS-MARCO數據集上進行了廣泛的實驗,在兩個數據集上都取得了很好的結果。

  人在做閱讀理解的過程中,一個常見的順序是這樣的:首先閱讀整篇文章,對文章有一個初步理解之後再去審題,從而對問題也有了一定認知。

  第二步,可能就需要將問題和文中的部分段落和內容做一些關聯。例如題幹中出現的某些關鍵已知信息(或證據)的,找出一些候選答案,舉例來說:如果問題問的信息是時間,那麽文中出現的與時間相關的信息就可能是候選答案。

  第三步,當我們將候選答案與問題進行對應之後,我們還需要綜合全文去看待這些問題,進行證據的融合來輔證答案的正確性。

  最後一步,就是針對自己挑出的答案候選進行精篩,最終寫下最正確的答案。

  R-NET 模型也分為類似這樣的四層。

  最下面的一層做表示學習,就是給問題和文本中的每一個詞做一個表示,即深度學習裏的向量。這裏研究組使用的是多層的雙向循環神經網絡。

  第二步,就是將問題中的向量和文本中的向量做一個比對,這樣就能找出那些問題和哪些文字部分比較接近。

  接下來,將這些結果放在全局中進行比對。這些都是通過註意力機制達到的。

  最後一步,針對挑出的答案候選區中的每一個詞匯進行預測,哪一個詞是答案的開始,到哪個詞是答案的結束。

  這樣,系統會挑出可能性最高的一段文本,最後將答案輸出出來。整個過程就是一個基於以上四個層面的神經網絡的端到端系統。

圖:微軟亞洲研究院提出的 R-NET 算法的網絡結構圖。
  圖:微軟亞洲研究院提出的 R-NET 算法的網絡結構圖。

  其中最為獨特的部分是第三層文章的自匹配網絡(Self-Matching Networks),更多細節參考技術報告。

  R-NET:一個用於閱讀理解和問題回答的端到端神經網絡模型,由以下四部分組成:

  1)循環神經網絡編碼器,用於為問題和文本建立表示

  2)門控匹配層(gated matching layer),用於匹配問題和文本

  3)自匹配層(self-matching layer),用於整合整個段落的信息

  4)基於答案邊界預測層的提示網絡(pointer-network)

  這項工作在SQuAD數據集取得了優異的結果。最新的r-net+集成模型(ensemble)取得了EM(完全匹配)82.650分和F1 88.493分,排名第一的成績,r-net(集成模型)、r-net+(單模型)和r-net(單模型)也分別取得第2、第4和第14名的成績。

    本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:何一華 HN110)
看全文
和訊網今天刊登了《【重磅】機器閱讀理解終於超越人類水平!權威競賽排名中國霸榜,...》一文,關於此事的更多報道,請在和訊財經客戶端上閱讀。
寫評論已有條評論跟帖用戶自律公約
提 交還可輸入500

最新評論

查看剩下100條評論

熱門新聞排行榜

和訊熱銷金融證券產品

【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,並請自行承擔全部責任。