基于動態(tài)圖神經網絡的會話式機器閱讀理解研究

文:劉嘯 楊敏 2022年第4期

  1 引言

  機器閱讀理解是自然語言處理領域中一項重要且富有挑戰(zhàn) 的任務,該任務通過向機器輸入一段非結構化文本及其相應的 問題,要求機器能夠根據文本回答相關問題。然而,這些問題 往往充斥著迷惑性, 如果不理解文本內容而根據規(guī)則進行回答, 由此得到的答案大概率為錯誤答案。近年來,機器閱讀理解得 益于其在信息檢索和問答任務中的廣泛應用而受到越來越多的關注。大量大規(guī)模數據集的發(fā)布,使其迎來了迅速的發(fā)展。當 前的大部分閱讀理解模型主要聚焦于單輪問答中文章的答案提 取,同一篇文章的不同問題和答案之間沒有聯系。相關模型在 SQuAD 數據集上的性能甚至已經超過了人類。然而,在現實生活中,人類的交流更多是基于對話的。 在對話行為中,人類會基于已學習的信息,通過不斷地詢問來 獲取額外的信息,這是機器智能化的體現。為了探索機器在歷 史對話中提取有效信息并結合文章內容進行邏輯推理的能力, 一種全新的機器閱讀理解任務,即會話式機器閱讀理解任務被提出。會話式機器閱讀理解是由機器閱讀理解與會話式問答交叉形成的新領域,即在傳統(tǒng)機器閱讀理解的基礎上加入多輪問 答,使問答對之間具一定的承接關系。它要求機器能夠模擬人類捕獲信息的方式來回答問題。會話式機器閱讀理解任務被 證實比普通機器閱讀理解任務更具有挑戰(zhàn)性,因為它不僅需要理解文章段落,還需要理解會話歷史中的語言現象,諸如指代關系、主語省略、主題轉移等。相比于單輪機器閱讀理解,會話式機器閱讀理解更符合人類對相關主題的問答習慣。為了探 索這一新領域,越來越多的學者嘗試構建此類數據集并嘗試不同的模型和方法。其中, 最經典的數據集為 Reddy 等在 2018 年創(chuàng)建的多輪機器閱讀理解數據集 CoQA,它包含了 127000 個問題及相應答案,以及8000 篇對應的文章。此后,有眾多研究者對該數據集展開了大量實驗,主要分為以下幾種方式: (1) 將原訓練數據中的多輪對話問拆解為單輪對話問題,簡化任務形式,并通過多次打亂問題順序來提高模型的泛化能 力。對于問題輪數較少的樣本而言,這種處理方法可以在一定 程度上利用模型的大規(guī)模參數來強行擬合數據,達到較好的結果。但是,對于問題輪數較多,且上下文關聯性非常強的樣本而言,這種方法會破壞上下問題的聯系,導致效果降低。(2) 另一種處理方式為將樣本中的多個問題處理為流機制的形式, 上一個問題的處理結果會以輸入參數的形式參與當前問題的處理過程,這樣在一定程度上保留了問題之間的關聯性。但是過往的方法在處理問題流時僅關注了問題與文章單一字、詞的 聯系,忽略了問題流與全文的交互過程,造成信息損失。(3) 還有一些處理方法是通過大規(guī)模預訓練語言模型構建而成, 如基于變換器的雙向編碼器表示技術 (Bidirectional Encoder Representations from Transformers,BERT) 或基于廣義自 回 歸 預 訓 練 方 法 (Generalized Autoregressive Pretraining Method,XLNet) 的閱讀理解模型。預訓練語言模型利用遷 移學習的思想,從相關任務的大量數據中預先訓練出有效的語 言模型,然后遷移到目標任務中加以優(yōu)化,可以在一定程度上 提高模型的準確率。但是,這些模型不能有效整合句子的句法結構、句子間長距離的語義關系等信息,從而造成模型對問題 和篇章理解不夠充分。

  受到圖神經網絡模型在自然語言處理等領域獲得成功的啟 示,本文提出了一種用于會話式機器理解的動態(tài)會話圖神經網 (Dynamic Conversational Graph Network,DCGN)。首先,針對當前機器閱讀理解模型無法構建全局語義關系以及較長距離推理關系的問題,該方法在傳統(tǒng)的詞序列結構基礎上添加了文本實體圖結構?;趩栴}和對話語境中的命名實體構建動態(tài)文本圖,文本圖會隨著問題和對話歷史的處理過程而發(fā)生動態(tài)變化。通過這種方式,系統(tǒng)可以在一系列上下文本圖中對語義和時間依賴性進行建模。然后利用動態(tài)圖神經網絡獲得上下文中實體的語義嵌入表示,并與采用 RoBERTa 預訓練模型 所提取的序列化結構的上下文嵌入表示進行融合。最終根據問題嵌入與融合后的語義嵌入表示計算每輪的匹配分數并進行答案預測。通過在相關數據集上進行實驗,結果表明本文系統(tǒng)的性能超過了所有基線模型。

  2 會話式機器閱讀理解研究現狀

  2.1 會話式機器閱讀理解

  近年來,隨著深度學習技術的不斷進步,機器閱讀理解成為自然語言處理領域里一個重要且富有挑戰(zhàn)的研究課題,受到了越來越多的關注。傳統(tǒng)的機器閱讀理解任務由文章段落、問題、答案三要素構成,主要研究單輪問答的文章的答案提取, 并提出了幾種單輪模型,如在 SQuAD 數據集中的 BiDAF 模 型、QANet 模型等 。然而,隨著數據集逐漸從虛構內容轉向真實場景,問題由簡單問題向復雜問題發(fā)展,機器閱讀理解的 研究開始向更復雜的會話式機器閱讀理解領域進行探索。會話式機器閱讀理解是由機器閱讀理解與會話式問答交叉形成的新領域,即在傳統(tǒng)機器閱讀理解的基礎上加入多輪問答,使問答對之間具有一定的承接關系。這更符合真實場景中人們通過多 輪問答逐層深入了解相關主題信息的情況。通常來說,會話式 機器閱讀理解任務由文章段落、會話、會話歷史三要素構成。 機器不僅要理解文章段落,還要理解會話歷史中的語言現象, 諸如指代關系、主語省略、主題轉移等。相比于單輪機器閱讀 理解, 會話式機器閱讀理解更符合人類對相關主題的問答習慣。

  為了將會話歷史信息融入模型,早期的處理方式大多為 顯性地將過去的問題以及答案直接拼接到當前的問題之前,這 樣就可以保留對話中的歷史信息。典型的做法有 Choi 等提出 的 BiDAF ++ w/x-ctx 模型——利用“問題 - 文章段落”和 “文章段落 - 問題”之間雙向的注意力來捕捉回答問題的有效 信息。另外,為了將會話歷史信息添加到當前問題中, BiDAF++ w/x-ctx 模型將上一個問題的答案在文章中所對應的下標信息拼接到文章的詞向量矩陣里,再進行文章與問題的雙向 注意力操作。與 Choi 不同的是,Reddy 等提出的 DrQA + PGNet 模型,直接將上一個問題以及答案與當前問題進行拼接,并用特殊符號進行標記,再將其以普通機器閱讀理解任務 的形式進行建模。隨后,Zhu 等提出的 SDNet 模型,將前幾 輪的問題和答案拼接到當前問題之前,以納入上下文信息,而 且在文章和問題上運用了互相關注和自我關注的方法,深度融合文章與問題的信息,獲得了不錯的效果。自以 BERT 為代表 的大規(guī)模模型問世以來,有眾多研究者探索這種預訓練模型在會話式機器閱讀理解任務上的表現。Ohsugi 等提出了 BERT+ Finetune 模型——使用 BERT 模型訓練當前問題 - 文章、 上一問題 - 文章、上一問題的答案 - 文章,取得文章以及問題 的高質量特征數據,再按普通機器閱讀理解的形式進行建模, 取得了非常好的效果。然而,這些處理方式只是簡單地將之前 的問題與當前問題的答案拼接起來,從而保持歷史問題與當前 問題的關聯性,本質上并沒有解決會話式機器閱讀理解任務中 模型需要從會話歷史中獲取與問題相關的信息的初衷,忽略了 基于歷史信息的會話推理過程。

  會話推理是會話式機器閱讀理解模型的核心,主要負責將問題、文章段落以及會話歷史進一步融合,從而獲得三者之 間的相互加權關系以及深層次語義信息,并為預測答案提供推理依據。與循環(huán)神經網絡通過序列傳遞歷史信息類似,流是一種潛在表示序列,它將先前會話推理過程中產生的潛在表示序列傳遞到當前問答推理中,使得當前模型可以沿著會話進程方向推理。Huang 等構建的FlowQA 模型提出了一種沿著會話進程方向以及上下文詞方向相互交叉融合信息的集成流機制。 它在以往單輪機器閱讀理解模型對文章進行雙向循環(huán)神經網絡提取特征的基礎上,加入了會話進程方向的單向循環(huán)神經網絡,將歷史問題的推理信息以隱向量的形式傳入當前問題中并參與推理過程。這一簡單的處理極大地提升了原本模型在此任務中的效果,也有力地證明了流機制在會話式機器閱讀理解任務中的重要性。此外,Chen 等提出的 GraphFlow 模型利用基于圖神經網絡的集成圖流機制來保留歷史問題的推理信息。 GraphFlow 將構建問題和會話歷史感知的上下文圖作為潛在表示序列傳入圖神經網絡中,并使用 K 最近鄰 (K-Nearest Neighbor, KNN) 分類算法選擇 k 個最近鄰 ( 包括自身 ) 以及每個上下文節(jié)點的注意力值,來保存文章中重要的推理關系。 這也是第一個將圖神經網絡與會話式機器閱讀理解任務相結合 的模型,取得了不錯的效果。由此可見,會話一般具有較強的上下文關聯性,因此,可以將會話歷史結構作為抽象信息輔助 模型推理。然而,現有的基于流機制的方法尚處于萌芽階段,大部分的模型將文本簡單地看作詞的序列,沒有探索詞之間豐富的語義關系。

  2.2 圖神經網絡

  圖神經網絡最早由 Scarselli 等提出,是一種用于處理圖 結構數據的神經網絡模型,在信息傳播、關系歸納偏置上展現了優(yōu)秀的性能。當信息在圖的節(jié)點之間傳播時,圖神經網絡中每個節(jié)點會學習到它的鄰居節(jié)點狀態(tài)表示,并以此來更新自己的節(jié)點表示。近年來,圖神經網絡在自然語言處理的各種任務中取得了較好的成果。越來越多的學者將圖神經網絡用于機器閱讀理解任務,并顯示出優(yōu)于傳統(tǒng)方法的優(yōu)勢。其中,Qiu 等 提出的 DFGN 模型基于文本內容構建實體圖,并通過圖注意力機制傳播節(jié)點之間的信息。以從問題中提取的實體作為起點,沿著基于文章內容動態(tài)構建的實體圖進行探索,并逐步找到給定文章中相應的支持實體。同時,添加了 Graph2Doc 模 塊,將每個實體節(jié)點的嵌入表示與該實體對應的單詞嵌入表示 進行融合,然后送入長短期記憶,將圖結構中實體的表示轉 化為序列表示來抽取答案。Thayaparan 等提出的文檔圖網絡 (Document Graph Network,DGN) 模型, 采用預過濾步驟 來限制節(jié)點的數量,并直接在提取的文檔圖上訓練門控圖神經 網絡,從而為文檔圖結構表示的識別提供證據文本。Ding 等 提出一個多跳閱讀理解框架 CogQA,該框架以認知科學中的

  雙過程理論為基礎,使用 2 個系統(tǒng)來維護 1 張認知圖譜:系統(tǒng) 1 采用 BERT 模型,隱式地從句子中提取相關實體并對其中的 信息進行編碼,然后將它們提供給系統(tǒng) 2;系統(tǒng) 2 利用圖神經 網絡將這些實體及其編碼信息構建為 1 張認知圖譜,通過圖來對這些相關信息進行推理計算, 同時指導系統(tǒng) 1 進行實體提取。 CogQA 模型通過模擬人類的認知方式來解決機器的閱讀理解問題,利用協同隱式提取模塊和顯式推理模塊,在迭代過程中逐步構建認知圖,并在認知圖基礎上解答問題。雖然上述方法 在多跳閱讀理解任務上測試證明能夠取得不錯的性能,但會話 式機器閱讀理解的核心問題是建模會話推理過程。如何進一步 運用圖神經網絡來完善機器的邏輯推理能力,使其擁有真正的 自然語言理解能力,是未來一個重要的研究方向。

  3 基于動態(tài)圖神經網絡的閱讀理解模型

  3.1 問題描述

  Reddy 等給出了會話式機器閱讀理解任務的定義:它通過 給機器一段文本,及其具有上下文內在關系的一組序列問題, 要求機器能夠聚集會話中的信息,并且給出相應的回答。該任 務的數學定義形式為:輸入給定的文章段落 C,會話歷史信息公式1.png

。其中公式2.png,公式3.png,分 別為第 i-1 輪的問題和答案,N 代表前 N 輪對話。會話式機器閱讀理解的任務是預測當前問題4.png的答案5.png,輸出是該答案在文章段落中提取的跨距文本的起始和終止兩個詞的位置6.png。同時,系統(tǒng)也會預測當前問題答案的類型 。具體來說, 在 CoQA 任務中, 答案種類有“Yes”“No”“No Answer”和“Answer Span”4 種, 分別代表肯定回答、否 定回答、沒有答案,以及答案是文章中的一段句子或短語。具 體例子如圖 1 所示。

  3.2 動態(tài)圖神經網絡的會話式機器閱讀理解模型

  本文所提方法的模型框架如圖 2 所示,主要包括信息編碼層、信息推理層和答案預測層 3 個模塊。

  3.2.1 信息編碼層

  大量研究工作證明,預訓練模型可以有效提升模型性能, 這同樣適用于會話式機器閱讀理解模型。預訓練模型不僅考慮到詞的全局統(tǒng)計信息,也涵蓋了上下文信息。通常情況下,傳統(tǒng)的機器閱讀理解模型使用預訓練模型的最后一層輸出值作為文本的嵌入表示。但在會話式機器閱讀理解任務中,上述方法無法處理輸入序列中的會話歷史信息。由于會話歷史包含不同輪次的問答結果,模型理解當前問題所需的信息可能在會話歷史的任意位置。這需要模型可以捕捉不同距離的依賴關系。

  

圖 1 CoQA 數據示例.png

  圖 1 CoQA 數據示例

而 BERT 的每一層 Transformer 會生成不同的權重表示,該權重 表示可以看作模型對當前輸入序列的不同階段的表示。因此,采用加權平均的方法融合 BERT 不同層 Transformer 的權重, 并將其作為輸入序列的上下文嵌入。與 BERT 相比,RoBERTa 的改進主要有以下幾點:(1) 使用更多的訓練資源和訓練數據, 耗時更長。(2)RoBERTa 使用了動態(tài)掩碼的方式,每次向模型輸入一個序列時都會隨機 mask 不同的 token。動態(tài)掩碼的方 式可以使模型在大量數據輸入的過程中,逐漸適應不同的掩碼 策略,學習到不同的語言表征。(3)RoBERTa 使用更大的 byte 級別 BPE 詞匯表來訓練 BERT,且沒有對輸入進行任何模型之外的預處理或分詞操作。這可以有效防止“unknown”問題。 因此,本文使用 BERT 以及 RoBERTa 模型,對輸入文本進行編碼。

  模型采用預訓練模型 BERT 的輸入方式:1.png2.png。其中,9.png為第 i 輪的問題;3.png為會話歷史信息;C 為篇章;4.png為分隔符;5.png為整個輸入的聚合表示。預訓練模型 RoBERTa 可以表示為一個變換函數7.png,它接受一個訓練實例的輸入,并為每個字符生成向 量化表示,具體計算如公式 (1) 所示。

8.png      (1)

  3.2.2 信息推理層

  會話推理是會話式機器閱讀理解模型的核心,主要負責將問題、文章段落以及會話歷史進一步融合,從而獲得三者之 間的相互加權關系以及深層次語義信息,并為預測答案提供推理依據。當前,大部分的模型將文本簡單地看作詞的序列,沒有探索詞之間豐富的語義關系。為了解決這一問題,本文將圖神經網絡應用到會話式機器閱讀理解任務中,利用文本實體圖 結構建立全局語義關系以及長距離推理關系,得到包含了語 義結構信息的文本嵌入表示。同時,本文提出了一種動態(tài)會 話圖神經網絡 (Dynamic Conversational Graph Network, DCGN),該網絡基于問題和對話語境中的實體動態(tài)地構建文本圖, 利用動態(tài)圖神經網絡獲得上下文中實體的語義嵌入表示。 然后,通過融合機制將前輪的推理過程及結果并入當前上下文圖中,提高了當前輪次的推理性能。該模塊結構如圖 3 所示, 它由實體圖構造模塊、語義融合模塊和動態(tài)圖神經網絡模塊 3 部分組成。

圖 2 本文所提模型框架示意圖.png

  圖 2 本文所提模型框架示意圖

  (1) 實體圖構造模塊

  構建文本實體圖結構首先需要對文章進行命名實體抽取, 實體是機器閱讀理解任務中的關鍵要素。當前機器閱讀理解數據集中,大多數問題都是基于事實的問題。實體在段落的語義信息中有重要的地位,實體之間的語義關系也是推理過程中的重要線索。因此,通過構造文本中的實體圖結構可以輔助獲取 文章的深層次語義信息,提高模型的推理性能。在當前命名實體抽取任務中有大量的研究成果,并取得了很好的效果。其 中,SpaCy 工具包由于它的高效而被廣泛運用,因此本文采用 SpaCy 工具包進行命名實體抽取。在得到實體后,將文章的所有實體構造為一個無向圖,構建的圖可表示為 G(E, A)。 其中,E 為圖的節(jié)點集合, 該圖中的頂點即為文中所有的實體; A 為圖的邊集合,本文采用雙仿射注意力模型提取實體之間的依存關系。實體圖中邊的定義方式如下所示:(1) 基于實體的 依存關系, 如果一個句子中的兩個實體之間存在依存句法關系, 則兩個實體之間建立邊;(2) 基于句子的共現關系,如果兩個 實體出現在同一個句子中, 則認為它們之間存在共現關系;(3) 基于上下文的同義詞關系,如果文本中的兩個實體具有相同詞性時,則兩個實體之間建立鏈接。共同詞性邊通過詞性復現在句子之間建立關聯,但是考慮到機器閱讀理解任務中有時篇幅比較短,重復詞較少。因此,本文引入詞性關系邊,通過詞性 的重復將不同句子關聯起來,同時也克服了圖稀疏的缺陷。具體的,滿足以下規(guī)則之一時, 兩個實體節(jié)點 E1 和 E2 是相似的: ① E1 等于 E2;② E1 包含 E2;③ E1 和 E2 之間重疊的單詞數大于 E1 和 E2 最小單詞數的一半。據此可以得到一個基于依存關系的具有多個節(jié)點和邊緣類型的語義圖——捕獲了文章 中實體之間的核心語義關系。此外,為了模仿人類的一些推理 行為,實體圖在推理過程中會發(fā)生動態(tài)變化。

  (2) 語義融合模塊

  由于文本具備序列化結構的特點,因此在自然語言處理任務中,通常使用序列化結構進行文本嵌入表示。在構建了命名 實體圖之后,本文使用與實體關聯的文本嵌入表示來計算實體圖節(jié)點的向量表示。首先,構造一個大小為 m×m 的二進制矩 陣 M,用于選擇與實體關聯的上下文跨度。其中, m 為上下 文中的單詞數;n 為實體數。如果上下文中第 i 個單詞在第 j 個實體的范圍內,則 Mi, j = 1。由于每個實體節(jié)點中可能包含的單詞數量不止一個,所以對每個節(jié)點中所包含的單詞向量都進行最大池化與平均池化操作, 再將得到的特征向量進行拼接,得到最終的每個節(jié)點信息表示向量如公式 (2) 所示:

1.png      (2)

      其中, 是大小為 2d×n 的矩陣;n 為實體數;2d 為每個節(jié)點中所包含的單詞向量進行最大池化與平均池化操作拼接之后的維度大小。同時,為了模仿人類基于關鍵詞的推理行為,在每輪對話過程中,本文使用當前問題嵌入向量1.png和對話歷史嵌入向量2.png來指導實體圖的構造。通過在實體之間創(chuàng)建一個注意力網絡來識別與問題相關的節(jié)點。節(jié)點與問題和會話歷史信息相關性越大,從鄰居節(jié)點接收的信息越多,具有更高的權重。本文使用問題嵌入、會話歷史嵌入和實體嵌入之間的注意網絡來預測高權重節(jié)點。具體計算公式如下所示: 

圖 3 DCGN 模型框架示意圖.png

  圖 3 DCGN 模型框架示意圖

   

  3.png(3)

                            4.png(4)


5.png                       (5)


6.png(6) 

其中,12.png為線性投射矩陣;13.png為 sigmoid 函數;14.png是注意力向量;15.png是實體節(jié)點的動態(tài)嵌入向量。

  (3) 動態(tài)圖神經網絡模塊

  將經過上下文語義融合模塊編碼后的特征向量輸入圖神經網絡,可以得到圖中節(jié)點的原始向量。由于每個節(jié)點都會與多個節(jié)點相連,因此要求節(jié)點有選擇性地獲取相鄰節(jié)點的信息, 并在實體圖中傳遞最為相關的信息,所以模型采用門控圖神經網絡來更新圖節(jié)點的表示,通過聚合來自鄰居的信息來更新當前圖節(jié)點的表示。在每輪對話中,通過門機制使當前節(jié)點16.png在獲取其鄰居節(jié)點17.png所示:

信息的時候更有選擇性。具體公式如下

  7.png(7)

  (8)

  

其中, INk 以及 OUTk 分別為節(jié)點18.png出度與入度的集合;19.png為節(jié)點與鄰居節(jié)點20.png的注意力系數。21.png為注意力函數, 其計算方式如公式 (9) 所示:

  9.png(9)



然后, 利用門控循環(huán)神經網絡 (Gate Recurrent Unit, GRU) 對節(jié)點狀態(tài)進行更新:

  10.png(10)


至此,得到更新后的實體圖節(jié)點向量表示:

 11.png (11)


  此外,會話式機器理解任務中,不同輪次的問答對之間具有一定的承接關系。而圖作為一種描述數據節(jié)點之間關系的數據結構,本身并不含有圖之間的順序依賴關系。因此,本文設計了類似循環(huán)神經網絡 (Recurrent Neural Network,RNN)的信息融合機制,將之前的推理過程的結果融入當前的推理過程中,補充了回答當前問題所需要的額外信息。具體計算方式如下所示:

  12.png(12)


  13.png(13)


 14.png(14) 


其中,融合函數是兩個信息源的門控和;1.png為 Sigmoid激活函數;2.png是可學習參數矩陣;z 為門控函數向量;3.png為偏置向量。最后,將更新后的圖節(jié)點向量4.png和文本表示向量5.png進行融合,得到一個包含序列化結構特征和圖結構特征的統(tǒng)一嵌入表示6.png。具體是通過語義融合模塊所描述的相同的 二進制矩陣 M 將對應位置的嵌入表示向量進行融合,如公式(15) 所示:


15.png(15)

  

      3.2.3 答案預測層

  在問題和文章充分交互融合之后,將最后的編碼表示輸入 一個全連接層中來預測答案區(qū)間,輸出為序列中每個位置作為開始位置或者結束位置的概率。本文采用與 FlowQA 模型相同的答案預測模塊,先計算答案的起始位置7.png,再計算答案 的終止位置8.png,這種方式可以更好地聯合答案開始與結尾的關系。同時, 由于答案中存在“Yes”“No”“No Answer” 和“Answer Span”4 種類型,因此需設計一個答案類型分類器來對答案的類型進行預測。具體計算公式如下所示:

  16.png(16)

  (17)


  18.png(18)

  (19)

  

      其中,WS, WE, WT 是 d×d 的可學習參數矩陣;0.png為第 i 輪問題中文章的第 j 個位置的嵌入表示向量;9.png為第 i 輪問 題中文章的第 j 個位置為起始位置的概率;10.png為第 i 輪問題中文章的第 j 個位置為終止位置的概率;11.png為第 i 輪問題的答案類型;21.png為門控循環(huán)神經網絡;22.png是以自然常數 e 為底的指數函數。

  4 結果分析與評估

  4.1 數據集與評價指標

  本文使用多輪機器閱讀理解數據集 CoQA 和 QuAC 作為實驗數據。CoQA 是第一個高質量會話式機器理解數據集—— 來自 7 個不同的領域, 共計 8399 個文章段落,12.7 萬個對話。每個文章段落平均約有 15.2 輪問答,文章平均長度達 271 個詞。QuAC 數據集提取自維基百科,包含 13 594 個會話以及 98 407 個問題,答案平均長度約達 15 個詞且為跨距 文本。與 CoQA 不同, QuAC 考慮了現實中師生問答的情況。 學生試圖通過一系列的問題來了解隱藏的知識,而教師用簡短的段落和所有的會話來回答相應問題。對于會話式機器閱讀理 解,本文沿用機器閱讀理解中使用的 F1 值來作答案評價。相較于精確率、召回率, F1 值更能準確評價一個模型的好壞。 F1 值的計算如公式 (20) 所示:

 20.png (20)


  QuAC 的評價方法除了 F1 值以外,還引入了人類等效分數 (HEQ) 以計算模型 F1 值超過或等于人類 F1 值的樣本數百分比。HEQ 包括 HEQ-Q 和 HEQ-D:HEQ-Q 計算所有會話中正確回答問題的百分比;HEQ-D 計算所有會話中每一組會話中正確回答問題的百分比。

  4.2 實驗結果

  本文將所提出的 DCGN 模型分別基于 BERT 預訓練模 型與基于 RoBERTa 預訓練模型進行實驗,選取目前主流的 會話式閱讀理解模型作為基線模型與本文所提模型進行對 比, 對 比 的 基 線 模 型 有 FlowQA、FlowDelta、SDNet 和 GraphFlow。此外,本文亦對其他基于 BERT 的模型進行了比 較, 如 BERT + HAE、RoBERTa 等。實驗結果如表 1、表 2 所示,本文模型優(yōu)于各種先進的基線模型。

  4.3 討論與分析

  本文將對比模型分為基于 BERT 預訓練模型與基于 RoBERTa 預訓練模型。從表 1 可以觀察到,DCGN 模型在 CoQA 數據集上顯著超過了最先進的基于注意力的模型。與同 樣基于圖網絡思想的 GraphFlow 模型相比,本文模型可以更好地學習實體之間的語義關系與句子之前的句法結構等信息, 從而解決模型對問題和文章理解不充分的問題。同樣,從表 2可以看出,DCGN 模型在 QuAC 數據集上優(yōu)于其他方法。此外, 本文將 DCGN 模型與基于 RoBERTa 預訓練模型進行了比較, 證明了本文模型與基于 RoBERTa 預訓練模

  

表 1 模型在 CoQA 測試集上各領域的 F1 值.png

  表 1 模型在 CoQA 測試集上各領域的 F1 值

表 2 模型在 QuAC 測試集的評價值.png

  表 2 模型在 QuAC 測試集的評價值

型同樣具有競爭力, 且更容易集成到現有模型中。為了證明模型的各模塊對提升實 驗效果的有效性,在驗證集上進行模型消融實驗來驗證不同模 塊對于模型效果的影響。本文對 DCGN 模型中重要模塊進行 刪除或者替換實驗,結果如表 3 所示?! ?/p>

  由表 3 結果可知,刪除實體圖融合模塊,將文章中的單 詞作為圖節(jié)點,模型的效果下降了 2.2%。由此可見,使用實體構造的圖結構能夠提取文本中的有效信息,避免冗雜信息的引入。刪除語義融合模塊,利用圖嵌入模型獲得每個圖節(jié)點的向量表示,模型的效果下降了 3.4%,究其原因是無法匹配節(jié) 點與文章信息,造成圖信息與文本信息的不匹配問題。刪除動態(tài)圖神經網絡模塊,模型的效果下降了 2.7%,只利用 BERT 預訓練模型對答案進行預測,缺少基于圖結構的機器閱讀理解能夠利用圖結構構建全局語義關系以及較長距離推理關系的優(yōu)勢。

  表 3 模型在 CoQA 測試集上消融實驗的 F1 值.png

  表 3 模型在 CoQA 測試集上消融實驗的 F1 值

  5 結論

  本文針對會話式機器閱讀理解任務提出了一種新的基于動態(tài)圖神經網絡的機器閱讀理解模型 (DCGN),該模型首先識別上下文中的實體,使用句法結構與句子之間的語義關系進行建 模;然后將通過文本圖結構得到的上下文實體嵌入表示融合到基于序列化結構得到的上下文嵌入表示中;最終使用圖神經網絡在每輪對話過程中動態(tài)地構建問題和會話歷史的推理圖,從而實現會話式機器閱讀理解問答。與之前的方法相比,本文提出的模型獲得了較好的結果。然而,會話式機器閱讀理解領域 仍處于最初的研究探索階段,模型的推理能力和會話理解能力 還有巨大的提升空間。未來,在機器閱讀理解可解釋方法上進行研究,從會話歷史篩選出與當前問題最相關的歷史信息,并 且生成可解釋的推理路徑。


  劉 嘯 1,2 楊 敏 1

  1 中國科學院深圳先進技術研究院

  2 中國科學院大學深圳先進技術學院

  轉載自《集成技術》



中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.wangxinlc.cn)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期