AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

AAAI 2017 Doctoral Consortium

網絡事件提取中結構和文本特徵的聯合學習

Joint Learning of Structural and Textual Features for Web Scale Event Extraction

牛津大學

University of Oxford

【簡介】網絡已經成為活動組織、傳播以及各種門票銷售的主要平臺。這些活動包括音樂會、研討會、體育賽事、專業活動以及小型本地活動。個人的活動選擇因偏好和生活方式而異。在線用戶使用網絡通知他們附近位置的新事件,並可能使用該網站購買門票或進行預約。從網絡提取事件是信息提取中一種尤為困難的類型,它從源語言數據中檢測事件的特定類型及其屬性。傳統的事件提取研究主要集中在從文本中提取政治、文化或其他基本的主題。這樣的文本通常是社論新聞,例如(Kuzey,Vreeken和Weikum 2014),或者最新的來自諸如Twitter等社交媒體,如(Ritter,Etzioni和Clark 2012)。然而,本文涵蓋了以表格、列表形式表示的事件,或者單個頁面中的關鍵部分。本論文著重於“單一事件頁面”的發現和提取。

這項研究的靈感來自於一系列從網絡提取特定文檔類型的工作。例如,(Wang等,2009)提出了一種從非常小的訓練語料庫中提取新聞文章及其基本屬性的學習方法。雖然受到這項工作的啟發,但這裡介紹的方法在所用的範圍和技術上差別很大。在研究範圍上,我的目標是事件,它比上述工作中的文檔類型具有更多的屬性,並且屬性可能出現在模板結構(如Wang等,2009)或事件描述中。此外,我的方法採用半監督方法來獲取訓練數據,能夠平衡越複雜的領域需要越多訓練數據的問題。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

1 問題陳述和解決方案

事件發現和提取的問題是多方面的:事件及其屬性被隱藏在事件聚合器的深處且遍佈網絡,因此很難找到。每個網站可能需要不同的訪問模式來獲取單個事件的頁面(“單一事件頁面”)描述。在給定的單個事件頁面內,事件屬性必須在頁面模板的結構內以及事件描述中定位。

這樣的單個事件頁面通常被分為文本事件描述和一組核心事件屬性,例如題目、地點或時間,這些屬性在特定源的所有事件的相同模板中被突出顯示和呈現。在這項工作中,我的目標是學習從事件描述和模板中提取事件屬性的聯合模型。

單個事件頁面的發現需要實現與網站的自動交互,例如表格填寫,以獲得網站中相關事件。不同的活動網站被組織者用來出售門票,個人用戶轉售門票,並且通常宣傳關於事件的相關信息。然而,不僅有大型的活動網站,如Ticketweb.com,Eventbrite.com和Ticketmaster,還有一系列小型活動網站,主辦小型的和本地的活動。因此,除了提取事件屬性外,我還研究事件源和事件源中單個事件頁面的自動發現。通過將所有三個問題作為一個整體系統來考慮,我可以利用每個子問題導出的模型來進行相互加強。

為了解決這個問題,我設計了一個聯合學習模型的框架,以最小的監督從單個事件頁面中提取結構和文本事件屬性。不幸的是,這個過程的標籤訓練數據是很難得到的且創建的代價高。因此,該框架輔之以半監督過程,以降低獲取標籤示例頁面的成本。該過程是一種bootstrapping方法,它使用每個事件屬性的種子值來註釋結構事件屬性,通過利用無監督模板發現技術(Crescenzi,Mecca和Merialdo 2001)來消除噪音。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

2 事件頁面發現

事件頁面發現階段包括查找事件的相關網站(“來源”)以及在這些網站內查找單個事件頁面。在這一步中將多種方法結合起來,以儘量減少監督。

首先,通過結合相關的知識庫以及為一小部分具有代表性的數據源手動創建爬蟲,構建事件和事件屬性實例的種子集合。這些爬蟲是使用OXPath創建的(Furche等,2013),在XPath上擴展了表格填寫動作、迭代和數據提取的標記。在第二個擴展步驟中,通過在Common Crawl(基於Microdata註釋和從種子數據派生的註釋爬取的網頁數據)中識別單個事件頁面來自動擴展該種子數據集。事件發現階段的初始運行產生了來自OXPath Crawl的超過800k單個事件頁面的數據集,以及來自Common Crawl的大約2M頁面。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

圖1 整體架構

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

3 網頁註釋

接下來為單個事件頁面的發現,本項目的註釋階段採用了兩種不同的技術。首先,使用Schema.org等Microdata在頁面的模板結構中查找相關的事件屬性。這些註釋是由事件源的所有者,包括事件特定的屬性和類型,例如事件的標題、位置、開始時間和發生地點,這些屬性可以用來自種子數據集的信息進一步驗證。對於Microdata不可用的情況,我使用種子數據通過GATE(Cunningham等,2002)NER框架對網站進行註釋。如果這些註釋通過了嚴格的約束條件,例如整個HTML節點被註釋並且沒有衝突的註釋,則這些註釋被驗證且接受。如果他們沒有通過驗證,如果有必要的話,我打算使用有限的監督來增加訓練數據集。註釋過程結合了許多不同的自然語言處理(NLP)工具,如NER、啟發式規則和地名詞典,類似於(Furche 等,2012)的註釋層。

由於機器學習模型同時學習結構和文本特徵,所以這兩種特徵都需要註釋。在Microdata的情況下,網站上的位置給出,因此給出了節點的結構指示。在Microdata不可用且單個事件頁面上的屬性已被OXPath提取的情況下,OXPath表達式和該節點內的跨度可用於註釋文本。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

4 特徵工程和機器學習

上述註釋組成訓練和評估語料庫的一部分,並被用作機器學習算法訓練階段的輸入。這也意味著註釋特徵模型的特徵必須隨著時間的推移而調整來微調算法。

確切的特徵模型仍在修改之中,但初步測試顯示了文本和結構特徵結合使用的潛力。此外,這些測試建議分類或結構預測方法的組合作為第一步。機器學習階段的輸出是支持三種不同類別分類器的分類模型:確定頁面模板的頁面級分類器,確定給定站點內屬性位置的節點級分類器,以及一個文本級分類器,它決定了節點文本的哪一部分包含我們所尋找的事件信息。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

5 分類和提取

在訓練的機器學習模型應用的初始階段,將每個模板不可見的網頁進行聚類。這允許按照每個模板聚類以站點式迭代方式來應用節點級和文本分類器。系統的輸出是提取的事件,其屬性在事件數據庫中進行進一步處理。

AAAI 2017|牛津大學:網絡事件提取中結構和文本特徵的聯合學習

6 結論

這項事件發現和從單個實體頁面提取的工作有助於模板獨立的網頁數據提取的整體工作。未來的工作旨在通過將其應用於其他領域(例如產品頁面)來證明這種端到端方法的可行性,因為最初的指標表明該框架可以相對容易地應用於其他領域。

論文下載鏈接:

https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14520/14016


分享到:


相關文章: