研究生(外文):Wen Li Zhuang
論文名稱(外文):Coreference Resolution Using Recurrent Neural Networks
指導教授(外文):Hsin-Hsi Chen
口試委員(外文):Lun-Wei KuChuan-Jie LinWei-Yun Ma
外文關鍵詞:Coreference resolutionantecedent rankingrecurrent neural networksattention mechanism
指代(或譯作同指涉)消解是自然語言處理的經典未解之問題。我們提出一種全新的先行詞排序模型,利用階層式遞迴神經網路,先用一遞迴網路依文章的語境建造「提及語義」的表達式,再訓練另一個遞迴網路,使其善用剛剛學習出的表達式,搭配注意力機制,偵測照應詞及其指代之先行詞。我們的系統在CoNLL 2012的共享任務中,拿到了目前最高的分數。

Coreference resolution is a classic unsolved problem in natural language processing. We present a novel antecedent ranking model based on hierarchical recurrent neural networks (RNN). The word-level RNN encodes the context into the representation of mention. The mention-level network is trained to learn to exploit these useful representation and few hand-crafted features to detect anaphora and its antecedent by simple attention mechanism. We evaluate our system on CoNLL 2012 shared task and set up a new state-of-the-art.

誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Contents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Research objects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Rule-based coreference resolution . . . . . . . . . . . . . . . . . . . . . 4
2.2 Learning-based coreference resolution . . . . . . . . . . . . . . . . . . . 5
2.2.1 Antecedent ranking . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Entity clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3 Latent antecedent . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Deep neural network . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 Deep learning in NLP . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.2 Pointer Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1 Recurrent neural networks . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Vanilla recurrent neural nets . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Long Short-Term Memory . . . . . . . . . . . . . . . . . . . . . 11
3.1.3 Bi-directional RNN . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Pointer networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Attention mechanism . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2 Attention as index . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Antecedent ranking model . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1 Problem setting . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.2 Mention generation . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.3 Coreferent pointer network . . . . . . . . . . . . . . . . . . . . . 16
3.3.4 Mention ranking model . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.5 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 Antecedent ranking and mention ranking . . . . . . . . . . . . . . . . . . 24
4.4 Influence from document genre . . . . . . . . . . . . . . . . . . . . . . . 25
4.5 Attentive network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Word embeddings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7 Pretraining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.8 Training details . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.9 Final system result . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

