目录摘要1Abstract2前言3第一章绪论41
1研究背景及意义41
2本文的主要工作41
3本文的组织结构5第二章词性标注方法概述62
1词性标注简介62
2词表示62
1独热向量62
2词嵌入62
3序列标注模型92
1循环神经网络102
2LSTM网络112
3双向LSTM网络122
4CRF网络132
5LSTM-CRF网络162
6双向LSTM-CRF网络172
4本章小结18第三章语料库的建立193
1语料库的来源193
2宾州大学中文树库词性标注集193
3语料库基础信息193
4本章小结21第四章词性标注实验224
1TensorFlow简介224
2词嵌入的学习224
1实验流程234
2实验结果与分析244
3利用序列标注模型进行词性标注254
1实验流程254
2实验结果与分析284
4本章小结30第五章总结与展望315
1本文总结315
2后续工作展望31参考文献33致谢35摘要近些年来,我国司法领域的信息化建设取得飞速发展
利用司法大数据,可以完成智慧法院的建设,实现智慧司法
而裁判文书作为司法大数据的重要组成部分,可以利用自然语言处理技术挖掘其中的价值
本文实现了面向裁判文书的中文词性标注方法
词性标注是自然语言处理领域的一项基本任务,旨在为文本中的词加上合适的词性标记,可以为更复杂的任务提供词性信息
具体实现过程中,我们利用了循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(BI-LSTM)和带条件随机场的双向长短期记忆网络(BI-LSTM-CRF)这四种序列标注模型来完成词性的标注
实验结果表明,上述模型均可以很好地完成词性标注任务,而BI-LSTM-CRF是最佳的模型,拥有最高的词性标注准确率
关键词:词性标注;裁判文书;序列标注模型;词嵌入;BI-LSTM-CRFAb