SCIR Club Share "NN Method for NLP Chap6-7"
俱乐部分享。神经机器学习。 • 24 October 2017
以下是概览目录。
NLP数据拓扑结构
- 词(误拼)
- 文本(文本分类、情感倾向、主题分类)
- 成对文本(翻译、含义推断)
- 上下文中的词(谓词识别,动词匹配,词性标注)
- 词之间的关系(主语检测,句法,语义角色标注)
NLP特征
直接可测特征
- 特征的可计数性,词袋特征。
- 单独词特征 (词,长度,字符特征,前后缀)
- 词元lemma和词干stem
- 词汇资源 (阴阳性、词型、格、体、数)
- 分布信息
- 文本特征(词袋、权重)
- 上下文词特征(相对窗口、绝对位置)
可推断的语言学特征
- 词性
- 短语结构树与依存句法树(句法关系,句法路径,深度,公共父节点)
- 语义信息:论元角色信息
其他
- 组合特征
- N-gram特征
- 分布特征
NLP特征案例
语言识别
- 二元字母词袋特征
主题分类
- 一、二元文法词袋特征
- lemma或词向量等分布特征
- 给词袋加权:安装信息量加权如tf-idf
作者归属
- 词性一二三四元(pos),功能词(on of the)一二元、距离
词性标注(POS-tag)
- 词本身:前后缀、词元、大词表频率
- 外部:周围单词及其前后缀、前面单词的预测结果
- 特征模板
命名实体识别(NER)
- 如何选择较大的上下文窗口?
- 左边第一个谓词、右边第一个名词
- 依存分析器信息
弧分解分析,句法分析(Parser)
- 利用头词、修饰词及其pos,窗口内单词及词性