买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第二十八研究所;南京莱斯网信技术研究院有限公司
摘要:本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。
主权项:1.一种基于文本句法分析的人物言论抽取方法,其特征在于,包括如下步骤:步骤S1,构建言论触发词字典:针对初始的言论触发词,以近义词技术,扩展触发词,构建触发词字典;步骤S2,文本分句:将整个文本按完整的句子进行切分;步骤S3,句子过滤;步骤S4,言论判定;步骤S1中,所述构建触发词字典是采用初始的触发词列表L:[W1,W2,…,Wn-1,Wn],其中W1,W2,…,Wn-1,Wn依次对应第1个,第2个,第3个,…,第n个初始触发词;初始触发词为新闻类舆情数据中初筛获得的言论类触发词;步骤S1中,通过多种近义词扩充方式进行扩充,包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式;针对第1个初始触发词W1,具体包括如下步骤:步骤a1,以W1作为输入,通过同义词词林搜索W1的近义词,返回W1的近义词集合L1,其中,L1的计算公式为:L1={W1i|simW1,W1i0.6}为统一表述,采用列表代替集合,记L1为:[W11,W12,W13,W14,…,W1k],W1i表示W1通过同义词词林搜索的第i个近义词;步骤a2,以W1作为输入,通过word2vec搜索W1的近义词,返回W1的近义词集合L’1:其中,L’1计算公式为:L’1={W1i|simword2vecW1,W1i0.6}为统一表述,采用列表代替集合,记L’1为:[W’11,W’12,W’13,W’14,…,W’1k],W’1i表示W1通过word2vec搜索的第i个近义词;步骤a3,依次对步骤a1所得的L1列表中的各词汇进行步骤a2的操作,得到L1列表中的所有词汇对应的近义词列表L1_total;步骤a4,依次对步骤a2所得的L’1列表中的词汇,进行步骤a1的操作,得到L’1列表中的所有词汇对应的近义词列表L’1_total;步骤a5,对L1、L'1、L1_total和L’1_total进行合并去重,得到W1的候选词库,并进一步进行筛选,最终得到触发词W1对应的所有的近义触发词;针对初始的触发词列表L中的触发词,进行步骤a1~步骤a5的操作,得到W1,W2,…,Wn-1,Wn对应的所有的近义触发词,最终将W1,W2,…,Wn-1,Wn对应的所有触发词进行合并去重,构建触发词字典;步骤S4包括:对候选言论语句采用句法分析,判定人物和触发词之间是否为主谓关系,如果为主谓关系,则判定句子为人物言论。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第二十八研究所 南京莱斯网信技术研究院有限公司 一种基于文本句法分析的人物言论抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。