买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽理工大学
摘要:本发明公开了一种面向中文反讽文本的夸张表征词提取方法,属于自然语言处理技术,包括以下步骤:步骤1:对反讽数据集进行预处理后,采用双向最大匹配法分词;步骤2:利用TF‑IDF对分词后的文本计算词频构建候选词集;步骤3:采用卡方统计衡量反讽文本与夸张表征之间的关联程度,并通过卡方检验方法设置最佳阈值来选取强关联夸张表征词,以此构建夸张表征种子词集;步骤4:基于WoBERT语义相似度计算框架,计算反讽文本与种子词集的动态词向量语义相似度,并设置阈值来选取相似度高的夸张表征词,以此构建夸张表征词集。本发明旨在通过提取中文反讽文本中含有的夸张表述的词来挖掘反讽语句特征,从而为中文反讽文本识别任务提供技术支持。
主权项:1.一种面向中文反讽文本的夸张表征词提取方法,其特征在于包括如下步骤:步骤1:获取中文反讽文本数据与文本预处理和分词;获取中文反讽数据,并将其作为研究对象,对其进行文本预处理与分词操作。步骤2:基于TF-IDF方法提取夸张表征候选词集;利用TF-IDF方法,计算文本的词频,获取高频词,提取夸张表征候选词集。步骤3:基于卡方统计和卡方检验方法,构建夸张表征种子词集;统计包含夸张表征候选词集中词的文本数与反讽文本数,计算每个候选词的卡方值,据此衡量夸张表征候选词与反讽文本的关联程度,并通过卡方检验设置最佳阈值,通过比较卡方值与阈值,选取强关联夸张表征词构建夸张表征种子词集。步骤4:基于WoBERT的语义相似度计算框架,构建夸张表征词集;计算文本特征词向量与夸张表征种子词集词向量之间的余弦相似度,设定阈值,将文本中语义相似的词纳入夸张表征词集中,丰富词集所包含的语义信息。
全文数据:
权利要求:
百度查询: 安徽理工大学 一种面向中文反讽文本的夸张表征词提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。