一种面向中文反讽文本的夸张表征词提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：安徽理工大学

摘要：本发明公开了一种面向中文反讽文本的夸张表征词提取方法，属于自然语言处理技术，包括以下步骤：步骤1：对反讽数据集进行预处理后，采用双向最大匹配法分词；步骤2：利用TF‑IDF对分词后的文本计算词频构建候选词集；步骤3：采用卡方统计衡量反讽文本与夸张表征之间的关联程度，并通过卡方检验方法设置最佳阈值来选取强关联夸张表征词，以此构建夸张表征种子词集；步骤4：基于WoBERT语义相似度计算框架，计算反讽文本与种子词集的动态词向量语义相似度，并设置阈值来选取相似度高的夸张表征词，以此构建夸张表征词集。本发明旨在通过提取中文反讽文本中含有的夸张表述的词来挖掘反讽语句特征，从而为中文反讽文本识别任务提供技术支持。

主权项：1.一种面向中文反讽文本的夸张表征词提取方法，其特征在于包括如下步骤：步骤1：获取中文反讽文本数据与文本预处理和分词；获取中文反讽数据，并将其作为研究对象，对其进行文本预处理与分词操作。步骤2：基于TF-IDF方法提取夸张表征候选词集；利用TF-IDF方法，计算文本的词频，获取高频词，提取夸张表征候选词集。步骤3：基于卡方统计和卡方检验方法，构建夸张表征种子词集；统计包含夸张表征候选词集中词的文本数与反讽文本数，计算每个候选词的卡方值，据此衡量夸张表征候选词与反讽文本的关联程度，并通过卡方检验设置最佳阈值，通过比较卡方值与阈值，选取强关联夸张表征词构建夸张表征种子词集。步骤4：基于WoBERT的语义相似度计算框架，构建夸张表征词集；计算文本特征词向量与夸张表征种子词集词向量之间的余弦相似度，设定阈值，将文本中语义相似的词纳入夸张表征词集中，丰富词集所包含的语义信息。

全文数据：

权利要求：

百度查询：安徽理工大学一种面向中文反讽文本的夸张表征词提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

下一篇：一种适用于油冷叶片结构设计的新方法

相关技术

一种基于磁控溅射法制备的Mxene复合Ni/Co纳米薄膜、制备方法及应用

一种适用于油冷叶片结构设计的新方法

一种耐油型线束及其高精度同步并线绞丝设备

一种用于冷却塔的清理装置

一种用于富含黏粒泥浆固液分离的有机-无机絮凝剂及其制备方法和使用方法

内窥镜管路的堵塞判定装置及堵塞判定方法

一种多方向出风控制方法及除湿机

制备PVC的方法和PVC产品

福利额度管理方法、装置、设备、存储介质及计算机程序产品

靶向铁蛋白的铁死亡诱导型纳米剂型及其制备方法、应用

皮肤图像识别模型训练方法、皮肤图像识别方法及装置

一种基于多维特征融合和傅里叶变换的明文检测报警系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向中文反讽文本的夸张表征词提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务