首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于中文文本相似度评估的话语检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:贵州大学;贵州人和致远数据服务有限责任公司

摘要:本发明公开了一种基于中文文本相似度评估的话语检测方法,包括:步骤1:初始化:录音文件集合包含完整对话的录音文件集合包含完整对话的文本文件集合情感勒索话语集合步骤2:语音记录,步骤3:语音转文本:对于集合Fc里的每个文件fc,基于语音识别接口将录音文件fc转化为文本文件ft,把文件ft添加到包含完整对话的文本文件集合Ft,并删除录音文件fc;步骤4:话语检测:对于集合Ft里的每个文本文件ft,基于话语检测算法在文本文件ft里检测情感勒索文本并将其添加到情感勒索话语集合Ceb,并删除文本文件ft;步骤5:输出情感勒索话语集合Ceb。本发明具有能有效检测日常交流场景下的情感勒索话语,改善交流效果的特点。

主权项:1.一种基于中文文本相似度评估的话语检测方法,其特征在于:包括如下步骤:步骤1:初始化:录音文件集合包含完整对话的录音文件集合包含完整对话的文本文件集合情感勒索话语集合步骤2:语音记录,具体步骤如下:步骤2.1:将对话实时语音Su存储为录音文件fu,并添加到集合Fu;步骤2.2:按照时间顺序,将集合Fu中的所有录音文件拼接成一个录音文件ftotal;步骤2.3:检测录音文件ftotal的静默时间区间:如果检测到时间长度大于录音文件切分的静默时长阈值Ts的静默时间区间,在区间中点将录音文件fu切分为两个文件,把前一个文件添加到包含完整对话的录音文件集合Fc,把后一个文件添加到集合Fu,然后跳转步骤2.2;否则,把录音文件ftotal添加到集合Fu;步骤3:语音转文本:对于集合Fc里的每个文件fc,基于语音识别接口将录音文件fc转化为文本文件ft,把文件ft添加到包含完整对话的文本文件集合Ft,并删除录音文件fc;步骤4:话语检测:对于集合Ft里的每个文本文件ft,基于话语检测算法在文本文件ft里检测情感勒索文本并将其添加到情感勒索话语集合Ceb,并删除文本文件ft;所述话语检测算法,具体步骤如下:步骤4.1:初始化:加载情感勒索语料库Ctext,初始化文本文件ft包含的话语d的情感勒索检测结果R=False;步骤4.2:文本切分:根据标点将话语d切分成字数不超过文本切分的限定字数l的文本集合Cd={d1,d2,…,di,...,dn};步骤4.3:对文本集合Cd中的每段文本di进行情感勒索检测,具体检测步骤如下:步骤4.3.1:从i=1到i=n,在文本di中检测特定代词和词性组合,获得检测结果Di;步骤4.3.2:如果检测结果Di为0,即没有检测到特定代词和词性组合,则R=R║False,i的值增加1,即i=i+1,执行步骤4.3.1;步骤4.3.3:如果检测结果Di为1,即检测到了特定代词和词性组合:首先采用基于词性的文本相似度评估方法和基于语义词的文本相似度评估方法,分别计算文本di与语料库Ctext中所有文本的词性相似度向量rp和语义词相似度向量rw;然后将rp与rw进行融合,获取最大总相似度rtotal;所述的最大总相似度rtotal的获取过程:首先,计算总相似度向量rtotal=a·rp+b·rw,其中a和b为互补权重;其次,找出rtotal中数值最大的元素,记为最大总相似度rtotal;步骤4.3.4:如果最大总相似度rtotal大于或等于相似度评估的阈值T,即rtotal≥T;则R=R║True,结束循环,执行步骤4.4;否则,R=R║False,执行步骤4.3.1;步骤4.4:输出情感勒索检测结果R,并将文本d添加到集合Ceb;步骤5:输出情感勒索话语集合Ceb。

全文数据:

权利要求:

百度查询: 贵州大学 贵州人和致远数据服务有限责任公司 基于中文文本相似度评估的话语检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。