首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多源数据融合的智能人格特性评价方法 

申请/专利权人:华南理工大学

申请日:2020-12-14

公开(公告)日:2024-04-30

公开(公告)号:CN112561474B

主分类号:G06Q10/1053

分类号:G06Q10/1053;G10L15/22;G06F40/284;G06F18/25;G06N3/0442;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2021.04.13#实质审查的生效;2021.03.26#公开

摘要:本发明公开了一种基于多源数据融合的智能人格特性评价方法,步骤包括:收集网络用户的演讲视频数据;将演讲视频数据转成演讲文本;进行用户人格特性标注;对获取到的演讲文本进行词频统计并排序;对于每种人格特性,心理专业人员将筛选出最能代表该特性的关键词,形成关键词表;对演讲文本进行处理并形成词嵌入向量特征;将词嵌入向量特征输入到多源数据融合模型中进行融合,最终输出人格特性预测结果。由于结合了专业人员的先验知识,本发明提出的智能人格特性评价方法有较好的可解释性,能在小样本上取得更加准确的预测结果,对演讲用户的人格特性进行自动预测。

主权项:1.一种基于多源数据融合的智能人格特性评价方法,其特征在于,所述的智能人格特性评价方法包括以下步骤:S1、收集网络用户的演讲视频数据;S2、将步骤S1中获得的演讲视频数据进行语音转写,转写为演讲文本;S3、根据演讲文本,心理专业人员对该用户的人格特性进行打分;S4、对步骤S2中获得的演讲文本进行词汇切分,通过词频排序操作,统计不同词汇出现的次数以及概率;S5、心理专业人员对步骤S4中词频排序后的词汇进行关键词筛选,筛选出最能分别代表不同人格特性的关键词,形成关键词表;S6、对步骤S2的演讲文本进行预处理,并使用基于词嵌入的特征提取操作,形成词嵌入向量特征,过程如下:预处理操作包括词汇切分、去停用词以及文本对齐;词汇切分操作与步骤S4中的相同,对于第n个用户转写后的演讲文本fn,则其进行词汇切分操作后获得的词汇集合为Wn=wn,1,wn,2,...,wn,j,...,wn,c-1,wn,c;去停用词操作会对词汇集合Wn中的停用词进行过滤,形成过滤后的词汇集合w′n,1,w′n,2,...,w′n,j,...,w′n,d-1,w′n,d,其中d为过滤后词汇集合长度,w′n,d为第n个用户去停用词后的词汇集合中的第d个词汇,设T为停用词表,则去停用词操作如下: 文本对齐操作将对不同长度的词汇集合进行对齐,设l为最大集合长度,则词汇集合中,低于最大集合长度l的部分填入0进行扩充,高于最大集合长度l的部分进行截断;第n个用户转写后的演讲文本fn经过上述预处理操作后,获得预处理操作后的词汇集合Qn=qn,1,qn,2,...,qn,v,...,qn,l-1,qn,l,其中qn,v为Qn中的第v个词汇;词嵌入操作包括随机初始化词嵌入矩阵以及词向量映射;首先随机初始化一个词嵌入矩阵其中D为词嵌入向量特征的维度,L为词表的大小;词向量映射操作首先需要将Qn中的每个词汇转为one-hot向量,再将one-hot向量与词嵌入矩阵相乘,获得词嵌入向量特征Un=un,1,un,2,...,un,v,...,un,l-1,un,l,设Qn中的每个词汇转都为one-hot向量后,获得的向量集合为Q′n=q′n,1,q′n,2,...,q′n,v,...,q′n,l-1,q′n,k,其中为Q′n中的第v个one-hot向量,对单个one-hot向量q′n,v来说,词嵌入向量的映射规则为un,v=W·q′n,v;S7、将步骤S6中获得的词嵌入特征向量Un=un,1,un,2,...,un,v,...,un,l-1,un,l以及步骤S5中获得的关键词表K=k1,k2,...,km,...,kr-1,kr输入到多源数据融合模型,输出归一化的人格特性得分Yn=yn,1,yn,2,...,yn,m,...,yn,r-1,yn,r,其中,所述多源数据融合模型从输入层到输出层之间的连接结构依次为:长短期记忆网络层、关键词匹配层、全连接层、sigmoid函数层;设当前输入的时间步为t,即输入为词嵌入特征向量un,t,则长短期记忆网络层向前推进一个时间步的计算方法为:It=σWi,*[hn,t-1,un,t]+bi′,Ft=σWf′*[hn,t-1,un,t]+bf′, Ot=σWo′*[hn,t-1,un,t]+bo′,hn,t=Ot*tanhCt, 其中It为输入门,Ft为遗忘门,Ot为输出门,σ为sigmoid函数,为备选记忆细胞,Ct为记忆细胞,hn,t为时间步为t时最终输出的隐向量,Wi′,Wf′,Wc′,Wo′以及bi′,bf′,bc′,bo′为随机初始化参数,使用前向与后向长短期记忆网络对un,t进行编码,得到前向输出的隐向量与后向输出的隐向量,将前向与后向输出的隐向量进行拼接得到h′n,t,以此类推,Un输入后将输出h′n,1,h′n,2,...,h′n,l-1,h′n,l,将输出取平均记为h′n,此时h′n即为长短期记忆网络层的输出;若当前关键词词组为km=km,1,km,2,...,km,c′-1,km,c′,则关键词匹配层的计算方法为:u′n,m=matchUn,km, k′m,i=W*km,i,其中u′n,m为关键词匹配层的输出向量,z∈[1,l],i∈[1,c′]为索引下标,W为步骤S6中介绍的词嵌入矩阵,max_num操作将取前num个最大的值,matchUn,km为关键词匹配函数,计算Un与km的匹配得分;将长短期记忆网络层的输出h′n与关键词匹配层的输出u′n,m做拼接,输入到全连接层以及sigmoid函数层中,计算方法为:yn,m=σWp*[h′n;u′n,m]+bp,其中Wp以及bp为随机初始化变量;S8、将步骤S7中输出的归一化的人格特性得分乘上一个缩放因子,最终输出用户的人格特性得分。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于多源数据融合的智能人格特性评价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。