首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Word2Vec的企业舆情数据分析方法 

申请/专利权人:上海品见智能科技有限公司

申请日:2020-11-16

公开(公告)日:2024-04-19

公开(公告)号:CN112347230B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/953;G06F40/216;G06F40/242

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2021.04.02#实质审查的生效;2021.02.09#公开

摘要:本发明公开了一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤,本发明方法通过Word2Vec扩充情感词典,并结合词频、文本长度和阅读量有效的分析文本情绪倾向,避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外,本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法,用于分析企业的舆论的情绪倾向,从而帮助企业或管理人员有效的分析舆情,进而避免品牌和客户信任危机。

主权项:1.一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤;具体为,步骤1,收集整理步骤:定义文本训练集合停用词,并对文本数据集中每个中文文本分词和过滤停用词进行预处理,得到预处理后的文本训练集;步骤2,确定情感词典步骤:定义情感词典,并通过Word2Vec对预处理的文本集训练,结合余弦相似度算法对情感词典未收录的词补充,得到扩充情感词典;步骤3,得出结论步骤:通过扩充的情感词典和改进的情感词典计算方法,计算预处理后文本集的情感值,得到企业舆论的情感值;步骤1中,包括步骤1.1:定义文本数据Txt={txt1,txt2,……,txtnum},其中,num为文本总数;步骤1.2:定义文本停用词集S={st1,st2,……,stsn},其中,sn为停用词数量;步骤1.3:对Txt中文本分词并过滤停用词S,文本预处理后得ft={ft1,ft2,……,ftnum},其中ftp={fw1,fw2,……,fwm}为第p篇文本分词后的集合,p∈[1,num];步骤2中,包括步骤2.1:定义初始情感词典,包含情感词集ew={ew1,ew2,……,ews}和对应的情感值集步骤2.2:将文本集ft中每个文本去除重复词,得到词集t={t1,t2,……,tb};步骤2.3:通过Word2Vec训练文本集ft得到t中各词的词向量,并以余弦相似度计算两两词之间的相似度,从而得到任意词相似度大于β的相似集和其对应的相似度其中,wb∈t,wb对应的相似度为其中β默认为0.7;步骤2.4:设c为循环变量,用于遍历词集t,并赋值为1;步骤2.5:当循环变量c=b时,则执行步骤2.6,否则执行步骤2.10;步骤2.6:当且时,则执行步骤2.7,否则执行步骤2.9;步骤2.7:计算词tc的情感值,其公式为: 步骤2.8:将词tc加入情感ew=ew∪{tc},词典中;步骤2.9:循环变量c=c+1,返回执行步骤2.5;步骤2.10:得到补充情感词集ew和对应的情感值集ev;步骤3中,包括步骤3.1:设r为循环变量,用于遍历文本集ft,并赋值为1;步骤3.2:当循环变量r=num时,则执行步骤3.3,否则执行步骤3.5;步骤3.3:计算文本的情感值,其公式为: 式中,fj是词j在文本ftr中的词频,rcr是文本ftr的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量,dlr是文本ftr的长度,avgdl是文本集ft中文本的平均长度;步骤3.4:循环变量r=r+1,返回执行步骤3.2;步骤3.5:通过公式计算文本集ft中的情感值,得到企业舆论的情感值。

全文数据:

权利要求:

百度查询: 上海品见智能科技有限公司 一种基于Word2Vec的企业舆情数据分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。