申请/专利权人:一网互通(北京)科技有限公司
申请日:2024-04-10
公开(公告)日:2024-06-07
公开(公告)号:CN118015644B
主分类号:G06V30/414
分类号:G06V30/414;G06V30/413;G06V30/148;G06F40/295;G06N3/0464;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.06.07#授权;2024.05.28#实质审查的生效;2024.05.10#公开
摘要:本发明实施例中提供了一种基于图片和文字的社交媒体关键词数据分析方法、装置及电子设备,属于数据处理技术领域,该方法包括:对社交媒体数据中包含的文本、图像和视频进行清洗和标准化处理,形成第一文本集合T1和第一图片集合P1;使用深度学习模型对第一图片集合P1进行实体识别,提取第一图片集合P1中图片的实体信息,得到第二文本集合T2;对第一图片集合P1图片中包含的文本内容进行提取,得到第三文本集合T3;基于第一文本集合T1、第二文本集合T2以及第三文本集合T3,生成所述社交媒体数据对应的关键词集合K={K1,K2,…,Kn}。本方案提高了社交媒体关键词数据提取的准确性和全面性。
主权项:1.一种基于图片和文字的社交媒体关键词数据分析方法,其特征在于,包括:对社交媒体数据中包含的文本、图像和视频进行清洗和标准化处理,形成第一文本集合T1和第一图片集合P1;使用深度学习模型对第一图片集合P1进行实体识别,提取第一图片集合P1中图片的实体信息,得到第二文本集合T2,包括:在深度学习模型中设置目标检测子模型,用于识别图片中的实体并定位实体的位置;在目标检测子模型之后设置语义分割子模型,用于识别图片中不同实体的像素级区域;使用训练好的深度学习模型对第一图片集合P1中的每张图片进行预测,提取出图片中的实体信息,包括实体的位置和类别;将提取出的实体信息转换为文本格式,包括实体的类别信息、位置信息以及实体关联信息;将实体的类别信息、位置信息以及实体关联信息组合成文本,生成第二文本集合T2,每个文本条目对应图片集合P1中的一张图片,并包含该图片中识别出的实体信息;对第一图片集合P1图片中包含的文本内容进行提取,得到第三文本集合T3;基于第一文本集合T1、第二文本集合T2以及第三文本集合T3,生成所述社交媒体数据对应的关键词集合K={K1,K2,…,Kn},包括:分别对第一文本集合T1、第二文本集合T2以及第三文本集合T3进行分词处理,得到第一词语集合、第二词语集合和第三词语集合;计算第一词语集合中的词语与第二词语集合和第三词语集合的疏密度ρ: 得到第一疏密度向量;其中,表示词语在第二词语集合中出现的次数,表示词语在第三词语集合中出现的次数;计算第二词语集合中的词语与第一词语集合和第三词语集合的疏密度ρ: 得到第二疏密度向量;其中,表示词语在第一词语集合中出现的次数,表示词语在第三词语集合中出现的次数;计算第三词语集合中的词语与第一词语集合和第二词语集合的疏密度: 得到第三疏密度向量;其中,表示词语在第一词语集合中出现的次数,表示词语在第二词语集合中出现的次数;将第一疏密度向量、第二疏密度向量和第三疏密度向量进行合并,得到合并疏密度向量ρ: 计算关键词柔韧值: ,其中,分别为第一调剂参数、第二调剂参数和第三调节参数;将合并疏密度向量ρ中元素值大于关键词柔韧值的元素所对应的关键词设置为社交媒体数据对应的关键词,并生成关键词集合K={K1,K2,…,Kn}。
全文数据:
权利要求:
百度查询: 一网互通(北京)科技有限公司 基于图片和文字的社交媒体关键词数据分析方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。