申请/专利权人:上海海洋大学
申请日:2021-06-17
公开(公告)日:2024-06-21
公开(公告)号:CN113239111B
主分类号:G06F16/26
分类号:G06F16/26;G06F40/295;G06F40/30;G06F40/216;G06F40/211;G06F40/284;G06N3/0442;G06N3/047;G06N5/025;G06F16/36
优先权:
专利状态码:有效-授权
法律状态:2024.06.21#授权;2021.08.27#实质审查的生效;2021.08.10#公开
摘要:本发明提供了一种基于知识图谱的网络舆情可视化分析方法及系统,所述方法包括:收集原始数据并对原始数据进行预处理;根据预处理后的数据构建领域本体模型的关系;对数据进行存储和加工,构建知识图谱;对构建的知识图谱进行细粒度分析;以及查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析。本发明可提高数据存储和可视化分析效率,并实现将网络舆情数据自动转化为知识进行知识存储和知识共享。
主权项:1.一种基于知识图谱的网络舆情可视化分析方法,其特征在于,所述方法包括以下步骤:收集原始数据并对原始数据进行预处理;根据预处理后的数据构建领域本体模型的关系;对数据进行存储和加工,构建知识图谱,具体包括:文本分词处理:用自然语言处理工具分析两个词是否具有聚合关系;计算上下文相似性:使用Jaccard指数作为相似性的度量,并用上下文相似性的和来表示;计算聚合关系:通过上下文窗口的大小,对比调整词汇的相似性得分,得分越高,聚合概率越高;合并相同及相似节点:合并相同节点以保证数据的唯一性约束;合并相似节点通过上述文本分词处理计算词的相似度得分,得分系数高的节点进行聚合;扩大网络新闻数据的类别,根据以上步骤进行迭代,进行网络新闻的数据更新;对构建的知识图谱进行细粒度分析,具体包括:利用BiLSTM-CRF模型进行命名实体识别,识别出热点网络新闻中人物、地点;利用jieba算法对文本分词进行词性标注,挖掘网络新闻的语义信息;对上述网络新闻中人物、地点数据和网络新闻的语义信息数据使用数组分别进行词频统计;以及查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析,具体包括:将待查询数据以具体时间点和时间间隔作为一级查询条件;添加二级查询条件,具体包括:以媒体类型作为二级查询条件,查询图数据库关键词为“时间-网址-媒体类型”,并统计网络新闻事件发生的趋势及占比情况;以媒体名称作为二级查询条件,查询图数据库关键词为“时间-网址-媒体名称”,并统计网络新闻事件发生的趋势;以地域分布情况作为二级查询条件,查询图数据库关键词为“时间-网址-地域”,并统计网络新闻事件发生的趋势;以网络新闻摘要内容作为二级查询条件,查询图数据库关键词为“时间-网址-摘要”,统计时间段范围内热门网络新闻相似摘要信息的内容,并按照频次增序排列;以网络新闻标题作为二级查询条件,查询图数据库关键词为“时间-网址-标题”,统计时间段范围内传播途径最多的网络新闻信息内容;查询关系结果以知识图谱方式进行展示,涉及信息类别有网络新闻网站、网络新闻标题、媒体名称、媒体类别、地区、网络新闻发布时间。
全文数据:
权利要求:
百度查询: 上海海洋大学 一种基于知识图谱的网络舆情可视化分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。