首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于边界增强和信息感知的中文讽刺目标识别方法_四川大学_202410273733.6 

申请/专利权人:四川大学

申请日:2024-03-11

公开(公告)日:2024-06-21

公开(公告)号:CN118227788A

主分类号:G06F16/35

分类号:G06F16/35;G06F16/33;G06F40/30;G06F40/289;G06N3/0455;G06N3/048;G06N3/08

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明涉及讽刺检测技术领域,公开了一种基于边界增强和信息感知的中文讽刺目标识别方法,提出一个基于边界增强和背景信息感知的中文STI模型BI‑NET。BI‑NET主要由边界增强模块、背景信息抽取模块和信息感知模块共三个模块组成。边界增强模块将讽刺语句中的字序列信息和词序列信息进行整合,强化讽刺目标的边界信息。背景信息抽取模块捕捉讽刺目标的背景知识。信息感知模块将背景知识整合进讽刺语句的字向量中,增强讽刺目标的讽刺语义。最后,通过标注层识别讽刺目标。本发明的方法能够更加有效地识别中文文本当中的讽刺目标,并为今后的中文STI研究提供了新的思路。

主权项:1.一种基于边界增强和信息感知的中文讽刺目标识别方法,其特征在于,包括以下步骤:步骤1:数据收集和标注从网络平台收集评论数据,包括非讽刺文本和讽刺文本,利用讽刺文本进行讽刺目标标注,构建包含标注数据的中文STI数据集;步骤2:边界增强构建边界增强模块将单词的语义信息和边界信息嵌入字向量序列中:先通过编码层将中文句子中的每一个字转化为字向量,再将输入的讽刺语句进行分词,得到单词序列并转换为对应的词向量;最后通过注意力层使用的自注意力机制将单词的边界和语义信息嵌入字向量序列中,得到蕴含词信息的讽刺评论字序列向量Vin;步骤3:信息抽取构建信息抽取模块抽取出上下文信息中的背景信息:先通过编码层将各种文本信息转化为向量,再通过分割词将长文本序列切割成为若干个句子,并使用注意力机制提取长文本序列的全局信息;最后通过全连接层对输入数据的向量表示进行维度变换,将其与边界增强之后的评论信息维度对齐,得到由上下文信息整合成的背景信息Vout;步骤4:信息感知构建信息感知模块,采用Transfomer的Encoder结构将背景信息融合进讽刺评论字序列信息中:将蕴含词信息的讽刺评论字序列向量Vin和背景信息Vout拼接作为Encoder结构的输入Vf,将Encoder的输出划分成为两部分:讽刺评论信息相关的部分Ein和背景信息相关的部分,用讽刺评论信息相关的部分Ein作为信息感知模块的输出向量,以此来获得蕴含背景信息的字序列向量;最后再将由边界增强模块获得的蕴含词信息的讽刺评论字序列向量Vin和由信息感知模块输出的蕴含背景信息的字序列向量进行拼接,得到包含字序列信息、词边界信息和背景信息的最终向量序列Ef;步骤5:用一个标准的CRF层来处理最终向量序列Ef,得到最终的讽刺目标识别结果。

全文数据:

权利要求:

百度查询: 四川大学 基于边界增强和信息感知的中文讽刺目标识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。