买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥工业大学
摘要:本发明提供一种基于企业披露报告的创新文本特征构造方法和系统,涉及本特征挖掘技术领域。本发明基于企业披露报告设计了领域适用的创新文本抽取方法。通过构建特定领域的企业披露报告语料库,基于Word2Vec模型构造了该领域适用的创新词典,实现了对特定领域中披露报告创新文本更准确有效的抽取。这一方法提高了对特定领域披露报告中创新文本抽取的准确性和有效性,有助于更好地理解和利用领域相关信息。同时,通过基于ChatGPT的创新文本推理特征构造方法,可以进一步挖掘基于创新文本所可能获取的推理信息,使最终构造出的多维创新文本特征矩阵对创新信息的表征更加准确、完整。
主权项:1.一种基于企业披露报告的创新文本特征构造方法,其特征在于,包括:S1、获取目标领域的企业披露报告;S2、基于预设的目标领域创新词典对企业披露报告进行抽取得到创新文本,所述预设的目标领域创新词典通过Word2Vec模型构造;S3、基于所述创新文本获取创新文本特征;所述创新文本特征包括初始特征和推理特征,其中,所述推理特征的获取过程包括:通过ChatGPT获取创新文本的推理文本并提取推理文本的主题特征,去除推理文本中的冗余主题特征,得到推理特征;S4、融合初始特征和推理特征,基于Transformer模型,对各特征效用进行自适应赋权,生成多维创新文本特征矩阵;其中,所述S2包括:S21、制定描述目标领域中企业创新相关信息的创新种子词集合;S22、基于获取的企业披露报告构建企业披露报告语料库;S23、采用Word2Vec模型对企业披露语料库进行训练,将企业披露报告中的词汇表示成包含上下文语义信息的词向量;S24、基于所述词向量,计算创新种子词集合中每个创新种子词与其他词汇的余弦相似度,将与种子词相似度大于设定阈值α的词汇筛选出来,得到创新种子词的相似词汇集合,并与创新种子词集合并获得创新词典;S25、遍历创新词典中的创新词,识别并提取企业披露报告中的创新句,获得所述创新文本;所述初始特征包括创新文本的统计特征和主题特征;所述通过ChatGPT获取创新文本的推理文本并提取推理文本的主题特征,去除推理文本中的冗余主题特征,得到推理特征,包括:S321、应用ChatGPT对创新文本进行推理分析,获取ChatGPT的推理文本;S322、将所述推理文本输入BERTopic模型中获取推理文本的主题特征;S323、设计冗余特征去除机制,将推理文本的冗余主题特征去除,获取推理特征。
全文数据:
权利要求:
百度查询: 合肥工业大学 基于企业披露报告的创新文本特征构造方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。