买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:基于大语言模型集成的网络留言文本要素抽取方法、电子设备和计算机可读存储介质,属于文本信息要素抽取领域,为了解决在要素粒度进行集成,及时并过滤识别错误要素,提高生成要素的准确性的问题,技术要点是将任一候选要素中在任一基模型上的置信度以及终止token的置信度作为证据推理规则的辨识框架的命题的置信度,根据任一基模型在辨识框架的命题的置信度,生成任一基模型的证据;根据任一基模型的证据以及任一基模型的权重,计算任一基模型的证据的加权信度分布;根据任一基模型的证据的加权信度分布,将全部基模型的证据进行融合,得到融合证据,将融合证据中概率最大的元素作为集成结果,效果是提高抽取结果准确性。
主权项:1.一种基于大语言模型集成的网络留言文本要素抽取方法,其特征在于,用于执行问政留言要素抽取任务,所述要素包括实体要素和或关系要素,所述抽取任务包括实体识别任务和或关系识别任务;所述抽取方法应用于大语言模型,所述大语言模型包括至少两个词表不同的基模型,其中,文本描述待抽取要素的文本,指令描述待抽取要素的文本中要素的类型和输出格式,回答描述基模型按照指令输出的抽取的要素;所述基于大语言模型集成的网络留言文本要素抽取方法,包括S100.向基模型中输入样本token序列,其中,样本token序列包括指令、文本以及已抽取要素的token序列;其中,不同基模型的所述输入样本token序列相同,不同基模型词表不同;其中,若所述样本token序列不具有已抽取要素,则已抽取要素的token序列为空;S200.任一基模型根据所述输入样本token序列,输出k个候选要素的token序列;S300.计算全部的基模型输出的全部的候选要素中,任一候选要素中在任一基模型上的置信度,以及计算终止token的置信度;S400.对任一基模型分配权重;S500.将所述任一候选要素在任一基模型上的置信度以及终止token的置信度作为证据推理规则的辨识框架的命题的置信度,根据任一基模型在所述辨识框架的命题的置信度,生成任一基模型的证据;S600.根据所述任一基模型的证据以及所述任一基模型的权重,计算任一基模型的证据的加权信度分布;S700.根据所述任一基模型的证据的加权信度分布,将全部基模型的证据进行融合,得到融合证据,将所述融合证据中概率最大的元素作为集成结果,若所述集成结果为一候选要素,则将所述候选要素作为已抽取要素,并记录在所述回答中,迭代执行步骤S100-S700;若所述集成结果为中止token,则停止循环,将所述回答中记录的所述已抽取要素为所述大语言模型输出的抽取要素进行输出。
全文数据:
权利要求:
百度查询: 大连理工大学 基于大语言模型集成的网络留言文本要素抽取方法、电子设备和计算机可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。