【发明公布】一种基于生成式语言模型的文档目录抽取方法及系统_中国科学院软件研究所_202410255048.0

申请/专利权人：中国科学院软件研究所

申请日：2024-03-06

公开（公告）日：2024-06-11

公开（公告）号：CN118170863A

主分类号：G06F16/33

分类号：G06F16/33;G06F40/14;G06F40/258;G06F40/30

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.28#实质审查的生效;2024.06.11#公开

摘要：本发明公开了一种基于生成式语言模型的文档目录抽取方法及系统，属于自然语言处理技术领域。通过全局上下文堆栈存储文档结构目录树形式的已生成的文档结构，通过未来输入窗口输入每个遍历阶段的当前局部文档片段和后续的局部文档片段，将全局上下文堆栈通过全局文档结构表示转化为文本并与当前局部文档片段和后续的局部文档片段的文本进行拼接，输入到生成式语言模型中预测多个局部文档的层次结构。本发明通过全局上下文堆栈解决文档目录抽取对于全局信息的长距离依赖问题，通过未来输入窗口解决生成式语言模型因不了解下文而造成的短视问题，通过全局文档结构表示增强了针对不同类型文档的泛化能力。

主权项：1.一种基于生成式语言模型的文档目录抽取方法，其特征在于，包括以下步骤：构建全局上下文堆栈，用于将已生成的局部文档片段的层次结构以文档结构目录树的形式进行存储；构建未来输入窗口，用于存储每个遍历阶段的当前局部文档片段及其后续局部文档片段；在文档目录抽取时，先将文档解析得到其行级别文档片段列表；在当前遍历阶段，通过未来输出窗口存储从行级别文档片段列表遍历到的当前局部文档片段及其若干个后续局部文档片段；将全局上下文堆栈存储的层次结构信息按照全局文档结构表示转化文本，生成全局上下文堆栈的文本表示；将全局上下文堆栈的文本表示与未来输入窗口中的当前局部文档片段及其后续局部文档片段的文本表示拼接一起，输入到生成式语言模型来预测生成多个局部文档片段的层次结构，并将该生成的多个局部文档片段的层次结构以文档结构目录树的形式存储到全局上下文堆栈中；按照上述步骤完成全部遍历阶段后，实现整个文档的目录抽取。

全文数据：

权利要求：

百度查询：中国科学院软件研究所一种基于生成式语言模型的文档目录抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：外肢体机器人作业策略半物理仿真方法及系统_山东大学_202111470212.2

下一篇：一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

相关技术

外肢体机器人作业策略半物理仿真方法及系统_山东大学_202111470212.2

一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

一种大型铜套离心铸造方法及铸造设备_扬州市雪龙铜制品有限公司_202210381652.9

一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

一种采棉机摘锭座管测量装置_浙江亚嘉采棉机配件有限公司_202410465107.7

一种可变任意尺寸模具的挤吹机及其挤吹工艺_晋江里弗兰新材料有限公司_202410445743.3

一种羽毛片自动翻正装置_汪锐_202111663818.8

一种镁合金阳极表面原位生成ZIF-8涂层的改性方法_桂林理工大学_202210904451.2

一种艾灸熏蒸废气处理工艺_成都天田医疗电器科技有限公司_202210550591.4

一种聚丙烯复合材料及其制备方法和应用_广东聚石化学股份有限公司_202211721781.4

一种弯管内壁自动行走激光堆焊增材设备_广东博盈特焊技术股份有限公司_202410354772.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于生成式语言模型的文档目录抽取方法及系统_中国科学院软件研究所_202410255048.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务