申请/专利权人:北京百度网讯科技有限公司
申请日:2020-06-22
公开(公告)日:2024-04-16
公开(公告)号:CN111753043B
主分类号:G06F16/31
分类号:G06F16/31;G06F16/33;G06F40/289;G06F40/30;G06F16/34
优先权:
专利状态码:有效-授权
法律状态:2024.04.16#授权;2020.10.30#实质审查的生效;2020.10.09#公开
摘要:本发明实施例提出了一种文档数据处理方法、装置和存储介质,涉及人工智能领域。该文档数据处理方法包括:接收查询语句;基于查询语句对文档库进行搜索以确定与查询语句相关的文档;对文档进行语句切分以获得多个切分语句;基于多个切分语句生成多个候选摘要片段;基于查询语句以及多个候选摘要片段中的每个候选摘要片段的属性来对多个候选摘要片段进行打分;基于打分的结果来将多个候选摘要片段中的至少一个候选摘要片段确定为文档的摘要。
主权项:1.一种文档数据处理方法,包括:接收查询语句;基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;对所述文档进行语句切分以获得多个切分语句;基于所述多个切分语句生成多个候选摘要片段;对所述查询语句进行分词以获得多个关键词;对于所述多个候选摘要片段中的每个候选摘要片段,确定所述候选摘要片段中与所述多个关键词匹配的词;针对所述候选摘要片段,确定所述匹配的词中的每个词相对于所述查询语句的重要性参数;基于所述匹配的词的数量和重要性参数来确定所述候选摘要片段的关键词权重,并基于所述匹配的词的数量和所述候选摘要片段的分词粒度来确定所述候选摘要片段的关键词覆盖率;并基于所述候选摘要片段的关键词权重、所述候选摘要片段的关键词覆盖率、所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置,对所述多个候选摘要片段进行打分;以及基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。
全文数据:
权利要求:
百度查询: 北京百度网讯科技有限公司 文档数据处理方法、装置和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。