一种对长文本进行压缩的处理方法和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京深势科技有限公司

摘要：本发明实施例涉及一种对长文本进行压缩的处理方法和装置，所述方法包括：构建第一、第二评分模型和第一决策模型并训练；模型训练后接收任意长文本和对应的问题文本；对长文本和问题文本进行文本降噪、文本规范化、文句转换处理得到文句序列问题文句；将文句序列和问题文句输入第一评分模型进行处理得到相关性评分序列；基于第二评分模型对文句序列的各文句的语义连贯性进行评分；将文句序列对应的文句特征向量序列输入第一决策模型进行处理得到决策类型序列；将各个具体为删除的决策类型对应的文句从长文本中删除，并将完成删除的长文本作为压缩文本输出。本发明提供的长文本压缩机制有助提高LLM模型的任务处理质量和处理效率。

主权项：1.一种对长文本进行压缩的处理方法，其特征在于，所述方法包括：构建第一评分模型、第二评分模型和第一决策模型；并对所述第一、第二评分模型和所述第一决策模型进行训练；所述第一评分模型用于对模型输入的文句序列中的每个文句与模型输入的问题文句之间的内容相关性进行评分并输出对应的相关性评分序列；所述第二评分模型用于对模型输入的文句对中的主文句与参考文句之间的语义连贯性进行评分并输出对应的连贯性评分；所述第一决策模型用于根据模型输入的文句特征向量序列进行文句保留删除决策处理并输出对应的决策类型序列；在所述第一、第二评分模型以及所述第一决策模型都完成模型训练后，接收任意长文本和对应的问题文本作为对应的第一长文本和第一问题文本；对所述第一长文本和所述第一问题文本进行文本降噪和文本规范化处理得到对应的第二长文本和第二问题文本；并对所述第二长文本和第二问题文本进行文句转换得到对应的第一文句序列和第一问题文句；所述第一文句序列包括多个第一文句；将所述第一文句序列和所述第一问题文句输入所述第一评分模型进行处理得到对应的第一相关性评分序列；并将所述第一评分模型处理过程中生成的与所述第一文句序列的各个所述第一文句对应的文句编码向量作为对应的第一文句编码向量；所述第一相关性评分序列包括多个第一相关性评分；所述第一相关性评分与所述第一文句一一对应；将各个所述第一文句作为对应的第一主文句；并由所述第一主文句在所述第一文句序列中的前一个和后一个所述第一文句拼接而成的新文句作为对应的第一参考文句；并由所述第一主文句和所述第一参考文句组成一个对应的第一文句对输入所述第二评分模型进行处理得到对应的第一连贯性评分；所述第一连贯性评分与所述第一主文句对应；由各个所述第一文句对应的所述第一文句编码向量、所述第一相关性评分和所述第一连贯性评分组成一个对应的第一文句特征向量；并由得到的所有所述第一文句特征向量顺序排序组成对应的第一文句特征向量序列；并将所述第一文句特征向量序列输入所述第一决策模型进行处理得到对应的第一决策类型序列；所述第一决策类型序列包括多个第一决策类型；所述第一决策类型包括保留和删除；所述第一决策类型与所述第一文句一一对应；将各个具体为删除的所述第一决策类型对应的所述第一文句从所述第二长文本中删除；并将完成文句删除的所述第二长文本作为对应的压缩文本输出；其中，所述第一评分模型的模型输入端包括第一模型输入端和第二模型输出端，所述第一模型输入端用于接收模型输入的文句序列A，所述第二模型输出端用于接收模型输入的问题文句b；所述第一评分模型的模型输出端用于输出对应的相关性评分序列C；所述文句序列A由多个文句ai顺序排序而成，1≤文句索引i≤N，N为所述文句序列A的序列长度；所述相关性评分序列C由多个相关性评分ci顺序排序而成，所述相关性评分ci与所述文句ai一一对应；所述第一评分模型包括第一编码器、第二编码器、第一多头自注意网络和第一全连接网络；所述第一编码器基于Transformer模型的编码器结构实现；所述第一编码器的输入端与所述第一模型输入端连接，输出端与所述第一多头自注意网络的第一输入端连接；所述第一编码器用于对所述文句序列A进行特征编码得到对应的序列编码张量X；并将所述序列编码张量X向所述第一多头自注意网络发送；所述序列编码张量X由多个文句编码向量xi组成；所述文句编码向量xi与所述文句ai一一对应；所述第二编码器基于Transformer模型的编码器结构实现；所述第二编码器的输入端与所述第二模型输入端连接，输出端与所述第一多头自注意网络的第二输入端连接；所述第二编码器用于对所述问题文句b进行编码得到对应的文句编码向量y；并将所述文句编码向量y向所述第一多头自注意网络发送；所述第一多头自注意网络包括多个并行的第一自注意模块si；所述第一自注意模块si与所述文句编码向量xi一一对应；所述第一多头自注意网络用于将所述序列编码张量X的各个所述文句编码向量xi和所述文句编码向量y组成一个对应的自注意输入向量zi；并将各个所述自注意输入向量zi输入对应的所述第一自注意模块si进行自注意运算得到对应的自注意输出向量oi；并由得到的所有所述自注意输出向量oi组成对应的自注意输出向量序列O向所述第一全连接网络发送；所述自注意输出向量序列O包括多个所述自注意输出向量oi，所述自注意输出向量oi与所述文句编码向量xi一一对应；所述第一多头自注意网络的各个所述第一自注意模块si用于根据预设的Q、K、V向量转换矩阵对输入的所述自注意输入向量zi进行Q、K、V向量转换得到对应的查询向量qi、键向量ki和值向量vi；并根据得到的所述查询向量qi、所述键向量ki和所述值向量vi进行自注意运算得到对应的所述自注意输出向量oi；所述第一全连接网络基于一个或多个顺次连接的全连接层实现；所述第一全连接网络用于根据所述自注意输出向量序列O进行回归计算得到对应的所述相关性评分序列C并输出；所述第二评分模型的模型输入端用于接收文句对D；所述第二评分模型的模型输出端用于输出对应的连贯性评分e；所述文句对D包括主文句dmain和参考文句dconf；所述连贯性评分e与所述主文句dmain对应；所述第二评分模型基于Transformer模型实现，由第三编码器、第一解码器和第二全连接网络组成；所述第三编码器、所述第一解码器和所述第二全连接网络分别基于Transformer模型的编码器、解码器和全连接网络实现；所述第三编码器的输入端与模型输入端连接，输出端与所述第一解码器的输入端连接；所述第一解码器的输出端与所述第二全连接网络的输入端连接；所述第二全连接网络的输出端与模型输出端连接；所述第三编码器用于对所述文句对D进行特征编码得到对应的文句对编码张量G，并将所述文句对编码张量G向所述第一解码器发送，所述文句对编码张量G包括主文句编码向量gmain和参考文句编码向量gconf；所述第一解码器用于根据所述文句对编码张量G对主文句与参考文句的语义连贯性进行推演解码得到对应的解码特征张量向所述第二全连接网络发送；所述第二全连接网络用于根据所述解码特征张量进行回归计算得到对应的所述连贯性评分e并输出；所述第一决策模型的模型输入端用于接收文句特征向量序列P；所述第一决策模型的模型输出端用于输出对应的决策类型序列U；所述文句特征向量序列P由多个文句特征向量pi顺序排序而成；所述文句特征向量pi与所述文句ai一一对应；所述文句特征向量pi由对应的所述文句编码向量xi、所述相关性评分ci和所述连贯性评分e组成；所述决策类型序列U由多个决策类型ui顺序排序而成；所述决策类型ui包括保留和删除；所述决策类型ui与所述文句ai一一对应；所述第一决策模型基于LSTM模型实现。

全文数据：

权利要求：

百度查询：北京深势科技有限公司一种对长文本进行压缩的处理方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电驱机械振动辅助负压可弯导引鞘

下一篇：一种硅胶产品检测及分选装置

相关技术

一种电驱机械振动辅助负压可弯导引鞘

一种硅胶产品检测及分选装置

一种拉杆切割打孔集成设备及加工工艺

一种玉米栽培供水装置

一种坐浴盆

水封逆止阀及其使用方法

一种电子设备、下载模式触发方法以及可读存储介质

一种便于安装的电力计量装置

具有处于低速档的分动箱的混合动力的动力总成系统和操作

一种大数据支持的交通碳排放监测方法及监测系统

一种SDP雨水收集系统

一种电池耐火防护装置及可行驶设备

进行相关技术

由心脏起搏设备进行的起搏治疗的递送_美敦力公司_201980016346.1

一种可以进行样品旋转的水浴装置_山东简易达电子科技有限公司_202420165169.1

一种便于进行散热的互感器_大连新安越电力设备有限公司_202411090088.0

防护棚架及对防护棚架进行拆除的方法_中铁第五勘察设计院集团有限公司_202011299711.5

对正极活性材料进行修复的方法及其用途_当升科技(常州)新材料有限公司_202410707177.9

一种便于进行固定的焊接装置_合肥昵坦鼓环保科技有限公司_202323186719.2

通过动态选择投影角度进行物品检查_德尔塔瑞私人有限公司_201980041954.8

基于显著性检测进行字幕定位_英特尔公司_202311774122.1

使用基于CHEMFET传感器阵列的系统进行细胞分析_生命科技公司_201980059143.0

单宁酸偶联纳米氧化石墨烯进行碳纤维的表面改性方法_陕西科技大学_202410679618.9

处理相关技术

图像处理装置和图像处理方法_株式会社基恩士_202410229501.0

浆料处理设备及浆料处理方法_贺利氏贵金属技术(中国)有限公司_202310229380.5

基片处理装置和基片处理方法_东京毅力科创株式会社_202380019176.9

水处理方法和水处理装置_奥加诺株式会社_202380019807.7

基板处理装置及基板处理方法_株式会社斯库林集团_202410260196.1

基板处理方法以及基板处理装置_株式会社斯库林集团_202110590165.9

基板处理方法和基板处理装置_东京毅力科创株式会社_202380019350.X

基片处理装置和基片处理方法_东京毅力科创株式会社_202410220543.8

热处理装置及热处理方法_株式会社斯库林集团_202410110689.7

处理盒_珠海天威飞马打印耗材有限公司_202410731934.6

压缩相关技术

压缩机_珠海格力节能环保制冷技术研究中心有限公司_202410830571.1

涡轮压缩机_株式会社神户制钢所_202111157993.X

空气压缩装置_罗伯特·博世有限公司_202080068023.X

使用可压缩性预测的叶节点压缩_高通股份有限公司_202380018941.5

光线追踪中的数据压缩和解压缩方法和系统_想象技术有限公司_202410260422.6

压缩机脚垫、压缩机固定结构和空调器_广东美的制冷设备有限公司_201711130400.4

压缩机储液器、压缩机及空调系统_九江汉峰科技有限公司_202410816994.8

压缩机阀片、压缩机及空调器_珠海凌达压缩机有限公司_201910577301.3

一种压缩机排气结构及压缩机_苏州中成新能源科技股份有限公司_202420230242.9

用于氨生产的多压缩装置_诺沃皮尼奥内技术股份有限公司_202380019747.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种对长文本进行压缩的处理方法和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务