NLP中基于K-best算法和N-gram模型的BERT模型强化方法

导航：龙图腾网> 最新专利技术> NLP中基于K-best算法和N-gram模型的BERT模型强化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京工业大学;绍兴兰红智能科技有限公司

摘要：一种NLP中基于K‑best算法和N‑gram模型的BERT模型强化方法，步骤包括：获取语料库进行预处理，对每个训练样本进行文本切分；按照单字、双字、三字输入拼接形成三元语法输入；使用分词工具，基于K‑best维特比算法获取k个分词序列，进行mask微调；将微调后的N‑gram输入到模型中，进行文本相似度匹配。本发明针对待匹配相似度的数据集，通过数据清洗预处理，能够有效的去除标题等，有效提升了数据的有效程度；采用三元语法输入代替字符输入，能够有效的提升语句评估的合理性；采用pkuseg分词工具，极大地提升了分词的准确率；并在分词中采用K‑best维特比算法，能够在提升分词有效率的基础上，加强模型对正确分词的理解能力。

主权项：1.一种NLP中基于K-best算法和N-gram模型的BERT模型强化方法，其特征是包括以下步骤：步骤1获取语料库中的文本用于训练BERT模型，对文本行预处理，得到新文本；步骤2把步骤1得到的新文本按照单字、双字、三字输入拼接得到三元语法输入；步骤3用分词工具，基于K-best维特比算法获取k个分词序列，进行mask掩码微调；最终得到微调后的N-gram；步骤4将微调后的N-gram输入BERT模型中，进行文本相似度匹配；所述步骤1的步骤包括：步骤101对语料进行清洗；步骤102把语料的原始文本段落拆分，再分别将相邻两个句子拼接成一个句子组，最终得到新文本；同一句子组中，在第一个句子之前添加开始标识符“[CLS]”；分别在每个句子之后添加结束符“[SEP]”；步骤103将新文本切分成一个字符串input1；所述步骤2中，创建三元语法输入，步骤包括：步骤201对原字符串中的字符都左移一个单元，删除开始标识符[CLS]，且末尾添加0，得到新的字符串，记为方法一；按照方法一，对步骤103所得字符串input1处理，得到字符串input2；定义字符串input1为uni-gram；步骤202将字符串input1和字符串input2相应位置字符进行拼接，第二个新字符串bi-gram；相应位置是指两个字符串中顺序相同的字符；步骤203对字符串input2按照方法一进行处理，得到字符串input3；将字符串input1、input2和input3中的相应位置字符进行拼接，得到第三个新字符串tri-gram；相应位置是指三个字符串中顺序相同的字符；步骤204将字符串uni-gram、bi-gram和tri-gram从前到后，依次拼接得到三元语法输入；所述步骤3中，通过分词工具和K-best维特比算法进行微调，步骤包括：步骤301使用pkuseg分词工具，采用k最佳顺序解码即K-best维特比算法来扩展pkuseg：前向传递计算并存储维特比前向分数，这是从开始到当前节点的最佳分数；步骤302对步骤102中生成的句子组，使用扩展的pkuseg分词工具进行分词，一旦具有最佳k个节点，传递结束，即得到k个最佳分词序列，在该最佳分词序列中的词即为有效词；步骤303按照步骤302得到的最佳分词序列，对步骤204中的三元语法输入中的单词进行比较，用不同向量分别作为有效词和无效词的掩码；将无效的三元语法输入嵌入归零，同时保留有效的三元语法输入；步骤304将各个单词进行编码，得到各个单词对应的向量，将各个单词对应的向量乘以对应的掩码，最终得到微调后的N-gram。

全文数据：

权利要求：

百度查询：南京工业大学绍兴兰红智能科技有限公司 NLP中基于K-best算法和N-gram模型的BERT模型强化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种飞机复合材料部件超规范修理专家系统

下一篇：一种注册终端设备的方法及装置

相关技术

一种飞机复合材料部件超规范修理专家系统

一种注册终端设备的方法及装置

一种线控转向系统动态负载模拟装置及控制方法

一种多功能磨毛机

一种带有短路检测的连接器插针机

一种1.0-2.0mm厚度热基镀锌原料的生产方法

挖掘装置极限工况的结构优化方法、装置、设备及介质

一种可组装与分离的混合装置及其使用方法

一种汽车零部件冲压加工用夹具

牙冠的宽度数值确定方法、装置、设备及存储介质

超临界晶圆清洗/干燥介质回收方法以及系统

纵置混动变速箱机械泵

模型相关技术

一种积分模型_晋中职业技术学院_202420672550.7

建筑信息模型管理系统_南通职业大学_202410946875.4

模型推理方法及装置_上海壁仞科技股份有限公司_202410980431.2

一种模型测试方法、装置和用于模型测试的装置_北京搜狗科技发展有限公司_202110688290.3

三维人脸几何模型、人脸彩色模型的构建方法、装置_西安科技大学_202210927602.6

基于BERT模型的医学应用模型训练方法及装置_北京诺道认知医学科技有限公司_202011159163.6

一种判别式语言模型的模型调整方法及装置_清华大学_202210567681.4

图像生成模型、图像生成模型的训练方法及装置_维沃移动通信有限公司_202410812014.7

一种基于生成模型与判别分类模型的图像半监督分类方法_南通大学_202210855415.1

模型设定支援装置、模型设定支援方法及存储介质_本田技研工业株式会社_202410204794.7

N-gram相关技术

基于脉冲电荷注入的N型缓冲电路_江苏鑫康微电子科技有限公司_202410889830.8

一种仿酶催化氧化断裂叔胺C-N键的方法_中国科学院青岛生物能源与过程研究所_202310306820.2

一种胞壁酸及其N-酰基衍生物的制备方法_深圳先进技术研究院_202410687392.7

一种不溶阳极的4N碲电积工艺_江西铜业股份有限公司_202410621342.9

一种N-取代马来酰亚胺的连续化生产工艺_河南省科学院高新技术研究中心_202211407256.5

半导体结构中的III-N至稀土过渡_IQE公开有限公司_201980076626.1

N-哌啶吡唑类化合物及其制备方法和用途_哈尔滨医科大学_202410758753.2

一种假尿苷和N1-甲基假尿苷的制备方法_南京方生和医药科技有限公司_202311710454.3

一种1+1+N的齿轮组掉电位置记忆方法_深圳软艺电子科技有限公司_202410728310.9

低C/N污水氨氮与硝氮同步去除系统_兰州交通大学_202410819037.0

BERT相关技术

基于BERT向量化和依存句法的生成式摘要方法及系统_桂林电子科技大学_202410654697.8

基于Bert架构锂离子电池健康管理预训练大模型的多任务微调方法_重庆大学_202410638772.1

一种基于Bert安全剧本编排的工业控制系统协同防御方法_辽宁大学_202410933267.X

基于乘子交替方向法的BERT模型训练方法及系统_中国人民解放军国防科技大学_202210368115.0

一种应用基于BERT模型的文本内容分类系统的分类方法_齐鲁工业大学(山东省科学院)_202410748775.0

一种基于BERT和外部知识的生成式自动文摘方法_山西中汇数智科技有限公司_202210047258.1

基于BERT预训练模型的中文文本摘要抽取方法及装置_北京邮电大学_202210032641.X

基于BERT和LSTM的知识学习体系推荐方法、设备及介质_山东浪潮科学研究院有限公司_202010560073.1

一种基于Bert语言模型的中文写作短语推荐方法_华东师范大学_202210565638.4

基于改进BERT模型的医学急救文本分类方法及其装置_河北工程大学_202410799804.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

NLP中基于K-best算法和N-gram模型的BERT模型强化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务