首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

NLP中基于K-best算法和N-gram模型的BERT模型强化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京工业大学;绍兴兰红智能科技有限公司

摘要:一种NLP中基于K‑best算法和N‑gram模型的BERT模型强化方法,步骤包括:获取语料库进行预处理,对每个训练样本进行文本切分;按照单字、双字、三字输入拼接形成三元语法输入;使用分词工具,基于K‑best维特比算法获取k个分词序列,进行mask微调;将微调后的N‑gram输入到模型中,进行文本相似度匹配。本发明针对待匹配相似度的数据集,通过数据清洗预处理,能够有效的去除标题等,有效提升了数据的有效程度;采用三元语法输入代替字符输入,能够有效的提升语句评估的合理性;采用pkuseg分词工具,极大地提升了分词的准确率;并在分词中采用K‑best维特比算法,能够在提升分词有效率的基础上,加强模型对正确分词的理解能力。

主权项:1.一种NLP中基于K-best算法和N-gram模型的BERT模型强化方法,其特征是包括以下步骤:步骤1获取语料库中的文本用于训练BERT模型,对文本行预处理,得到新文本;步骤2把步骤1得到的新文本按照单字、双字、三字输入拼接得到三元语法输入;步骤3用分词工具,基于K-best维特比算法获取k个分词序列,进行mask掩码微调;最终得到微调后的N-gram;步骤4将微调后的N-gram输入BERT模型中,进行文本相似度匹配;所述步骤1的步骤包括:步骤101对语料进行清洗;步骤102把语料的原始文本段落拆分,再分别将相邻两个句子拼接成一个句子组,最终得到新文本;同一句子组中,在第一个句子之前添加开始标识符“[CLS]”;分别在每个句子之后添加结束符“[SEP]”;步骤103将新文本切分成一个字符串input1;所述步骤2中,创建三元语法输入,步骤包括:步骤201对原字符串中的字符都左移一个单元,删除开始标识符[CLS],且末尾添加0,得到新的字符串,记为方法一;按照方法一,对步骤103所得字符串input1处理,得到字符串input2;定义字符串input1为uni-gram;步骤202将字符串input1和字符串input2相应位置字符进行拼接,第二个新字符串bi-gram;相应位置是指两个字符串中顺序相同的字符;步骤203对字符串input2按照方法一进行处理,得到字符串input3;将字符串input1、input2和input3中的相应位置字符进行拼接,得到第三个新字符串tri-gram;相应位置是指三个字符串中顺序相同的字符;步骤204将字符串uni-gram、bi-gram和tri-gram从前到后,依次拼接得到三元语法输入;所述步骤3中,通过分词工具和K-best维特比算法进行微调,步骤包括:步骤301使用pkuseg分词工具,采用k最佳顺序解码即K-best维特比算法来扩展pkuseg:前向传递计算并存储维特比前向分数,这是从开始到当前节点的最佳分数;步骤302对步骤102中生成的句子组,使用扩展的pkuseg分词工具进行分词,一旦具有最佳k个节点,传递结束,即得到k个最佳分词序列,在该最佳分词序列中的词即为有效词;步骤303按照步骤302得到的最佳分词序列,对步骤204中的三元语法输入中的单词进行比较,用不同向量分别作为有效词和无效词的掩码;将无效的三元语法输入嵌入归零,同时保留有效的三元语法输入;步骤304将各个单词进行编码,得到各个单词对应的向量,将各个单词对应的向量乘以对应的掩码,最终得到微调后的N-gram。

全文数据:

权利要求:

百度查询: 南京工业大学 绍兴兰红智能科技有限公司 NLP中基于K-best算法和N-gram模型的BERT模型强化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。