首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于分类模型的文本难度分类方法、装置及存储介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2022-01-21

公开(公告)日:2024-06-25

公开(公告)号:CN114428858B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/33;G06F16/335;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2022.05.20#实质审查的生效;2022.05.03#公开

摘要:本发明提供了基于分类模型的文本难度分类方法、装置及存储介质,方法包括对第一待训练文本集和第二待训练文本集按照文本难度分类得到精分类的第一训练集和粗分类的第二训练集;将第一训练集和第二训练集输入至初始分类模型中得到文本难度预测值;根据文本难度预测值不同训练集设置自适应损失值;根据损失值对初始分类模型调参得到目标分类模型;将待分类文本输入至目标分类模型进行分类得到文本难度分类结果;能充分利用第一数据集和第二数据集各自的数据特点,并充分挖掘数据的隐含信息,使得目标分类模型能更精准地完成文本难度分类任务,提高文本难度分类结果的准确性。

主权项:1.基于分类模型的文本难度分类方法,其特征在于,包括:对第一待训练文本集按照文本难度进行分类得到第一训练集,对第二待训练文本集按照文本难度进行分类得到第二训练集,所述第一训练集的每个第一文本标注有第一难度等级标签,所述第二训练集的每个第二文本标注有第二难度等级标签,所述第二难度等级标签的种类数量小于所述第一难度等级标签的种类数量;将所述第一训练集和所述第二训练集输入至初始分类模型中进行分类,得到每个所述第一文本的文本难度预测值和每个所述第二文本的文本难度预测值,所述第一文本的文本难度预测值与所述第二文本的文本难度预测值具有相同的表示形式;计算所述第一文本的文本难度预测值在所述第一难度等级标签下等同所述第一文本的文本难度真实值的概率的最大值,作为所述初始分类模型的第一损失值,计算所述第二文本的文本难度预测值在所述第二难度等级标签下等同所述第二文本的文本难度真实值的概率的最大值,作为所述初始分类模型的第二损失值;根据所述第一损失值和所述第二损失值对所述初始分类模型调参,得到目标分类模型;将待分类文本输入至所述目标分类模型进行分类,得到文本难度分类结果;其中,所述计算所述第一文本的文本难度预测值在所述第一难度等级标签下等同所述第一文本的文本难度真实值的概率的最大值,作为所述初始分类模型的第一损失值,包括:计算每种所述第一难度等级标签下的所有所述第一文本的平均难度;计算每种所述第一难度等级标签下的所有所述第一文本的难度方差;根据所述第一文本的文本难度真实值、所述第一文本的平均难度和所述第一文本的难度方差,计算所述第一文本的文本难度预测值在所述第一难度等级标签下等同所述第一文本的文本难度真实值的概率,作为第一概率值;对所述第一概率值进行最大似然估算,得到所述第一概率值的最大值,将所述第一概率值的概率的最大值作为所述初始分类模型的第一损失值;所述计算所述第二文本的文本难度预测值在所述第二难度等级标签下等同所述第二文本的文本难度真实值的概率的最大值,作为所述初始分类模型的第二损失值,包括:计算每种所述第二难度等级标签下的所有所述第二文本的平均难度;计算每种所述第二难度等级标签下的所有所述第二文本的难度方差;根据所述第二文本的文本难度真实值、所述第二文本的平均难度和所述第二文本的难度方差,计算所述第二文本的文本难度预测值在所述第二难度等级标签下等同所述第二文本的文本难度真实值的概率,作为第二概率值;对所述第二概率值进行最大似然估算,得到所述第二概率值的最大值,将所述第二概率值的最大值作为所述初始分类模型的第二损失值;所述计算每种所述第一难度等级标签下的所有所述第一文本的平均难度,还包括:以所述第一文本的平均难度中任意一个作为第一标准平均难度,以所述第一文本的平均难度对应的所述第一难度等级标签的等级值与所述第一标准平均难度对应的所述第一难度等级标签的等级值两者的差值作为第一差值,设置与所述第一差值成正比的第一约束值;计算所述第一文本的平均难度与第一约束值的差值的绝对值,作为新的所述第一文本的平均难度,对所述第一文本的平均难度进行约束;所述计算每种所述第二难度等级标签下的所有所述第二文本的平均难度,还包括:以所述第二文本的平均难度中任意一个作为第二标准平均难度,以所述第二文本的平均难度对应的所述第二难度等级标签的等级值与所述第二标准平均难度对应的所述第二难度等级标签的等级值两者的差值作为第二差值,设置与所述第二差值成正比的第二约束值;计算所述第二文本的平均难度与所述第二约束值的差值的绝对值,作为新的所述第二文本的平均难度,对所述第二文本的平均难度进行约束。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 基于分类模型的文本难度分类方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。