首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于主题模型和ILP的看病攻略生成方法_浙江大学_201810026521.2 

申请/专利权人:浙江大学

申请日:2018-01-11

公开(公告)日:2020-06-30

公开(公告)号:CN108231200B

主分类号:G16H50/70(20180101)

分类号:G16H50/70(20180101);G06F40/211(20200101);G06F40/295(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.06.30#授权;2018.07.24#实质审查的生效;2018.06.29#公开

摘要:本发明公开了一种基于主题模型和ILP的看病攻略生成方法。步骤如下:1采集疾病知识和用户发布的看病经历数据,从搜狗词库、中医药主题词典、百度百科获取领域知识词典。2将看病经历数据去重后融合入库。3利用疾病知识制作疾病的攻略模板,攻略模板包含九大主题版块。4对看病经历进行实体识别。5对攻略模板和包含实体的看病经历进行联合主题建模,生成主题‑词分布和主题‑实体分布。6利用主题‑词分布为每一主题版块选取若干篇看病经历。7将步骤6中的看病经历进行分句。8利用主题‑词分布和主题‑实体分布,进行ILP优化求解,从而得到每种疾病九大主题版块的看病攻略文摘。

主权项:1.一种基于主题模型和ILP的看病攻略生成方法,其特征在于包括以下步骤:1利用HTML解析器采集疾病知识,采集用户发布的看病经历数据及其疾病标签,从搜狗词库、中医药主题词典、百度百科获取领域知识词典;2利用simhash算法将采集的看病经历数据进行去重后融合入库;3利用采集的疾病知识制作疾病的攻略模板,模板包括症状、检查项目、并发症、饮食、运动、医生、药品、中医、治疗技术九大主题版块;4基于训练好的条件随机场模型对看病经历数据进行实体识别,识别的实体种类为:症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术;5对攻略模板和包含实体的看病经历数据进行联合主题建模,生成主题-词分布和主题-实体分布;步骤5具体为:1生成多项式分布φc~Dirβ';2生成多项式分布ψs~Dirβ;3生成面向版块的主题s对实体的多项式分布ηe~Dirμ;4对于看病经历库中每一篇看病经历t,生成多项式分布θct~Dirα;5生成伯努利分布πx~Betaγ;6生成伯努利分布πy~Betaγ;7对于每一个疾病c,c=1,2,...,C一对于疾病c的攻略模板中的每一个版块ss=1,2,...,SA.对于第n个词语a.根据伯努利分布πx生成0-1变量xdn;b.如果xdn为1,就根据多项式分布ψs生成dcsn;否则,根据多项式分布φc生成dcsn;二对于疾病c的第t个看病经历文本a.对于每种类别的第n个实体,根据多项式分布θct生成其对应隐变量zen,然后根据多项式分布ηe生成该实体;b.对于第n个普通词,根据伯努利分布πy生成ywn,如果ywn为1,就根据平均分布Uniform1,...,K生成zwn,然后根据多项式分布ψs生成wctn;否则,根据多项式分布φc生成wctn;各式中:φc表示面向疾病的主题c对词的多项式分布,Dirβ'表示先验参数为β'的狄利克雷分布;ψs表示面向版块的主题s对词的多项式分布,Dirβ表示先验参数为β的狄利克雷分布;ηe表示面向版块的主题s对每一类实体的多项式分布,Dirμ表示先验参数为μ的狄利克雷分布;θct表示疾病c的看病经历t关于版块主题的多项式分布,Dirα表示先验参数为α的狄利克雷分布;πx和πy分别表示攻略模板文本和看病经历文本的伯努利分布,Betaγ表示先验参数为γ的beta分布;dcsn表示疾病c的攻略模板s中的第n个词;wctn表示疾病c的看病经历t中的第n个词;xdn、ywn分别表示词dcsn、wctn的0-1隐变量;zwn表示词wctn的隐主题;zen表示实体的隐主题;Uniform1,...,K表示主题1,...,K的平均分布;通过吉布斯采样得到面向版块的主题-词分布ψs和面向疾病的主题-词分布φc以及面向版块的主题-实体分布ηe等,计算公式为: 其中,表示当y=1的时候,主题s'赋予词wctn的次数,ny=1,w表示当y=1的时候,赋予了主题s'的词总数;V表示词表大小;表示当y=0的时候,疾病c赋予词wctn的次数,ny=0,w表示当y=0的时候,赋予了疾病c的词总数;表示主题s赋予每一类实体ectn的次数,表示主题s赋予每一类实体的总数,Ne表示每一类实体的总数;6利用主题-词分布为步骤3中提到的每一个主题版块选取最有可能属于该版块的前N篇看病经历;7将步骤6中的看病经历进行分句;8利用步骤5中的主题-词分布和主题-实体分布,确定ILP的目标函数和约束条件,通过ILP优化求解得到每个句子是否属于相应主题版块,从而得到每种疾病九大主题版块的看病攻略文摘;步骤8所述的通过ILP优化求解,进行看病经历文本摘要的生成,对于步骤7所得句子,计算句子的主题分布相关性参数,计算公式为:uj∝Εproφc+1-Εproψs其中uj表示第j个句子的主题分布相关性参数,proφt表示句子由面向疾病的主题-词分布产生的概率,proψs表示句子由面向版块的主题-词分布产生的概率,Ε是权衡参数;对于步骤7所得句子,计算实体的显著性参数;将句子中的实体分为A类实体和B类实体,A类实体指的是具有当前主题标签的实体,B类实体指的是不具有当前主题标签的实体,A类实体的显著性参数计算公式为: 其中vk表示第k个A类实体的显著性参数,表示实体由当前主题产生的概率;B类实体的计算公式如下: 其中vp表示第p个B类实体的显著性参数,表示实体由当前主题产生的概率;ILP优化的目标函数和约束条件为: Subjectto:λ1+λ2+λ3=1,λ3≥0 其中uj表示第j条语句的主题分布相关性参数,sj∈{0,1}表示第j条语句是否被选取为摘要语句,ek∈{0,1}表示第k个A类实体是否出现在摘要当中,Vk表示第k个A类实体的显著性参数,ep∈{0,1}表示第p个B类实体是否出现在摘要当中,vp表示第p个B类实体的显著性参数,λ1,λ2,λ3分别表示三项权衡系数,lj表示第j条语句的长度,L表示摘要文本的总长度,Okj表示第k个A类实体是否出现在第j个句子当中,Opj表示第p个B类实体是否出现在第j个句子中。

全文数据:一种基于主题模型和ILP的看病攻略生成方法技术领域[0001]本发明涉及实体识别、主题模型、自动文本摘要领域,具体涉及一种基于主题模型和ILP的看病攻略生成方法。背景技术[0002]互联网+医疗模式正迅速改变着大众访医寻药的方式,越来越多的用户会在医患交流平台和社区发布基于真实看病经历的经验分享内容,与其他用户进行疾病知识和康复经验的探讨交流,但是大量的异源、异构的经验分享数据,尚未进行有效的整理分析和知识挖掘,使得用户难以快速获取想要的医疗知识和看病经验。鉴于上述情况,本专利专注于利用条件随机场模型进行看病经历的实体识别、利用主题模型进行文本筛选、基于ILP优化进行多文档自动摘要,从而为常见慢性病生成看病攻略。发明内容[0003]本发明的目的是利用条件随机场模型进行看病经历的实体识别,通过攻略模板和包含实体的看病经历进行疾病主题联合建模,从而实现看病经历的筛选,最终通过ILP优化问题求解得到常见慢性病的看病攻略文摘。[0004]本发明的目的是通过以下技术方案来实现的:[0005]本发明首先公开了一种基于主题模型和ILP的看病攻略生成方法,包括以下步骤:[0006]1利用HTML解析器采集疾病知识,采集用户发布的看病经历数据及其疾病标签,从搜狗词库、中医药主题词典、百度百科获取领域知识词典。[0007]2利用simhash算法将采集的看病经历数据进行去重后融合入库。[0008]3利用采集的疾病知识制作疾病的攻略模板,模板包括症状、检查项目、并发症、饮食、运动、医生、药品、中医、治疗技术九大主题版块。[0009]4基于训练好的条件随机场模型对看病经历数据进行实体识别,识别的实体种类为:症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术。[0010]5对攻略模板和包含实体的看病经历数据进行联合主题建模,生成主题-词分布和主题-实体分布。[0011]6利用主题-词分布为步骤3中提到的每一个主题版块选取最有可能属于该版块的前N篇看病经历。[0012]7将步骤6中的看病经历进行分句。[0013]8利用步骤5中的主题-词分布和主题实体分布,确定ILP的目标函数和约束条件,通过ILP优化求解得到每个句子是否属于相应主题版块,从而得到每种疾病九大主题版块的看病攻略文摘。[0014]优选的,步骤1所述的HTML解析器为Java的HTML解析器jsoup。[0015]优选的,步骤1所述的领域知识词典,具体包括症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这十一个词典。[0016]优选的,步骤4所述的基于训练好的条件随机场模型对看病经历数据进行实体识另Ij,具体步骤为:[0017]步骤4-1:随机选取若干看病经历数据[0018]步骤4-2:将步骤4-1中的看病经历数据,进行逐字标记,标记的类型具体为B_sym表示症状实体起始,B_insp表示检查项目实体起始,B_comp表示并发症实体起始,B_food表示食品实体起始,B_sport表示运动实体起始,B_doct表示医生实体起始,B_hosp表示医院实体起始,B_drug表示药品实体起始,B_med表示中草药起始,B_pre表示方剂实体起始,B_thrp表示治疗技术实体起始,I_sym表示症状实体内,I_insp表示检查项目实体内,I_comp表示并发症实体内,I_f〇〇d表示食品实体内,I_sport表示运动实体内,I_doct表示医生实体内,I_hosp表示医院实体内,I_drug表示药品实体内,I_med表示中草药内,I_pre表示方剂实体内,I_thrp表示治疗技术实体内,0表示不包含在任何实体之中。[0019]步骤4-3:对标记的看病经历数据进行特征提取,特征包括字的上下文特征,以及使用领域知识词典构建的特征,字的上下文特征即为当前字的前后共5个字是否出现,使用领域知识词典构建的特征即为当前字在症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这十一个词典中出现的频率。[0020]步骤4-4:利用CRF++工具,对标注的看病经历数据进行训练,得到训练好的CRF模型。[0021]步骤4-5:利用步骤4-4中所述的训练好的CRF模型,对所有看病经历数据进行实体识别。[0022]优选的,步骤5具体为:[0023]1生成多项式分布Φc〜Dir®’)[0024]2生成多项式分布屯〜Dir⑹[0025]3生成面向版块的主题s对实体的多项式分布%〜Dirμ[0026]⑷对于看病经历库中每一篇看病经历t,生成多项式分布θβ〜ϋίΓα[0027]5生成伯努利分布Jix〜Betaγ[0028]⑹生成伯努利分布%〜Betaγ[0029]⑺对于每一个疾病c,(c=I,2,...,C[0030]—对于疾病:的攻略模板中的每一个版块ss=1,2,...,S[0031]A.对于第η个词语[0032]a.根据伯努利分布:πχ生成〇-1变量Xdn[0033]b.如果Xdn为1,就根据多项式分布its生成dcsn;否贝1J,根据多项式分布ΦC生成dcsn[0034]二对于疾病c的第t个看病经历文本[0035]a.对于每种类别的第η个实体,根据多项式分布Θ。*生成其对应隐变量Ζ3η,然后根据多项式分布%生成该实体[0036]b.对于第η个普通词,根据伯努利分布%生成ywn,如果ywn为1,就根据平均分布Uniforml,...,K生成zwn,然后根据多项式分布也生成Wctn;否则,根据多项式分布Φc生成Wctn[0037]各式中:Φc表示面向疾病的主题c对词的多项式分布,DirΦ’)表示先验参数为β’的狄利克雷分布;队表示面向版块的主题s对词的多项式分布,Dirβ表示先验参数为β的狄利克雷分布表示面向版块的主题S对每一类实体的多项式分布,Dirμ表示先验参数为μ的狄利克雷分布;表示疾病c的看病经历t关于版块主题的多项式分布,DirCt表示先验参数为α的狄利克雷分布;分别表示攻略模板文本和看病经历文本的伯努利分布,Betaγ表不先验参数为γ的beta分布;Icsn表不疾病c的攻略模板s中的第η个词;Wctn表不疾病C的看病经历t中的第η个词;Xdn、ywn分别表示词dc;sn、Wctn的0-1隐变量。Zwn表示词Wctn的隐主题;zen表示实体的隐主题。Uniforml,...,K表示主题(1,...,K的平均分布。[0038]通过吉布斯采样得到面向版块的主题-词分布队和面向疾病的主题-词分布Φc以及面向版块的主题-实体分布%等,计算公式为:[0042]其中:表示当y=l的时候,主题s’赋予词Wctn的次数,ny=i,w表示当y=l的时候,赋予了主题s’的词总数。V表示词表大小。.表示当y=0的时候,疾病c赋予词Wcrtn的次数,ny=Q,w表示当y=0的时候,赋予了疾病c的词总数,表示主题s赋予每一类实体6_的次数,表示主题s赋予每一类实体的总数,Ne3表示每一类实体的总数。[0043]优选的,步骤6所述的为每一个主题版块选取最有可能属于该版块的前N篇看病经历,选取方法为利用步骤5中的主题-词分布,计算每篇看病经历属于每一个主题版块的概率,计算公式为:[0045]式中,Pcts表示第c种疾病的第t篇看病经历属于第s个主题的概率,pctn表示第c种疾病的第t篇看病经历中的第η个词属于主题s的概率。Nw表示看病经历t中TF-IDF值最大的前若干个词。[0046]将计算所得的概率进行排序,得到概率值最大的若干篇看病经历。[0047]优选的,步骤7所述的分句方法为基于正则表达式,根据标点符号对看病经历文本进行分句。[0048]优选的,步骤8所述的通过ILP优化求解,进行看病经历文本摘要的生成。对于步骤7所得句子,计算句子的主题分布相关性参数,计算公式为:[0050]其中表示第j个句子的主题分布相关性参数,ProΦ〇表示句子由面向疾病的主题-词分布产生的概率,pro队表示句子由面向版块的主题-词分布产生的概率,E是权衡参数。[0051]对于步骤7所得句子,计算实体的显著性参数。[0052]将句子中的实体分为A类实体和B类实体,A类实体指的是具有当前主题标签的实体。B类实体指的是不具有当前主题标签的实体。A类实体的显著性参数计算公式为:[0054]其中vk表示第k个A类实体的显著性参数,表示实体由当前主题产生的概率。[0055]B类实体的计算公式如下:[0057]其中vP表示第p个B类实体的显著性参数,Pr0Z7tv表示实体由当前主题产生的概率。[0058]ILP优化的目标函数和约束条件为:[0064]其中Uj表示第j条语句的主题分布相关性参数,Sje{〇,1}表示第j条语句是否被选取为摘要语句,eke{〇,1}表示第k个A类实体是否出现在摘要当中,Vk表示第k个A类实体的显著性参数,ePe{〇,1}表示第p个B类实体是否出现在摘要当中,vP表示第p个B类实体的显著性参数,A1J2A3分别表示三项权衡系数,Ij表示第j条语句的长度,L表示摘要文本的总长度。Okj表示第k个A类实体是否出现在第j个句子当中。0„表示第p个B类实体是否出现在第j个句子中。[0065]本发明相对于现有技术的有益效果为:[0066]1提出了一种新的基于实体的疾病主题联合模型,该模型对重要的医疗概念和一般词区别对待。[0067]2提出了一种基于句子的主题分布相关性和实体的显著性进行ILP优化求解,从而解决多文档自动摘要任务的方法。[0068]3所采用的方法具有一般性,可广泛应用于专业领域面向主题的多文档自动摘要任务。[0069]4所采用的的方法可实现文本的实体识别、主题分析以及自动文摘[0070]等多种文本分析与知识挖掘步骤。附图说明[0071]图1为看病攻略方案的总体框架图。[0072]图2为基于实体的疾病主题联合模型的概率图模型表示。[0073]图3为生成的糖尿病的看病攻略。具体实施方式[0074]以下结合附图和具体实施例对本发明作进一步详细说明。[0075]—种基于主题模型和ILP的看病攻略生成方法,其特征在于包括以下步骤:[0076]1利用Java的HTML解析器jsoup采集疾病知识,采集用户发布的看病经历数据及其疾病标签,从搜狗词库、中医药主题词典、百度百科获取领域知识词典。具体包括症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这十一个词典。[0077]2利用simhash算法将采集的看病经历进行去重后融合入库。去重的步骤包括:计算每一篇看病经历的数字签名,计算每两篇看病经历的数字签名的海明距离,海明距离在3以内的看病经历视为相同或重复,删除相同或重复的看病经历。[0078]3利用采集的疾病知识制作疾病的攻略模板,模板包括症状、检查项目、并发症、饮食、运动、医生、药品、中医、治疗技术九大主题版块。主题版块的数量可以根据用户需求进行调整。[0079]4基于训练好的条件随机场模型对看病经历进行实体识别,识别的实体种类为:症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术。训练与识别的具体步骤如下:[0080]步骤4-1:随机选取若干看病经历数据。[0081]步骤4-2:将步骤4-1中的看病经历数据,进行逐字标记,标记的类型具体为B_sym表示症状实体起始,B_insp表示检查项目实体起始,B_comp表示并发症实体起始,B_food表示食品实体起始,B_sport表示运动实体起始,B_doct表示医生实体起始,B_hosp表示医院实体起始,B_drug表示药品实体起始,B_med表示中草药起始,B_pre表示方剂实体起始,B_thrp表示治疗技术实体起始,I_sym表示症状实体内,I_insp表示检查项目实体内,I_comp表示并发症实体内,I_f〇〇d表示食品实体内,I_sport表示运动实体内,I_doct表示医生实体内,I_hosp表示医院实体内,I_drug表示药品实体内,I_med表示中草药内,I_pre表示方剂实体内,I_thrp表示治疗技术实体内,0表示不包含在任何实体之中。[0082]步骤4-3:对标记的看病经历数据进行特征提取,特征包括字的上下文特征,以及使用领域知识词典构建的特征。字的上下文特征即为当前字的前后共5个字是否出现,使用领域知识词典构建的特征即为当前字在症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这十一个词典中出现的频率。[0083]步骤4-4:利用CRF++工具,对标注的看病经历数据进行训练,得到训练好的CRF模型。[0084]步骤4-5:利用步骤4-4中所述的训练好的CRF模型,对所有看病经历数据进行实体识别。[0085]5对攻略模板和包含实体的看病经历进行联合主题建模,其概率图模型表示见图2。通过吉布斯采样得到面向版块的主题-词分布队和面向疾病的主题-词分布Φc以及面向版块的主题-实体分布%等,计算公式为:[0089]其中:表示当y=l的时候,主题s’赋予词Wctn的次数,ny=i,w表示当y=l的时候,赋予了主题S’的词总数。V表示词表大小。表示当y=〇的时候,疾病C赋予词Wcrtn的次数,ny=Q,w表示当y=0的时候,赋予了疾病c的词总数,表示主题s赋予每一类实体6_的次数,表示主题s赋予每一类实体的总数,Ne3表示每一类实体的总数。[0090]6利用步骤5中的^为步骤3中提到的每一个主题版块选取最有可能属于该主题版块的前N篇看病经历。计算公式为:[0092]式中,Pcts表示第c种疾病的第t篇看病经历属于第s个主题的概率,pctn表示第c种疾病的第t篇看病经历中的第η个词属于主题s的概率。Nw表示看病经历t中TF-IDF值最大的前若干个词。[0093]将计算所得的概率进行排序,得到概率值最大的若干篇看病经历。[0094]7将步骤6中的看病经历进行分句。使用正则表达式[。?!?;;!〜]进行分句,并设置句子最小长度阈值。得到每种疾病的每个主题下的句子集合。[0095]8利用步骤5中的面向版块的主题-词分布、面向疾病的主题-词分布和面向版块的主题-实体分布,确定ILP的目标函数和约束条件,通过ILP优化求解得到每个句子是否属于相应主题版块,从而得到每种疾病九大主题版块的看病攻略文摘。[0096]首先,对于步骤7所得句子,计算句子的主题分布相关性参数,计算公式为:[0098]其中表示第j个句子的主题分布相关性参数,ProΦ〇表示句子由面向疾病的主题-词分布产生的概率,pro队表示句子由面向版块的主题-词分布产生的概率,E是权衡参数。[0099]然后,对于步骤7所得句子,计算实体的显著性参数。[0100]将句子中的实体分为A类实体和B类实体,A类实体指的是具有当前主题标签的实体,B类实体指的是不具有当前主题标签的实体。比如说症状这一主题下的症状实体就是A类实体,而症状主题下的药品实体则为第二类实体。A类实体的显著性参数计算公式为:[0102]其中vk表示第k个A类实体的显著性参数,表示实体由当前主题产生的概率。[0103]B类实体的计算公式如下:[0105]其中vP表示第p个B类实体的显著性参数,表示实体由当前主题产生的概率。[0106]最后,根据上述参数,将多篇看病经历的自动文档摘要任务转化为ILP优化问题,其目标函数和约束条件为:[0112]其中Uj表示第j条语句的主题分布相关性参数,Sje{〇,1}表示第j条语句是否被选取为摘要语句,eke{〇,1}表示第k个A类实体是否出现在摘要当中,Vk表示第k个A类实体的显著性参数,ePe{〇,1}表示第P个B类实体是否出现在摘要当中,Vp表示第P个B类实体的显著性参数,A1J2A3分别表示三项权衡系数,Ij表示第j条语句的长度,L表示摘要文本的总长度。Okj表示第k个A类实体是否出现在第j个句子当中。0„表示第p个B类实体是否出现在第j个句子中。[0113]使用IBM的cplex工具求解该优化问题,确定每个句子是否被选为摘要语句。[0114]下面以实施例为基础,对上述方法做进一步说明,实施例中省略的步骤均按照上述方法进行实现。[0115]实施例[0116]参考图1、图2和图3,本发明一种基于主题模型和ILP的看病攻略生成方法包括以下步骤:[0117]1利用java的HTML解析器jsoup从专业的在线医患交流平台等采集各种常见慢性病的疾病知识;采集用户发布的看病经历数据,包括其疾病标签;从搜狗词库、中医药主题词典、百度百科等获取领域知识词典。获取各类词条包含疾病词条7191个、症状词条6693个、检查词条1954个、并发症词条13415个、食品词条10063个、中草药词条595个、方剂词条499个等。[0118]2利用simhash算法将采集的看病经历进行去重后融合入库。计算每种看病经历的simhash数字签名,将数字签名的海明距离在3以内的看病经历视为重复文本,去重后存入Mysql数据库。[0119]3利用采集的疾病知识制作疾病的攻略模板,模板包括症状、检查项目、并发症、饮食、运动、医生、药品、中医、治疗技术等九大主题版块。每个版块下的文本内容为疾病的相关疾病知识,或者推荐信息。主题版块的数量,可以根据用户的需求进行调整。[0120]4对看病经历数据集进行实体标注,使用CRF++工具对标注的数据集进行CRF模型的训练,训练中使用字的上下文信息和当前字在词典中出现的频率作为特征。基于训练好的CRF模型对所有看病经历进行实体识别,识别的实体种类为:症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术,将识别的实体及其类型存入Mysql数据库。每种实体的主题标签对应关系为:症状实体的主题标签为症状,检查项目实体的主题标签为检查项目,食品实体的主题标签为饮食,运动实体的主题标签为运动,医生、医院的主题标签为医生,中草药、方剂的主题标签为中医,治疗技术的主题标签为治疗技术。[0121]5对攻略模板和包含实体的看病经历进行联合主题建模,通过吉布斯采样得到面向面向版块的主题-词分布也和面向疾病的主题-词分布Φc以及面向版块的主题-实体分布%,%共有九个,与九个主题版块一一对应,如nsy主题-症状实体分布)、nf。主题-食品实体分布等。[0122]6利用步骤5中的主题-词分布队为步骤3中提到的每一个主题版块选取最有可能属于该版块的前N篇看病经历,队矩阵是二维的,第一维大小为主题个数,第二维大小为词表大小。例如为糖尿病的症状主题版块选取最有可能属于该版块的前50篇看病看病经历,计算方式为,对于糖尿病的每一篇看病经历,根据队矩阵计算前k个词属于该主题的概率之积,将所有的概率之积进行排序,排名为前50的看病经历被选取。[0123]7将步骤6中的看病经历进行分句。使用正则表达式[。?!?;;!〜]进行分句,并设置句子最小长度阈值。得到每种疾病的每个主题下的句子集合,与句子中所包含的实体及实体的主题标签。[0124]8利用步骤5中的屯、Φc和%,确定ILP的目标函数和约束条件,使用IBMcplex工具,对该ILP优化问题求解得到每个句子是否属于相应主题版块,将属于该主题版块的句子集合组合为摘要。将每种疾病所有的主题版块的摘要组合为该疾病的看病攻略文摘。图3为生成的糖尿病看病攻略。

权利要求:1.一种基于主题模型和ILP的看病攻略生成方法,其特征在于包括以下步骤:1利用HTML解析器采集疾病知识,采集用户发布的看病经历数据及其疾病标签,从搜狗词库、中医药主题词典、百度百科获取领域知识词典;2利用simhash算法将采集的看病经历数据进行去重后融合入库;3利用采集的疾病知识制作疾病的攻略模板,模板包括症状、检查项目、并发症、饮食、运动、医生、药品、中医、治疗技术九大主题版块;4基于训练好的条件随机场模型对看病经历数据进行实体识别,识别的实体种类为:症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术;5对攻略模板和包含实体的看病经历数据进行联合主题建模,生成主题-词分布和主题-实体分布;6利用主题-词分布为步骤3中提到的每一个主题版块选取最有可能属于该版块的前N篇看病经历;7将步骤6中的看病经历进行分句;8利用步骤5中的主题-词分布和主题实体分布,确定ILP的目标函数和约束条件,通过ILP优化求解得到每个句子是否属于相应主题版块,从而得到每种疾病九大主题版块的看病攻略文摘。2.如权利要求1所述的基于主题模型和ILP的看病攻略生成方法,其特征在于步骤1所述的HTML解析器为Java的HTML解析器jsoup。3.如权利要求1所述的基于主题模型和ILP的看病攻略生成方法,其特征在于步骤1所述的领域知识词典,具体包括症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这十一个词典。4.如权利要求1所述基于主题模型和ILP的看病攻略生成方法,其特征在于步骤4所述的基于训练好的条件随机场模型对看病经历数据进行实体识别,具体步骤为:步骤4-1:随机选取若干看病经历数据;步骤4-2:将步骤4-1中的看病经历数据,进行逐字标记,标记的类型具体为B_sym表示症状实体起始,B_insp表示检查项目实体起始,B_comp表示并发症实体起始,B_food表示食品实体起始,B_sport表示运动实体起始,B_doct表示医生实体起始,B_hosp表示医院实体起始,B_drug表示药品实体起始,B_med表示中草药起始,B_pre表示方剂实体起始,B_thrp表示治疗技术实体起始,I_sym表示症状实体内,I_insp表示检查项目实体内,I_comp表示并发症实体内,I_f〇〇d表示食品实体内,I_sport表示运动实体内,I_doct表示医生实体内,I_hosp表示医院实体内,I_drug表示药品实体内,I_med表示中草药内,I_pre表示方剂实体内,I_thrp表示治疗技术实体内,0表示不包含在任何实体之中;步骤4-3:对标记的看病经历数据进行特征提取,特征包括字的上下文特征,以及使用领域知识词典构建的特征,字的上下文特征即为当前字的前后共5个字是否出现,使用领域知识词典构建的特征即为当前字在症状、检查项目、并发症、食品、运动、医生、医院、药品、中草药、方剂、治疗技术这i^一个词典中出现的频率;步骤4-4:利用CRF++工具,对标注的看病经历数据进行训练,得到训练好的CRF模型;步骤4-5:利用步骤4-4中所述的训练好的CRF模型,对所有看病经历数据进行实体识别。5.如权利要求1所述基于主题模型和ILP的看病攻略生成方法,其特征在于步骤5具体为:1生成多项式分布Φ。〜Dirβ’);⑵生成多项式分布屯〜Dir⑹;⑶生成面向版块的主题s对实体的多项式分布%〜Dirμ;⑷对于看病经历库中每一篇看病经历t,生成多项式分布Qct-Dirα;⑸生成伯努利分布〜〜Betaγ;⑹生成伯努利分布%〜Betaγ;⑺对于每一个疾病c,(c=l,2,...,C一对于疾病c的攻略模板中的每一个版块ss=I,2,...,SA.对于第η个词语a.根据伯努利分布:πχ生成0-1变量Xdn;b.如果Xdn为1,就根据多项式分布也生成dcsn;否则,根据多项式分布Φc生成dcsn;二对于疾病c的第t个看病经历文本a.对于每种类别的第η个实体,根据多项式分布Θ。*生成其对应隐变量Ζ3η,然后根据多项式分布%生成该实体;b.对于第η个普通词,根据伯努利分布%生成ywn,如果ywn为1,就根据平均分布UniformI,...,K生成Zwn,然后根据多项式分布也生成Wc;tn;否则,根据多项式分布Φ。生成Wc;tn;各式中:Φ。表示面向疾病的主题C对词的多项式分布,DirΦ’)表示先验参数为β’的狄利克雷分布;队表示面向版块的主题s对词的多项式分布,Dir〇3表示先验参数为β的狄利克雷分布;%表示面向版块的主题s对每一类实体的多项式分布,Dirμ表示先验参数为μ的狄利克雷分布;表示疾病c的看病经历t关于版块主题的多项式分布,Dirα表示先验参数为α的狄利克雷分布;Jix和Jiy分别表示攻略模板文本和看病经历文本的伯努利分布,Betaγ表不先验参数为γ的beta分布;Icsn表不疾病c的攻略模板s中的第η个词;Wctn表不疾病C的看病经历t中的第η个词;Xdn、ywn分别表示词1。;^、'\¥。1;11的〇-1隐变量;2»11表示词¥。1;11的隐主题;Zen表示实体的隐主题;Uniformd,...,K表示主题(1,...,K的平均分布;通过吉布斯采样得到面向版块的主题-词分布队和面向疾病的主题-词分布Φc以及面向版块的主题-实体分布%等,计算公式为:其中,表示当y=1的时候,主题s’赋予词Wcitn的次数,ny=i,w表示当y=1的时候,赋予了主题s’的词总数;V表示词表大小;表示当y=〇的时候,疾病c赋予词1^的次数,ny=o,w表示当y=0的时候,赋予了疾病c的词总数;表示主题s赋予每一类实体〜*„的次数,表示主题S赋予每一类实体的总数,Ne3表示每一类实体的总数。6.如权利要求1所述基于主题模型和ILP的看病攻略生成方法,其特征在于步骤6所述的为每一个主题版块选取最有可能属于该版块的前N篇看病经历,选取方法为利用步骤5中的主题-词分布,计算每篇看病经历属于每一个主题版块的概率,计算公式为:式中,Pm表示第c种疾病的第t篇看病经历属于第s个主题的概率,表示第c种疾病的第t篇看病经历中的第η个词属于主题s的概率。Nw表示看病经历t中TF-IDF值最大的前若干个词;将计算所得的概率进行排序,得到概率值最大的若干篇看病经历。7.如权利要求1所述基于主题模型和ILP的看病攻略生成方法,其特征在于步骤7所述的分句方法为基于正则表达式,根据标点符号对看病经历文本进行分句。8.如权利要求1所述基于主题模型和ILP的看病攻略生成方法,其特征在于步骤8所述的通过ILP优化求解,进行看病经历文本摘要的生成,对于步骤7所得句子,计算句子的主题分布相关性参数,计算公式为:UjCeEproΦc+I-Eproφ8其中W表示第j个句子的主题分布相关性参数,ProΦ〇表示句子由面向疾病的主题-词分布产生的概率,pro也表示句子由面向版块的主题-词分布产生的概率,E是权衡参数;对于步骤7所得句子,计算实体的显著性参数;将句子中的实体分为A类实体和B类实体,A类实体指的是具有当前主题标签的实体,B类实体指的是不具有当前主题标签的实体,A类实体的显著性参数计算公式为:其中Vk表示第k个A类实体的显著性参数,隶示实体由当前主题产生的概率;B类实体的计算公式如下:其中vP表示第P个B类实体的显著性参数:表示实体由当前主题产生的概率;ILP优化的目标函数和约束条件为:Subject七〇:入1+入2+入3=1:其中Uj表示第j条语句的主题分布相关性参数,Sje{〇,1}表示第j条语句是否被选取为摘要语句,eke{〇,1}表示第k个A类实体是否出现在摘要当中,Vk表示第k个A类实体的显著性参数,epe{〇,1}表示第p个B类实体是否出现在摘要当中,vP表示第p个B类实体的显著性参数,A1J2J3分别表示三项权衡系数,Ij表示第j条语句的长度,L表示摘要文本的总长度,Okj表示第k个A类实体是否出现在第j个句子当中,0„表示第p个B类实体是否出现在第j个句子中。

百度查询: 浙江大学 一种基于主题模型和ILP的看病攻略生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。