买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:桂林电子科技大学
摘要:一种英语作文内容切题分析方法,其特征是:第一,通过英语作文切题分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断待批作文是否切题。
主权项:一种英语作文内容切题分析方法,其特征是:第一,通过英语作文切题分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断待批作文是否切题;其特征是:所述英语作文切题分析评分模块的计算公式如下:1训练作文内容主题概率分布计算公式训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算公式如下:在计算公式1中,|训练作文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵,是一个i行的矩阵,i=1,2,…,n,j=1,2,…,k;特征词是训练作文内容中与训练作文主题相关的单词;特征词数是训练作文内容中与训练作文主题相关单词的总数;训练作文i是训练作文集中第i篇训练作文,训练作文集的训练作文总数是n;主题j是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;主题抽样数是训练作文内容主题概率分布的对称狄利克雷分布,取值是0.1;2训练作文主题特征词概率分布计算公式训练作文主题特征词概率分布是指训练作文主题在特征词上的概率分布,它的计算公式如下:在计算公式2中,|训练作文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩阵,是一个j列的矩阵,i=1,2,…,m,j=1,2,…,k;特征词是训练作文内容中与训练作文主题相关的单词;特征词数是训练作文内容中与训练作文主题相关单词的总数;训练作文特征词i是训练作文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集的特征词总数是m;特征词数是指训练作文集与作文范文集的特征词总数,取值是m;特征词抽样数是训练作文主题特征词概率分布的对称狄利克雷分布,取值是0.01;主题j是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;3作文范文内容主题概率分布计算公式作文范文内容主题概率分布是指作文范文内容在其主题上的概率分布,它的计算公式如下:在计算公式3中,|作文范文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵,是一个i行的矩阵,i=1,2,…,z,j=1,2,…,k;特征词是作文范文内容中与作文范文主题相关的单词;特征词数是作文范文内容中与作文范文主题相关单词的总数;作文范文i是作文范文集中第i篇作文范文,作文范文集的作文范文总数是z;如果输入是训练作文集与作文范文集,主题j是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;如果输入是待批作文集与作文范文集,主题j是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;主题抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.1;4基于训练作文的作文范文主题特征词概率分布计算公式基于训练作文的作文范文主题特征词概率分布是指以训练作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的概率分布,它的计算公式如下:在计算公式4中,|作文范文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩阵,是一个j列的矩阵,i=1,2,…,r,j=1,2,…,k;作文范文特征词i是作文范文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集特征词总数是r;主题j是训练作文集与作文范文集中第j个作文主题,训练作文集与作文范文集的作文主题总数是k;特征词是作文范文内容中与作文范文主题相关的单词;特征词数是指训练作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01;5训练作文切题判断值计算公式训练作文切题判断值是指从训练作文内容主题概率分布中查找出训练作文最大主题,来判断训练作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:在计算公式5中,训练作文最大主题是指计算公式1计算出的训练作文内容主题概率分布最大的训练作文主题,作文范文最大主题是指计算公式3计算出的作文范文内容主题概率分布最大的作文范文主题;6训练作文切题度计算公式训练作文切题度是指训练作文内容与其作文主题要求的接近程度,它的计算公式如下:在计算公式6中,主题j是训练作文集与作文范文集中第j个作文主题,作文范文i是作文范文集中第i篇作文范文;训练作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;训练作文切题度取值范围在0到2之间,如果训练作文内容越切题,则训练作文切题度值就越大;如果训练作文内容完全不切题时,则训练作文切题度值为0;如果训练作文内容完全切题时,则训练作文切题度值为2;7基于待批作文的作文范文主题特征词概率分布计算公式基于待批作文的作文范文主题特征词概率分布是指以待批作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的分布概率,它的计算公式如下:在计算公式7中,|作文范文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩阵,是一个j列的矩阵,i=1,2,…,r,j=1,2,…,k;作文范文特征词i是作文范文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集特征词总数是r;主题j是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01;8待批作文内容主题概率分布计算公式待批作文内容主题概率分布是指待批作文内容在其主题上的概率分布,它的计算公式如下:在计算公式8中,|待批作文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵,是一个i行的矩阵,i=1,2,…,u,j=1,2,…,k;待批作文i是待批作文集中第i篇待批作文,待批作文集的待批作文总数是u;主题j是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;特征词是作文内容中与作文主题相关的单词;主题抽样数是待批作文内容主题概率分布的对称狄利克雷分布,取值是0.1;9待批作文主题特征词概率分布计算公式待批作文主题特征词概率分布是指待批作文主题在特征词上的概率分布,它的计算公式如下:在计算公式9中,|待批作文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩阵,是一个j列的矩阵,i=1,2,…,r,j=1,2,…,k;待批作文特征词i是待批作文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集的特征词总数是v;主题j是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是v;特征词抽样数是待批作文主题特征词概率分布的对称狄利克雷分布,取值是0.01;10待批作文切题判断值计算公式待批作文切题判断值是指从待批作文内容主题概率分布中查找出待批作文最大主题,来判断待批作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:在计算公式10中,待批作文最大主题是指计算公式8计算出的待批作文内容主题概率分布最大的待批作文主题,作文范文最大主题是指计算公式3计算出的作文范文内容主题概率分布最大的作文范文主题;11待批作文切题度计算公式待批作文切题度是指待批作文内容与其作文主题的接近程度,它的计算公式如下:在计算公式11中,主题j是待批作文集与作文范文集中第j个作文主题,作文范文i是作文范文集中第i篇作文范文;待批作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;待批作文切题度取值范围在0到2之间,如果待批作文内容越切题,则待批作文切题度值就越大;如果待批作文内容完全不切题时,则待批作文切题度值为0;如果待批作文内容完全切题时,则待批作文切题度值为2。
全文数据:一种英语作文内容切题分析方法一技术领域[0001]本发明涉及自然语言处理技术、英语作文内容分析技术,具体是一种英语作文内容是否切题的分析方法。二背景技术[0002]传统的文本分析方法主要有潜在语义分析方法、概率潜在语义分析方法和潜在狄利克雷分布方法。潜在语义分析方法是一种能够分析词之间内在语义联系的方法,它在文本和词之间加入了一个语义维度。然而,随着概率统计方法的出现,概率潜在语义分析方法取代了潜在语义分析方法成为文本分析的新方法。但是,概率潜在语义分析方法对训练文本集之外的文本分析较难获得准确分析结果。因此,在概率潜在语义分析方法的基础上,人们又提出了潜在狄利克雷分布方法。潜在狄利克雷分布是一种有监督的主题分析方法,它在分析文本内容与主题关系时,用于训练文本要求具有相同的主题,当用相同主题的训练文本来分析其他主题文本时,难以得到文本内容与主题是否相关的准确分析结果。因此,在实际英语教学中分析英语作文内容是否切题,需要一种英语作文内容切题分析方法,通过它来分析英语作文内容是否切题和英语作文内容的切题度,这对提高英语作文自动批阅水平具有重要的现实意义。三发明内容[0003]英语作文内容是作者按照作文题目与写作要求,用正确的英语语言阐述自己思想与观点的文字表达,作文主题是作文题目与作文写作要求的总称,即作文内容所需要表达的思想与论述。本发明的目的是提供一种英语作文内容切题分析方法,即分析作文内容是否围绕作文主题进行阐述作者的思想。该分析方法包括英语作文切题分析训练模块、英语作文切题分析评分模块,其总体流程如图1所示,其处理流程是:第一,通过英语作文切题分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断待批作文是否切题。本发明分析方法的英语作文切题分析训练模块、英语作文切题分析评分模块计算公式定义如下:[0004]1训练作文内容主题概率分布计算公式[0005]训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算公式如下:[0006][0007]在公式(1中,I训练作文,分配给主题」特征词数+主题抽样数I^是一个i行j列的矩阵是一个i行的矩阵,i=l,2,…,n,j=l,2,···,k;特征词是作文内容中与作文主题相关的单词;训练作文i是训练作文集中第i篇训练作文,训练作文集的训练作文总数是η;主题』是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;主题抽样数是训练作文内容主题概率分布的对称狄利克雷分布,取值是〇.1。[0008]2训练作文主题特征词概率分布计算公式[0009]训练作文主题特征词概率分布是指训练作文主题在特征词上的概率分布,它的计算公式如下:[0010][0011]在公式(2中,I训练作文特征词1分配给主题」次数+特征词抽样数I^是一个i行j列的矩阵,是一个j列的矩阵,i=l,2,…,m,j=l,2,···,k;特征词是作文内容中与作文主题相关的单词;训练作文特征词i是训练作文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集的特征词总数是m;特征词数是指训练作文集与作文范文集的特征词总数,取值是m;特征词抽样数是训练作文主题特征词概率分布的对称狄利克雷分布,取值是0.01;主题:是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k。[0012]3作文范文内容主题概率分布计算公式[0013]作文范文内容主题概率分布是指作文范文内容在其主题上的概率分布,它的计算公式如下:[0014][0015]在公式(3中,I作文范文,分配给主题」特征词数+主题抽样数I^是一个i行j列的矩阵,是一个i行的矩阵,i=l,2,…,z,j=1,2,…,k;特征词是作文内容中与作文主题相关的单词;作文范文i是作文范文集中第i篇作文范文,作文范文集的作文范文总数是z;如果输入是训练作文集与作文范文集,主题:是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;如果输入是待批作文集与作文范文集,主题^是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;主题抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.1。[0016]⑷基于训练作文的作文范文主题特征词概率分布计算公式[0017]基于训练作文的作文范文主题特征词概率分布是指以训练作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的概率分布,它的计算公式如下:[0018][0019]在公式4中,I作文范文特征词1分配给主题^欠数+特征词抽样数k是一个i行j列的矩阵:是一个j列的矩阵,i=l,2,…,r,j=l,2,-_,k;作文范文特征词i是作文范文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集特征词总数是r;主题:是训练作文集与作文范文集中第j个作文主题,训练作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指训练作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01。[0020]⑶训练作文切题判断值计算公式[0021]训练作文切题判断值是指从训练作文内容主题概率分布中查找出训练作文最大主题,来判断训练作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:[0022][0023]在公式⑶中,训练作文最大主题是指公式⑴计算出的训练作文内容主题概率分布最大的训练作文主题,作文范文最大主题是指公式3计算出的作文范文内容主题概率分布最大的作文范文主题。[0024]⑶训练作文切题度计算公式[0025]训练作文切题度是指训练作文内容与其作文主题要求的接近程度,它的计算公式如下:[0026][0027]在公式6中,主题」是训练作文集与作文范文集中第j个作文主题,作文范文i是作文范文集中第i篇作文范文;训练作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;训练作文切题度取值范围在0到2之间,如果训练作文内容越切题,则训练作文切题度值就越大;如果训练作文内容完全不切题时,则训练作文切题度值为〇;如果训练作文内容完全切题时,则训练作文切题度值为2。[0028]⑵基于待批作文的作文范文主题特征词概率分布计算公式[0029]基于待批作文的作文范文主题特征词概率分布是指以待批作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的分布概率,它的计算公式如下:[0030][0031]在公式7中,I作文范文特征词1分配给主题j次数+特征词抽样数I^是一个i行j列的矩阵,是一个j列的矩阵,i=l,2,…,r,j=l,2,-_,k;作文范文特征词i是作文范文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集特征词总数是r;主题:是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01。[0032]⑶待批作文内容主题概率分布计算公式[0033]待批作文内容主题概率分布是指待批作文内容在其主题上的概率分布,它的计算公式如下:[0034][0035]在公式⑶中,I待批作文1分配给主题漘征词数+主题抽样数I^是一个i行j列的矩阵,是一个i行的矩阵,i=l,2,…,11,」=1,2,一,1^待批作文1是待批作文集中第1篇待批作文,待批作文集的待批作文总数是u;主题:是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;特征词是作文内容中与作文主题相关的单词;主题抽样数是待批作文内容主题概率分布的对称狄利克雷分布,取值是0.1。[0036]9待批作文主题特征词概率分布计算公式[0037]待批作文主题特征词概率分布是指待批作文主题在特征词上的概率分布,它的计算公式如下:[0038][0039]在公式⑶中,I待批作文特征词汾配给主题戒数+特征词抽样数I^是一个i行j列的矩阵,:是一个j列的矩阵,1=1,2,一,1',」=1,2,-_,1^;待批作文特征词1是待批作文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集的特征词总数是v;主题』是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是V;特征词抽样数是待批作文主题特征词概率分布的对称狄利克雷分布,取值是〇.Ol。[0040]10待批作文切题判断值计算公式[0041]待批作文切题判断值是指从待批作文内容主题概率分布中查找出待批作文最大主题,来判断待批作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:[0042][0043]在公式(10中,待批作文最大主题是指公式⑶计算出的待批作文内容主题概率分布最大的待批作文主题,作文范文最大主题是指公式3计算出的作文范文内容主题概率分布最大的作文范文主题。[0044]11待批作文切题度计算公式[0045]待批作文切题度是指待批作文内容与其作文主题的接近程度,它的计算公式如下:[0046][0047]在公式(11中,主题」是待批作文集与作文范文集中第j个作文主题,作文范文,是作文范文集中第i篇作文范文;待批作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;待批作文切题度取值范围在0到2之间,如果待批作文内容越切题,则待批作文切题度值就越大;如果待批作文内容完全不切题时,则待批作文切题度值为0;如果待批作文内容完全切题时,则待批作文切题度值为2。[0048]四)具体步骤[0049]本发明分析方法的英语作文切题分析训练模块、英语作文切题分析评分模块处理流程如下所述。[0050]如图2所示,所述的英语作文切题分析训练模块处理流程如下:[0051]S0201开始;[0052]S0202读入作文范文集;[0053]S0203读入训练作文集;[0054]S0204去除作文范文集和训练作文集中的停用词、标点、缩写词;[0055]S0205计算训练作文集和作文范文集中特征词的主题概率分布;[0056]S0206设置最大迭代次数;[0057]S0207如果迭代次数大于最大迭代次数,则转S0211操作;[0058]S0208根据公式(1计算训练作文内容主题概率分布,公式(2计算训练作文主题特征词概率分布,公式3计算作文范文内容主题概率分布,公式4计算基于训练作文的作文范文主题特征词概率分布;[0059]S0209计算训练作文内容主题概率分布与训练作文主题特征词概率分布的乘积,计算作文范文内容主题概率分布与作文范文主题特征词概率分布的乘积;[0060]S0210迭代次数增加1,转S0207;[0061]S0211保存训练作文内容主题概率分布、训练作文主题特征词概率分布、作文范文内容主题概率分布、基于训练作文的作文范文主题特征词概率分布;[0062]S0212从训练作文内容主题概率分布中找出训练作文最大主题,从作文范文内容主题概率分布中找出作文范文最大主题;[0063]S0213根据公式⑶计算训练作文切题判断值;[0064]S0214根据公式⑶计算训练作文切题度;[0065]S0215分析计算出的训练作文切题判断值、训练作文切题度与训练作文人工切题判断值、训练作文人工切题度的一致性得到英语作文切题度分析标准;[0066]S0216输出英语作文切题度分析标准;[0067]S0217结束。[0068]如图3所示,所述的英语作文切题分析评分模块处理流程如下:[0069]S0301开始;[0070]S0302读入作文范文集;[0071]S0303读入待批作文;[0072]S0304去除作文范文集和待批作文中的停用词、标点、缩写词;[0073]S0305计算待批作文和作文范文集中特征词的主题概率分布;[0074]S0306设置最大迭代次数;[0075]S0307如果迭代次数大于最大迭代次数,则转S0311操作;[0076]S0308根据公式(7计算待批作文内容主题概率分布,公式⑶计算待批作文主题特征词概率分布,公式3计算作文范文内容主题概率分布,公式9计算基于待批作文的作文范文主题特征词概率分布;[0077]S0309计算待批作文内容主题概率分布与待批作文主题特征词概率分布的乘积,计算作文范文内容主题概率分布与作文范文主题特征词概率分布的乘积;[0078]S0310迭代次数增加1;[0079]S0311保存待批作文内容主题概率分布、待批作文主题特征词概率分布、作文范文内容主题概率分布、基于待批作文的作文范文主题特征词概率分布;[0080]S0312从待批作文内容主题概率分布中找出待批作文最大主题,从作文范文内容主题概率分布中找出作文范文最大主题;[0081]S0313根据公式10计算待批作文切题判断值;[0082]S0314根据公式(11计算训练作文切题度;[0083]S0315输出待批作文切题结果;[0084]S0316结束。四)附图说明[0085]图1是本发明方法的总体处理流程图;[0086]图2是本发明方法的英语作文切题分析训练模块处理流程图;[0087]图3是本发明方法的英语作文切题分析评分模块处理流程图。五具体实施方式[0088]本发明的一种英语作文内容切题分析方法的具体实施方式分为如下两个步骤。[0089]第一步骤:执行“英语作文切题分析训练模块”[0090]一、输入的作文范文集、训练作文集取材于中国学习者英语语料库中的英语作文。本发明实施方式中作文范文的题目均为“MyViewonJob-Hopping”,但不是对本发明的限定,其他题目的作文范文亦可。本实施方式输入的训练作文的题目包括“MyViewonJob-Hopping”、“HasteMakesWaste”。且本实施方式作文主题为:[0091]主题I:view、job-hopping、people、enjoy、taking[0092]主题2:perseverance、chiId、view、job-hopping、people[0093]主题3:view、job-hopping、exercise、work、confidence[0094]主题4:view、job-hopping、people、enjoy、taking[0095]主题5:changing、excellently、view、job—hopping、people[0096]主题6:job、people、view、change、job-hopping[0097]主题7:job、devote、feel、view、job-hopping[0098]主题8:job、challenges、good、view、job-hopping[0099]主题9:life、jobs'people、Iikes'whatever[0100]主题10:makes、haste、waste、reason、quickly[0101]当输入的训练作文的题目为“MyViewonJob-Hopping”时,实施结果如下所述:[0102]1输入作文范文集、训练作文,其中一篇英语作文内容如下所示:[0103]MyViewonJob-Hopping[0104]Somepeopleenjoytakinguponejoballtheirlife.Becausetheythinkthatitcanexercisetheirperseverance.Anotherreasonisthatsomeonehasawishthathewanttodevotehimselftoonejobwhichhelikesbestfromachild.Othersdotheworkallthetimeonlybecauseoftheircharacters.[0105]However,somepeoplelikechangingtheirjobsbecausethattheylikechallenges.Theyalwayshaveconfidencethattheycanfinishanyworkbytheirefforts.[0106]Myviewonjob-hoppingisthatwhateverjobsyoudo,youshouldlikethem.IfyouwanttodoajobexcellentIy,youmustbeinterestedinitatfirst.Withoutinterests,youcannotdevoteyourselfonit.Then,youcertainlycannotdoitwell.But,whenyouputyourheartsonthejob,youwillfinditsogood,andyouwillfeelthatyourlifeisalsolively.[0107]2去除输入的英语作文中的停用词、标点、缩写词后,生成的作文内容如下所示:[0108]viewjob-hoppingpeopleenjoytakingjoblifeexerciseperseverancereasonwishdevotejoblikesbestchildworktimecharacterspeoplechangingjobschallengesconfidencefinishworkeffortsviewjob-hoppingwhateverjobsjobexcellentlyinterestedinterestsdevotewellputheartsjobfindgoodfeellifelively[0109]3对输入的去除停用词、标点、缩写词后的作文范文集、训练作文进行迭代处理,生成的训练作文内容主题概率分布、作文范文内容主题概率分布如下所示:[0117]生成的训练作文主题特征词概率分布、范文作文主题特征词概率分布如下所示,训练作文主题特征词概率分布、范文作文主题特征词概率分布太多,无法一一列举,下面只列出部分训练作文主题特征词概率分布、作文范文主题特征词概率分布的内容,其余的训练作文主题特征词概率分布、作文范文主题特征词概率分布用省略号代替:[0119]3由训练作文内容主题概率分布查找训练作文最大主题,由作文范文内容主题概率分布查找作文范文最大主题,结果如下所示:[0120]训练作文最大主题是:主题6[0121]作文范文最大主题是:主题6[0122]⑷计算训练作文切题判断值[0123]根据公式5计算训练作文切题判断值,由于训练作文最大主题与作文范文最大主题相同,所以计算结果为训练作文切题判断值为1,即训练作文切题。[0124]5根据公式6,由训练作文内容主题概率分布、作文范文内容主题概率分布,计算训练作文切题度,计算结果为:[0125]训练作文切题度:1.6458646966570719[0126]二、当输入的训练作文的题目为“HasteMakesWaste”时,实施结果如下所述:[0127]1输入作文范文集、训练作文,其中一篇英语作文内容如下所示:[0128]HasteMakesWaste[0129]Asaproverbsay:HasteMakesWaste.It'squiteclearthatahastepeoplecan’tmakeachievementbecausehehasn’tpreparedenough.Itisknowntoallofus.Noonecandenytheproverb.Hastemakeswaste.Forexample:averyyoungbaby,asweallknoWjCan'twalkverywelI.Hewalksslowly.Hethrowshimselftothegroundnowandthen.However,hismotherlethimruntoher.Hecan’treachtoherwithoutanyhelp.Everyonelearnstowalkinchildhood.Noonecandenyitcosthimmanytimetowalkwell,muchmoretimetorun.Fromtheabovewecanconcludethatwithoutpreparing[0130]can’tmakeasuccess.Ihavetheopinionthathastemakeswaste.Soweshouldthinkitoverbeforewebeginit.Donityouthinkso?[0131]2去除输入的英语作文中的停用词、标点、缩写词后,生成的作文内容如下所示:[0132]hastemakeswasteproverbsayhastemakeswastequiteclearhastepeoplemakeachievementbecausepreparedenoughknowndenytheproverbhastemakeswasteexampleyoungbabywalkwalksslowlythrowsgroundhowevermotherletrunreachwithouthelplearnswalkchildhooddenycosttimewalkwellmoretimerunconcludewithoutpreparingmakesuccessopinionhastemakeswastethinkbeginthink[0133]3对输入的去除停用词、标点、缩写词后的作文范文集、训练作文进行迭代处理,生成的训练作文内容主题概率分布、作文范文内容主题概率分布如下所示:[0141]生成的训练作文主题特征词概率分布、范文作文主题特征词概率分布如下所示,训练作文主题特征词概率分布、范文作文主题特征词概率分布太多,无法一一列举,下面只列出部分训练作文主题特征词概率分布、作文范文主题特征词概率分布的内容,其余的训练作文主题特征词概率分布、作文范文主题特征词概率分布用省略号代替:[0144]3由训练作文内容主题概率分布查找训练作文最大主题,由作文范文内容主题概率分布查找作文范文最大主题,结果如下所示:[0M5]训练作文最大主题是:主题10[0146]作文范文最大主题是:主题7[0147]⑷计算训练作文切题判断值[0148]根据公式5计算训练作文切题判断值,由于训练作文最大主题与作文范文最大主题不相同,所以计算结果为训练作文切题判断值为〇,即训练作文跑题。[0149]5根据公式6,由训练作文内容主题概率分布、作文范文内容主题概率分布计算训练作文切题度,计算结果为:[0150]训练作文切题度:0.025421879261034[0151]三、分析计算出的训练作文集中每篇训练作文的训练作文切题判断值、训练作文切题度与训练作文人工切题判断值、训练作文人工切题度的一致性得到英语作文切题度分析标准。[0152]第二步骤:执行“英语作文切题分析评分模块”[0153]英语作文切题分析评分模块是利用上述第一步骤生成的英语作文切题度分析标准,对待批作文进行切题分析,最后输出待批作文切题分析的结果。[0154]1下面是一篇题目是“MyViewonJob-Hopping”的输入待批作文:[0155]MyViewonJob-Hopping[0156]Inthesedays,wemaychangeourjobsconstantlyforallkindsofreasons.Butdopeoplelikeit?Herearesomenews.[0157]Someonelikedoonejoballalong.Theythinkthatdoingonejobforlongtime,theymaygetlotsofexperiencefromitanddoitbetterandbetter.Moreimportantisthatworkmatesarefamiliartoeachother.However,someonechangetheirjobsconstantly.Theythinkthatonlydomanyjobs,cantheyfindwhichonetheylikemostandtheymayhavemoreskills,meetmorepeopleandknowmore.[0158]Ithinkifyoulikeyourjobs.Youmaygoonwithit,itisgoodforyourfuture.Ifyoudisgustit,youmaychangeitandlookforbetterones.Butbecareful,youmustdoeverythingfromtheverybeginningwhenyougetanewone.[0159]对待批作文进行切题分析,分析结果如下所示:[0160]待批作文最大主题:主题6[0161]作文范文最大主题:主题6[0162]待批作文切题判断值为:1[0163]待批作文切题度为:1.7093883624062147。[0164]2下面是一篇题目是“HasteMakesWaste”的输入待批作文:[0165]HasteMakesWaste[0166]InChinathereisaproverb:Hastemakeswaste.ltmeansifyouwantsomethingtobedonequickly,however,itwouldworkslowly;ifyouwanttomakesomethingdonebetter,butitwouldbeworse.Whypeoplethinkhastemakeswaste?Thereasonisthat,whensomeoneplanstodosomething,healwayshopestodoitasquicklyaspossible,whichmayresultinfailure,sohemustdoitfromthebeginning,leadingtowastetime.[0167]Forexample,inwinter,studentsgetuplate.Becausewearetoolatetocatchthebusontime,sowewanttosavetime.Wemayhurrytocarryourbooksandnotestotheclassroom,butwhenwereachtheclassroom,wewouldfindthepenleftinthedormitory,orwefindwegotthewrongnotes.Thisisagoodexampleofhastemakeswaste.[0168]Inordertoavoidofhastemakeswaste,weshoulddoeverythingcarefully,weshouldnotwondertheresultbutwonderbecareful.So,wecandoeverythingwellratherthanhastemakeswaste.[0169]对待批作文进行切题分析,分析结果如下所示:[0170]待批作文最大主题:主题9[0171]作文范文最大主题:主题7[0172]待批作文切题判断值为:0[0173]待批作文切题度为:〇.142576948213569。
权利要求:I.一种英语作文内容切题分析方法,其特征是:第一,通过英语作文切题分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断待批作文是否切题;其特征是:所述英语作文切题分析评分模块的计算公式如下:1训练作文内容主题概率分布计算公式训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算公式如下:在计算公式(1中,I训练作文1分配给主题」特征词数+主题抽样数I^是一个i行j列的矩阵是一个i行的矩阵,i=1,2,…,n,j=l,2,···,k;特征词是训练作文内容中与训练作文主题相关的单词;特征词数是训练作文内容中与训练作文主题相关单词的总数;训练作文:是训练作文集中第i篇训练作文,训练作文集的训练作文总数是η;主题」是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;主题抽样数是训练作文内容主题概率分布的对称狄利克雷分布,取值是0.1;⑵训练作文主题特征词概率分布计算公式训练作文主题特征词概率分布是指训练作文主题在特征词上的概率分布,它的计算公式如下:'+*I在计算公式2中,I训练作文特征词,分配给主题」次数+特征词抽样数I^是一个i行j列的矩阵,是一个j列的矩阵,i=l,2,…,m,j=l,2,···,k;特征词是训练作文内容中与训练作文主题相关的单词;特征词数是训练作文内容中与训练作文主题相关单词的总数;训练作文特征词:是训练作文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集的特征词总数是m;特征词数是指训练作文集与作文范文集的特征词总数,取值是m;特征词抽样数是训练作文主题特征词概率分布的对称狄利克雷分布,取值是O.Ol;主题:是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;⑶作文范文内容主题概率分布计算公式作文范文内容主题概率分布是指作文范文内容在其主题上的概率分布,它的计算公式如下:在计算公式3中,I作文范文,分配给主题」特征词数+主题抽样数I^是一个i行j列的矩阵是一个i行的矩阵,i=l,2,…,z,j=l,2,-_,k;特征词是作文范文内容中与作文范文主题相关的单词;特征词数是作文范文内容中与作文范文主题相关单词的总数;作文范文i是作文范文集中第i篇作文范文,作文范文集的作文范文总数是z;如果输入是训练作文集与作文范文集,主题:是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;如果输入是待批作文集与作文范文集,主题:是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;主题抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.1;⑷基于训练作文的作文范文主题特征词概率分布计算公式基于训练作文的作文范文主题特征词概率分布是指以训练作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的概率分布,它的计算公式如下:在计算公式⑷中,I作文范文特征词1分配给主题^欠数+特征词抽样数k是一个i行j列的矩阵是一个j列的矩阵,i=l,2,…,r,j=l,2,-_,k;作文范文特征词i是作文范文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集特征词总数是r;主题:是训练作文集与作文范文集中第j个作文主题,训练作文集与作文范文集的作文主题总数是k;特征词是作文范文内容中与作文范文主题相关的单词;特征词数是指训练作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是O.Ol;⑶训练作文切题判断值计算公式训练作文切题判断值是指从训练作文内容主题概率分布中查找出训练作文最大主题,来判断训练作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:在计算公式⑶中,训练作文最大主题是指计算公式⑴计算出的训练作文内容主题概率分布最大的训练作文主题,作文范文最大主题是指计算公式3计算出的作文范文内容主题概率分布最大的作文范文主题;6训练作文切题度计算公式训练作文切题度是指训练作文内容与其作文主题要求的接近程度,它的计算公式如下:在计算公式6中,主题」是训练作文集与作文范文集中第j个作文主题,作文范文i是作文范文集中第i篇作文范文;训练作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;训练作文切题度取值范围在O到2之间,如果训练作文内容越切题,则训练作文切题度值就越大;如果训练作文内容完全不切题时,则训练作文切题度值为〇;如果训练作文内容完全切题时,则训练作文切题度值为2;⑵基于待批作文的作文范文主题特征词概率分布计算公式基于待批作文的作文范文主题特征词概率分布是指以待批作文与作文范文特征词数为基础,来计算作文范文主题在特征词上的分布概率,它的计算公式如下:在计算公式7中,I作文范文特征词1分配给主题」次数+特征词抽样数I^是一个i行j列的矩阵:是一个j列的矩阵,i=l,2,…,r,j=l,2,-_,k;作文范文特征词i是作文范文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集特征词总数是r;主题:是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是〇.Ol;⑶待批作文内容主题概率分布计算公式待批作文内容主题概率分布是指待批作文内容在其主题上的概率分布,它的计算公式如下.在计算公式8中,I待批作文1分配给主题」特征词数+主题抽样数I^是一个i行j列的矩阵是一个i行的矩阵,i=l,2,…,11,」=1,2,一,1^待批作文1是待批作文集中第1篇待批作文,待批作文集的待批作文总数是u;主题」是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;特征词是作文内容中与作文主题相关的单词;主题抽样数是待批作文内容主题概率分布的对称狄利克雷分布,取值是0.1;9待批作文主题特征词概率分布计算公式待批作文主题特征词概率分布是指待批作文主题在特征词上的概率分布,它的计算公式如下:在计算公式9中,I待批作文特征词,分配给主题^欠数+特征词抽样数k是一个i行j列的矩阵是一个j列的矩阵,i=l,2,…,r,j=l,2,…,k;待批作文特征词i是待批作文中出现的待批作文与作文范文集中第i个特征词,待批作文与作文范文集的特征词总数是V;主题』是待批作文集与作文范文集中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是V;特征词抽样数是待批作文主题特征词概率分布的对称狄利克雷分布,取值是O.Ol;10待批作文切题判断值计算公式待批作文切题判断值是指从待批作文内容主题概率分布中查找出待批作文最大主题,来判断待批作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:在计算公式(10中,待批作文最大主题是指计算公式8计算出的待批作文内容主题概率分布最大的待批作文主题,作文范文最大主题是指计算公式3计算出的作文范文内容主题概率分布最大的作文范文主题;11待批作文切题度计算公式待批作文切题度是指待批作文内容与其作文主题的接近程度,它的计算公式如下:在计算公式(11中,主题」是待批作文集与作文范文集中第j个作文主题,作文范文1是作文范文集中第i篇作文范文;待批作文集与作文范文集的作文主题总数是k,作文范文集的作文范文总数是z;待批作文切题度取值范围在0到2之间,如果待批作文内容越切题,则待批作文切题度值就越大;如果待批作文内容完全不切题时,则待批作文切题度值为0;如果待批作文内容完全切题时,则待批作文切题度值为2。2.根据权利要求1所述的方法,其特征是:所述英语作文切题分析训练模块处理流程如下:S0201开始;S0202读入作文范文集;S0203读入训练作文集;S0204去除作文范文集和训练作文集中的停用词、标点、缩写词;S0205计算训练作文集和作文范文集中特征词的主题概率分布;S0206设置最大迭代次数;S0207如果迭代次数大于最大迭代次数,则转S0211操作;S0208根据计算公式(1计算训练作文内容主题概率分布,计算公式(2计算训练作文主题特征词概率分布,计算公式3计算作文范文内容主题概率分布,计算公式⑷计算基于训练作文的作文范文主题特征词概率分布;S0209计算训练作文内容主题概率分布与训练作文主题特征词概率分布的乘积,计算作文范文内容主题概率分布与作文范文主题特征词概率分布的乘积;S0210迭代次数增加1,转S0207;S0211保存训练作文内容主题概率分布、训练作文主题特征词概率分布、作文范文内容主题概率分布、基于训练作文的作文范文主题特征词概率分布;S0212从训练作文内容主题概率分布中找出训练作文最大主题,从作文范文内容主题概率分布中找出作文范文最大主题;S0213根据计算公式⑶计算训练作文切题判断值;S0214根据计算公式6计算训练作文切题度;S0215分析计算出的训练作文切题判断值、训练作文切题度与训练作文人工切题判断值、训练作文人工切题度的一致性得到英语作文切题度分析标准;S0216输出英语作文切题度分析标准;S0217结束。3.根据权利要求1所述的方法,其特征是:所述英语作文切题分析评分模块处理流程如下:S0301开始;S0302读入作文范文集;S0303读入待批作文;S0304去除作文范文集和待批作文中的停用词、标点、缩写词;S0305计算待批作文和作文范文集中特征词的主题概率分布;S0306设置最大迭代次数;S0307如果迭代次数大于最大迭代次数,则转S0311操作;S0308根据计算公式7计算待批作文内容主题概率分布,计算公式8计算待批作文主题特征词概率分布,计算公式⑶计算作文范文内容主题概率分布,计算公式9计算基于待批作文的作文范文主题特征词概率分布;S0309计算待批作文内容主题概率分布与待批作文主题特征词概率分布的乘积,计算作文范文内容主题概率分布与作文范文主题特征词概率分布的乘积;S0310迭代次数增加1;S0311保存待批作文内容主题概率分布、待批作文主题特征词概率分布、作文范文内容主题概率分布、基于待批作文的作文范文主题特征词概率分布;S0312从待批作文内容主题概率分布中找出待批作文最大主题,从作文范文内容主题概率分布中找出作文范文最大主题;S0313根据计算公式10计算待批作文切题判断值;S0314根据计算公式11计算训练作文切题度;S0315输出待批作文切题结果;S0316结束。
百度查询: 桂林电子科技大学 一种英语作文内容切题分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。