买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京信息工程大学
摘要:本发明公开了基于机器学习和统计回归的分解酒店文本描述方法,包括:采集酒店描述样本,包括消费者针对酒店的文字描述、照片的数量、联系信息以及消费者评论和评级;将经过处理的酒店描述样本输入分类器,将酒店描述样本内容分解为功能、位置和情感内容,基于酒店描述样本内容类型,通过统计回归方法,建立针对消费者评论量和平均消费者评分的多层次一般线性模型,完成消费者行为的分析;本发明所设计的方法提供了准确和自动化的酒店描述分解的模型,并完成了文本内容对评论平台上消费者参与度的差异化影响的分析。该发明不仅为酒店文本描述的分解提供了语料库和自动化模型,而且还实现了消费者行为的分析和预测。
主权项:1.基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,执行如下步骤S1-步骤S5,完成酒店描述的分析,进一步完成消费者参与度的分析:步骤S1:采集酒店描述样本,酒店描述样本包括消费者针对酒店的文字描述、照片的数量、联系信息以及消费者评论和评级,并构建数据集;步骤S2:将数据集中的酒店描述样本随机分为两组,其中一组作为手动编码和分类器开发的训练集,另一组作为预测分析的测试集;步骤S3:针对步骤S2所划分的训练集中的酒店描述样本进行手动编码,将酒店描述样本的内容分为功能内容、位置内容、情感内容;步骤S4:针对数据集的酒店描述样本中的语句进行预处理,采用TF方法和TFIDF方法将所有语句进行矢量化,使用训练集中的酒店描述样本对分类器进行训练,获得训练好的分类器,并使用测试集完成分类器的测试,使分类器针对未编码的酒店描述样本,实现将酒店描述样本的内容自动分解为功能内容、位置内容、情感内容;步骤S5:基于酒店描述样本的功能内容、位置内容和情感内容及其数量,通过统计回归方法,建立针对消费者评论量和平均消费者评分的多层次一般线性模型,以分析酒店描述样本的内容和数量对消费者评论量和平均消费者评分的影响;步骤S5所建立的多层次一般线性模型如下式: ; ;式中,为酒店i的消费者评论量,为酒店i的平均消费者评分,为酒店i的酒店描述样本总长度,为酒店i的酒店描述样本所包含的内容类型的数量,为酒店i的功能内容的长度的影响,为酒店i的位置内容的长度的影响,为酒店i的情感内容的长度的影响,为酒店i的照片数量,为酒店所在地的消费者群体偏差;β0~β9为回归参数,为酒店i的消费者联系信息,为酒店i的消费者评论的情感主观性,为酒店i的消费者评论的情感极性,为随机干扰项。
全文数据:
权利要求:
百度查询: 南京信息工程大学 基于机器学习和统计回归的分解酒店文本描述方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。