首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于LDA主题模型的主播形象分类与关键特质分析方法 

申请/专利权人:哈尔滨工业大学

申请日:2023-02-23

公开(公告)日:2024-01-30

公开(公告)号:CN116303893B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/335;G06F16/35;G06F40/279;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.01.30#授权;2023.07.11#实质审查的生效;2023.06.23#公开

摘要:基于LDA主题模型的主播形象分类与关键特质分析方法,属于数据分析技术领域。方法是:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。本发明用于主播形象分类与关键特质分析。

主权项:1.一种基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响不同主播群体直播效果的关键特质,所述方法包括以下步骤:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质;所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类,具体步骤是:S41、LDA主题模型结果含有每个主题k下的高频词以及每位主播介绍的主题分布θ,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;S42、为了避免不同主题k下相同高频词的出现,影响主题k的解释结果,采用主题-词语关联度,以控制显示某一主题k的不同的下位词项; 其中,w表示语料库中的词语,k表示主题,Pw表示词语w在所有主播介绍的主题词分布中的边际概率,表示词语w与主题k的相关度,λ表示参数且0≤λ≤1,λ=0时,显示主题k下特有的、相对独立的下位词项,即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题,用户通过给定λ值,调节词语w与主题k的相关程度,即rw,k|λ;S43、依据主题分布的最高值,作为该主播形象分类,并依据步骤S42结果中的相对独立的下位词项和分布概率高的下位词项解释该主播的分类。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 基于LDA主题模型的主播形象分类与关键特质分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。