买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明涉及一种结合文本和截图信息的移动众包测试报告聚类、排名与概要方法。该方法首先使用SBERT和金字塔空间匹配算法分别获得文本和截图的向量化表示,然后通过混合策略得到基于文本和截图的综合向量表示。在聚类阶段,使用最远点采样算法选择核心报告,并以这些报告为聚类中心,通过k‑means算法对报告进行聚类。在排名及概要总结阶段,首先利用Pagerank算法获取每个聚类中报告的排名;在概要阶段以核心报告的信息为主,其他报告的文本和截图信息为辅,使用杰卡德距离衡量报告中句子的差异性,根据压缩比k逐步提取信息以补充核心报告,并为每个聚类生成一份信息丰富的概要报告。本发明目的在于解决目前存在的众包测试平台审查人员审查测试报告的难题,进而帮助软件研发人员提高软件测试效率,保障软件质量。
主权项:1.一种结合文本和截图信息的移动众包测试报告聚类、排名与概要方法,其特征在于,该方法在聚类阶段,该方法通过综合考虑移动众包测试报告的图文特征选择出其中最具有代表性的测试报告,构成核心报告集合;然后以这些核心报告为中心,实现移动众包测试报告的聚类,并且为聚类后的每个移动众包测试报告集合中的报告生成排名。在报告概要任务中,算法在每个移动众包测试报告集合中,以核心报告中的文本和截图为主并整合集合中其他报告包含的额外信息,为其生成一份综合描述集合内信息的概要报告。生成的这份报告将帮助开发团队更快速地理解各个移动众包测试报告集合中的内容,从而提高处理众包测试报告的效率。该方法包括下列步骤:1报告文本信息抽取,给定待审查的移动众包测试报告集合,使用基于SBERT的大型语言模型“RoBERTa-chinese-base”获得移动众包测试报告中文本的向量化表示。2报告截图信息抽取,首先对报告中的截图进行去除噪声、灰度化和增强处理,使用空间金字塔匹配算法SPM获得处理后的截图的向量化表示。3基于混合策略的图文信息融合,对于步骤1和2获得的结果,使用混合策略得到基于文本和截图的综合向量表示,如果两个报告的文本描述完全相同,则它们的平衡距离也被认为是相同的;如果报告中没有包含屏幕截图,那么就只考虑文本差异,并进行缩放以减少多样性;在所有其他情况下,计算文本距离和屏幕截图集距离的调和平均数,得到一个平衡距离,用于表示报告之间的成对距离。4核心报告选择,使用最远点采样算法从步骤3中获得的综合向量表示中选择具有代表性的核心报告集合,确保所选报告之间尽可能地均匀分布,减少聚类结果的偏差。5移动众包测试报告聚类,以步骤4中选择出来的核心报告集合中的报告为中心,使用k-means算法对剩余的报告进行聚类,将相似的报告归为同一个集合,得到多个移动测试报告集合;6移动众包测试报告排名,基于步骤5的结果,首先将每个聚类后的报告集合视为一个无向加权图,每个节点代表一个报告,而边则表示报告之间的相似度。接着,我们应用PageRank算法来计算图中每个节点的排名分数,这个分数能够反映报告的重要性。最后,我们根据计算出的排名分数对每个报告集合中的报告进行排序,从而得到每个集合中报告的排名列表。这一过程有助于我们识别出每个聚类中最为重要和相关的报告。7移动众包测试报告概要,首先选择步骤6中PageRank得分最高的报告作为主报告r。接着,为了补充主报告,提取剩余报告的语句和屏幕截图,形成集合T和S。利用Jaccard距离评估这些内容与主报告的相似度,选取低于阈值的语句和截图作为候选。最终,结合主报告和候选内容,根据相似度迭代选择,直至满足预设的摘要压缩率,生成一份简洁且全面的最终测试报告。
全文数据:
权利要求:
百度查询: 南京大学 一种结合文本和截图信息的移动众包测试报告聚类、排名与概要方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。