买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明涉及一种基于大语言模型的移动众包测试报告聚合框架。针对移动众包测试报告中文本简短且信息不足、未充分利用截图信息,以及重复报告聚合效率低下的问题,提出了基于大型语言模型的聚合框架。该框架细致地综合考虑了文本和截图信息,充分发挥了大型语言模型的语义理解能力,并通过最小生成树和聚类算法实现了高效的报告聚合。这种方法不仅提高了对测试报告的全面理解,还提升了审查效率和报告质量。具体而言,该方法利用大型语言模型深入理解自然语言,结合Paddle‑OCR和YOLOv5s模型提取截图中的文本和小组件信息,通过三元组提取和凝聚层次聚类实现更高效的审查。在聚合阶段,结合大型语言模型和TextRank算法,将报告表示为路径结构,并根据路径重叠频率和路径巧合度量评估报告的重要性,最终得到优先级排序的报告列表。本发明目的在于解决目前存在的移动众包测试报告数量巨大,针对报告文本内容不足截图内容丰富,提出了两种众包测试报告聚合技术,利用报告的图文信息并结合多模态、预训练模型等技术实现了报告的聚合,极大方便了专业人员对报告的处理。进而帮助软件研发人员提高测试报告审查效率,极大方便了专业人员对报告的处理,进而保障软件质量。
主权项:1.一种基于大型语言模型的移动众包测试报告聚合框架,其特征在于,该框架使用Paddle-OCR模型和YOLOv5s模型从报告截图中提取和文本化信息,并利用提取出来的信息对报告中的文本信息进行补充和增强。增强后的文本信息被格式化为JSON文本,并使用思维链技术指导大型语言模型对JSON文本进行三元组提取。针对提取出来的三元组,使用凝聚层次聚类方法进行聚类。基于聚类结果,通过三元组与提示工程相结合的方式,引导LLM推断出缺陷再现的步骤,使用TextRank算法将每个报告的缺陷再现步骤概念化为路径。并将所有路径整合到报告中,每个边的权重对应于重复边的数量。在聚合阶段,采用Prim算法将图转换为最小生成树,与这个最小生成树对齐的报告代表了捕获重复报告组本质所必需的最小报告集合;该框架包括以下步骤:1截图文字和位置信息提取:使用Paddle-OCR提取屏幕截图中的文本及其位置信息,通过设置置信度阈值、位置过滤、关键词列表、最小长度阈值和上下文分析,优化提取结果。2截图小组件信息提取:使用YOLOv5s深度学习模型,训练了一个混合数据集来提取移动应用截图中的小组件信息,并通过贝叶斯优化算法调整模型超参数以优化性能,确保准确识别并提供边界框坐标和文本注释。3基于截图和文本信息的三元组生成:将步骤1和2中提取的文本数据、小组件和布局信息与测试报告文本集成成JSON文件,并利用思维链技术引导大型语言模型从该文件中提取标识每个测试报告的三元组缺陷、操作、场景。4基于生成三元组的聚类:使用凝聚层次聚类对步骤3中提取的三元组进行聚类,首先将每个三元组视为独立的集合,然后计算这些集合之间的距离,并合并距离最小的两个集合。重复这一过程,不断合并距离最小的集合,直到满足终止条件,形成一个包含所有三元组的层次聚类结构。5基于LLM的执行步骤生成:将步骤3中提取的三元组输入到LLM中,采用上下文学习框架并通过输入提示整合特定任务示例,引导模型生成期望的响应。提供交互式示例帮助LLM更准确理解研究任务并精确推断缺陷产生步骤。6基于TextRank算法的操作路径图构建:使用Jieba工具包对步骤5中得到的缺陷产生步骤预处理,对于处理结果采用了TextRank算法来提取关键词并构建构建路径图时,选择每个句于中置信度最高的单词作为节点,以反映单词在文本中的重要性。7基于Prim算法的测试报告聚合:对于步骤6得到的结果,利用加权路径图识别和排序非冗余报告的方法对报告进行聚合,其中边权重表示路径重叠频率,用于评估报告重要性,进而生成优先展示的排序报告列表。
全文数据:
权利要求:
百度查询: 南京大学 一种基于大语言模型的移动众包测试报告聚合框架
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。