恭喜之江实验室苗宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜之江实验室申请的专利一种面向科学领域大模型训练语料的可视化方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119047458B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411525964.8,技术领域涉及:G06F40/205;该发明授权一种面向科学领域大模型训练语料的可视化方法和系统是由苗宇;罗实;张德文;杨林瑶;陈红阳设计研发完成,并于2024-10-30向国家知识产权局提交的专利申请。
本一种面向科学领域大模型训练语料的可视化方法和系统在说明书摘要公布了:本发明公开了一种面向科学领域大模型训练语料的可视化方法和系统,包括:在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端;在客户端对接收到的markdown文本中的富文本内容进行解析和渲染得到还原结果;在客户端生成markdown文本的PDF原文内容与还原结果的对比图,并在对比图上附加语料元数据、用户信息水印和语料质量评分。本发明能够高效、准确、安全地传输、解析、渲染和分享markdown格式的科学领域大模型训练语料,并将语料质量评估结果分享到内外部专家,从而帮助科学领域大模型训练提供高质量语料数据,提高科学领域大模型准确率。
本发明授权一种面向科学领域大模型训练语料的可视化方法和系统在权利要求书中公布了:1.一种面向科学领域大模型训练语料的可视化方法,其特征在于,包括以下步骤:在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端;在客户端对接收到的markdown格式的科学领域大模型训练语料中的富文本内容进行解析和渲染得到还原结果;在客户端生成markdown格式的科学领域大模型训练语料的PDF原文内容与还原结果的对比图,并在对比图上附加语料元数据、用户信息水印和语料质量评分,包括:将当前登录的用户信息渲染到canvas画布中形成用户信息水印,并且当检测到用户信息水印被隐藏或者删除时重新生成水印;递归遍历还原结果的整个HTML文档的DOM树并解析得到DOM节点位置信息;获取PDF原文并渲染到客户端,用户框选出还原结果和PDF原文中的感兴趣区域;根据解析得到DOM节点位置信息和感兴趣区域,筛选出DOM节点位置处于感兴趣区域内的所有DOM节点;将筛选得到的所有DOM节点渲染到canvas画布中;查询语料元数据信息并渲染到canvas画布中;用户绘制出对感兴趣区域的语料质量评分,并将包括框选的还原结果和PDF原文中的感兴趣区域、用户信息水印、语料元数据信息和语料质量评分的canvas画布转换为对比图,并支持将对比图导出外部进行查看。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。