首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态大模型的票据数据分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深度(山东)数字科技集团有限公司

摘要:本发明涉及数据分析技术领域,具体为一种基于多模态大模型的票据数据分析方法及系统,包括以下步骤:需求分析与规划:与相关利益方沟通,确定项目需求和目标,制定项目计划,包括时间表、资源分配和关键里程碑;数据收集:识别数据源,包括纸质票据和电子票据,建立数据收集管道,通过自动化工具获取票据数据,确保数据收集的合规性和安全性;数据预处理:清洗收集到的票据数据,处理缺失值和噪声数据,格式化数据以确保统一的输入格式;本发明结合OCR技术,自动识别票据中的文字信息,使用图像处理技术,分析票据的版面结构和图像信息,利用自然语言处理技术,准确提取票据中的关键信息,通过深度学习模型,提高信息提取的准确性和效率。

主权项:1.一种基于多模态大模型的票据数据分析方法,该方法基于票据数据分析系统实现,其特征在于,所述票据数据分析系统包括数据采集预处理模块、多模态数据处理模块、特征提取选择模块、异常检测模块、差异化防伪评估模块、高级分析预测模块、数据可视化模块、服务反馈模块;所述数据采集预处理模块用于数据采集和数据清洗;所述多模态数据处理模块用于图像处理和文本处理;所述特征提取选择模块用于特征提取和特征选择;所述异常检测模块用于规则基础异常检测和机器学习异常检测;所述差异化防伪评估模块用于图像对比鉴别、水印防伪标识识别、基准评估、同业对标评估、票据链上存证和链上数据验证;所述高级分析预测模块用于趋势分析和分类聚类;所述数据可视化模块用于图表生成和报告生成;所述服务反馈模块用于情感分析、情感反馈整合和反馈改进,并提供用户友好的交互界面;所述票据数据分析方法包括以下步骤:S1.与相关利益方沟通,确定项目需求和目标,制定项目计划;S2.识别纸质票据和电子票据,建立数据收集管道,该步骤通过所述数据采集预处理模块实现,所述数据采集预处理模块还包括数据采集单元,数据采集单元用于自动化收集大量纸质和电子票据;S3.清洗收集到的票据数据,处理缺失值和噪声数据,格式化数据以确保统一的输入格式,该步骤通过所述数据采集预处理模块实现,所述数据采集预处理模块还包括数据清洗单元,所述数据清洗单元用于处理缺失值、去除噪声数据和纠正数据格式;S4.对票据图像进行预处理,使用光学字符识别技术提取图像中的文本信息,该步骤通过所述多模态数据处理模块实现,所述多模态数据处理模块还包括图像处理单元,所述图像处理单元用于票据图像文本识别,从扫描的票据图像中提取关键文本信息,包括发票号码、金额;S5.从处理后的票据数据中提取关键信息,该步骤通过所述多模态数据处理模块实现,所述多模态数据处理模块还包括文本处理单元,所述文本处理单元用于进行文本数据格式化和语义理解,将非结构化文本数据转换为结构化数据;S6.准备包含历史票据数据和标注信息训练数据集,进行模型训练,该步骤通过所述特征提取选择模块实现,所述特征提取选择模块包括特征提取单元,所述特征提取单元用于从票据数据中提取关键信息,包括日期、金额、发票类型,为每张票据生成特征向量;S7.使用验证数据集评估模型性能,进行交叉验证,根据评估结果优化模型,该步骤通过所述特征提取选择模块实现,所述特征提取选择模块还包括特征选择单元,所述特征选择单元用于进行重要特征筛选,选择最重要的特征以减少冗余数据;S8.应用训练好的模型检测票据数据中的异常情况,标记可疑票据,该步骤通过所述异常检测模块和差异化防伪评估模块实现,所述异常检测模块包括规则基础异常检测单元和机器学习异常检测单元,所述规则基础异常检测单元用于进行异常票据检测,包括金额超出预期范围的票据,所述机器学习异常检测单元进行复杂异常模式检测,用于发现基于历史数据中难以察觉的异常模式,所述差异化防伪评估模块还包括图像对比鉴别单元、水印防伪标识识别单元、基准评估单元、同业对标评估单元、票据链上存证单元和链上数据验证单元,所述图像对比鉴别单元用于使用图像对比技术识别伪造票据,所述水印防伪标识识别单元通过数字水印检测算法进行真伪验证,用于检测票据上的水印和防伪标识,所述基准评估单元通过基准比较算法进行数据状态评估,用于比较票据数据的当前状态和历史基准数据,评估变化情况,同业对标评估单元用于和同行业其他公司的票据数据进行对比分析,所述票据链上存证单元通过以太坊智能合约进行票据数据上链存证,所述链上数据验证单元通过区块链验证算法进行数据真实性验证,用于通过区块链验证票据数据的真实性;S9.进行票据数据的趋势分析,该步骤通过所述高级分析预测模块实现,所述高级分析预测模块还包括趋势分析单元和分类聚类单元,所述趋势分析单元用于分析票据数据中的时间序列趋势,分类聚类单元用于识别不同类型的票据和常见的票据模式;S10.生成数据图表,直观展示票据数据分析结果,制作数据分析报告,该步骤通过所述数据可视化模块实现,所述数据可视化模块还包括图表生成单元和报告生成单元,所述图表生成单元用于生成饼图、柱状图和折线图,报告生成单元用于自动生成数据分析报告,包含关键发现和建议;S11.系统集成与测试;S12.部署系统到生产环境,确保系统的稳定性和安全性;S13.为用户提供系统使用培训,提高用户的操作技能;S14.收集用户反馈,根据反馈进行系统优化,定期进行系统维护,确保系统长期稳定运行,更新和升级系统功能,满足不断变化的需求,该步骤通过所述服务反馈模块实现,所述服务反馈模块还包括情感分析单元、情感反馈整合单元、交互界面单元和反馈改进单元,所述情感分析单元用于分析票据备注中的情感倾向,所述情感反馈整合单元通过情感整合算法整合情感分析结果,用于整合情感分析结果,所述交互界面单元用于支持用户查询、筛选和分析票据数据,所述反馈改进单元用于持续收集用户反馈,根据反馈优化系统性能和功能。

全文数据:

权利要求:

百度查询: 深度(山东)数字科技集团有限公司 一种基于多模态大模型的票据数据分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。