恭喜河北工业大学李家乐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜河北工业大学申请的专利一种基于语言和图像大模型的多源路面病害识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119107447B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411322837.8,技术领域涉及:G06V10/25;该发明授权一种基于语言和图像大模型的多源路面病害识别方法是由李家乐;吴禹霆;王雪菲设计研发完成,并于2024-09-23向国家知识产权局提交的专利申请。
本一种基于语言和图像大模型的多源路面病害识别方法在说明书摘要公布了:本发明为一种基于语言和图像大模型的多源路面病害识别方法,所述识别方法包括以下内容:收集道路路面病害检测相关规范建立知识语料库,使用大语言模型LLM读入道路病害图像;对于被LLM确定为裂缝横穿整张图像时,则以过图片中心点沿垂直裂缝方向进行裁剪,裁剪为两张图片;之后,将所有图像和相应的文本提示输入,使用视觉语言大模型VLM对路面病害进行目标检测,输出预测框;使用标注有病害掩码的图像对SAM进行微调得到适应于道路病害分割任务的RoadSAM。该方法结合了大语言模型、视觉语言大模型和分割大模型三者,并对分割大模型SAM进行了相应的微调,减少对大量标注数据的依赖,同时实现多源多模态路面病害图像的统一分割。
本发明授权一种基于语言和图像大模型的多源路面病害识别方法在权利要求书中公布了:1.一种基于语言和图像大模型的多源路面病害识别方法,其特征在于,所述识别方法包括以下内容:第一部分:收集道路路面病害检测相关规范建立知识语料库,使用大语言模型LLM读入道路病害图像,令其根据知识语料库进行分类并输出语义丰富包含上下文信息的文本描述;收集道路路面病害相关的规范文件,包括手册、指南、法规、标准,整理文本,输入到大语言模型LLM中,建立一个覆盖各等级公路场景和路面病害术语的专业知识语料库,能够依据公路规范建立一致且标准的描述框架;使用RGB相机或线扫激光或红外相机按照不同的采集方式进行图像采集,并按照采集方式和道路等级分成不同的文件夹目录,获得多模态图像;根据目录中图像类型分别设置文本指令,将采集到的图像输入到大语言模型LLM中,并使用指令对图像中病害进行问询使其完成对病害的描述,病害的描述内容包括病害的类型、颜色、形状、位置,对裂缝病害,则病害的描述内容还需包括是否横穿整张图像;将病害描述形成的文本描述作为文本提示;第二部分:对于被LLM确定为裂缝横穿整张图像时,则以过图片中心点沿垂直裂缝方向进行裁剪,裁剪为两张图片;之后,将所有图像和相应的文本提示输入,使用视觉语言大模型VLM对路面病害进行目标检测,输出预测框;若没有被LLM判定为裂缝横穿整张图像,而整张图像的预测框仍出现多框重叠情况,或单个框的长边超过图像的70%,则需要进行裁剪;对于多框重叠的情况,裁剪线过最大框的中心点沿短边方向设置;对于单框长边过长的情况,裁剪线过单框的中心点沿短边方向设置;裁剪后,再次利用视觉语言大模型VLM对裁剪后的这两张图分别检测,最后经过坐标换算将预测框对应裁剪前的原图上的坐标计算出来,实现在一张图上对同一条病害得到了两个不同的预测框,至此完成对图像进行预测框标记的过程;对于贯穿整个画面的“超长裂缝”,GLIP模型存在多框重叠或者是只检测出其中一段裂缝的倾向,针对这个问题,采取裁剪分割策略:对于这种裂缝图片会过图片中心点沿与裂缝垂直的方向将其裁剪为两张图,使原本“过长”的裂缝变成两段较短的裂缝,然后使用GLIP对这两张图分别检测,GLIP此时会生成两个预测框,最后经过坐标换算将两个框于原图上的坐标计算出来,这样就在一张图上对同一条裂缝得到了两个不同的预测框;第三部分:使用标注有病害掩码的图像对SAM进行微调得到适应于道路病害分割任务的RoadSAM;使用标注有病害掩码的图像对SAM进行训练,训练SAM过程中,掩码解码器进行全量微调,使用Focal损失函数和交叉熵损失函数的加权和作为总损失函数,训练结束后即得到针对道路病害的分割模型RoadSAM,用于道路病害的分割;SAM使用掩码自编码器MAE预训练的VIT作为主干网络,并采用基于向量的随机矩阵适配VeRA、适配器Adapter、前缀调优PrefixTuning三种技术对SAM的图像编码器部分进行微调;所述SAM包括图像编码器、提示编码器和掩码解码器,掩码解码器的输入为图像编码器输出的图像嵌入和提示编码器输出的提示嵌入;图像编码器的输入为图像;SAM的图像编码器包括区块向量、颈部结构,并使用掩码自编码器MAE预训练的VIT作为主干网络,所述主干网络由多个TransformerBlocks组成,每个TransformerBlocks记为ViT块,ViT块包括归一化层、窗口注意力层和多层感知机;ViT块的输入经第一个归一化层进入窗口注意力层,之后窗口注意力层的输出与第一个归一化层的输入相加后,再进入适配器Adapter和第二个归一化层,第二个归一化层的结果经多层感知机的处理后与适配器的输出相加后获得ViT块的输出;在窗口注意力层中增加VeRA模块,对于区块向量获得每的个图像区块patchxp∈RH×W×C,经过第一个归一化层处理后,再经过大小为ω的窗口进行再分块,分成N个不重叠的小块x∈RN×ω×ω×C;其中H和W分别为图像区块的高度和宽度,C为图像区块的通道数;然后,x会经过多头注意力,在注意力头中,查询向量Q、键值对K和V是通过x与可学习的线性层获得的,在可学习的线性层中加入VeRA模块;在可学习的线性层的权重矩阵上添加一个作为支路的VeRA权重矩阵ΔW;ΔW由两个权重随机初始化后冻结的低秩矩阵A和权重共享的低秩矩阵B、以及两个可变的缩放向量b和d构成,其中A和B的大小取决于秩r,r远小于原始权重矩阵W的维度;对于原始路径y=Wx变为y=W+ΔWx;其中ΔW=ΛbBΛdA;缩放向量b和d形式上表达为对角矩阵Λb和Λd;当图像区块嵌入经过可学习的线性层后,就得到原始查询向量Q、原始键值对K和V;在原始键值对K和V向量前分别添加可更新的前缀向量PK和前缀向量PV,将由前缀向量PK和前缀向量PV分别与原始键值对K和V组成新的K和V与原始的Q一起进行注意力的计算;所述适配器位于多头注意力与多层感知机之间的位置,采用瓶颈结构,包括上采样层、激活函数和下采样层,中间的性激活函数选用非线性激活函数GELU;SAM的提示编码器使用位置编码技术进行编码嵌入,对提示框的左上角和右下角坐标进行位置编码;在SAM中,位置编码层设置有位于注册缓冲区的随机生成的多个高斯随机矩阵,且每个矩阵对应不同的特征频率和维度,最后将各矩阵位置编码结果进行连接和平均,同时将位置编码层改为可更新参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河北工业大学,其通讯地址为:300401 天津市北辰区西平道5340号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。