恭喜北京邮电大学李珂获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京邮电大学申请的专利一种交互便捷的多功能图像生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119444912B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510045748.1,技术领域涉及:G06T11/00;该发明授权一种交互便捷的多功能图像生成方法是由李珂;陈志鹏;陈卓;杨兰;张洪刚;宋一晢设计研发完成,并于2025-01-13向国家知识产权局提交的专利申请。
本一种交互便捷的多功能图像生成方法在说明书摘要公布了:本发明公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。
本发明授权一种交互便捷的多功能图像生成方法在权利要求书中公布了:1.一种交互便捷的多功能图像生成方法,其特征在于,包括如下步骤:S1、接收用户输入的图像生成控制条件,并对图像生成控制条件进行预处理;所述图像生成控制条件包括:文本提示、实体条件图和背景图;S2、使用符合标准正太分布的随机噪声组成初始噪声图像;在前期去噪阶段,基于预处理后的文本提示,通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;S3、利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;S4、根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次的特征级融合,获得统一空间的多模态编码特征;S5、在后期去噪阶段,将多模态编码特征通过视觉控制适配器获得视觉控制特征;视觉控制特征与生成模型中的全局中间层特征共同引导生成模型对所述噪声图像进行去噪处理,实现图像生成;所述步骤S3具体包括:1所述交叉注意力图表示为: 其中,si表示第i个实体条件图;ci表示si对应的文本标记;表示交叉注意力图,且仅在t=τ时刻计算,其中t=τ时刻即前期去噪阶段完成时;n表示多头注意力机制中第n个头索引;N表示共有N个头索引;t表示扩散过程中的时间步;Qnsi表示对si的潜变量使用线性函数生成交叉注意力中的查询向量;Knci表示对文本标记特征ci使用线性函数并通过转置运算后生成交叉注意力中的键向量;d表示特征嵌入维度;2通过OTSU算法获取分割注意力分数的阈值;根据阈值对交叉注意力图进行二值化处理,得到实体在生成图像中所在区域的实体区域蒙版图像;实体区域蒙版图像Ri表示为: 其中,Ri表示实体区域蒙版图像;Rixr,yr表示实体区域蒙版图像Ri中坐标为xr,yr的像素值;表示交叉注意力图中坐标为xr,yr的像素值;OTSU·表示OTSU算法;3对每个实体区域蒙版图像Ri的定位区域进行近似运算,获得对应的实体在生成图像中的实体定位区域边界框其中和分别为实体定位区域边界框的左上横、纵坐标;,和分别为实体定位区域边界框的右下横、纵坐标。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。