首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于专利大数据的行业分类方法_上交所技术有限责任公司_202310707911.7 

申请/专利权人:上交所技术有限责任公司

申请日:2023-06-14

公开(公告)日:2024-06-18

公开(公告)号:CN116701633B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/33;G06F40/289;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2023.09.22#实质审查的生效;2023.09.05#公开

摘要:本发明涉及行业分类领域,具体来说是一种基于专利大数据的行业分类方法,所述方法具体如下:S1.特征提取:对专利全文进行分词处理,采用TF‑IDF算法剔除误导词;S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利中每个关键词出现的频率,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值。本发明优点在于:高效,计算全程由计算机处理,无需人工参与。精准,使用专利数据来进行行业划分,能有效的保障行业分类结果的准确性。真实性,专利的获得具有一定难度和技术壁垒,这保障了结果的真实可靠。

主权项:1.一种基于专利大数据的行业分类方法,其特征在于所述方法具体如下:S1.特征提取:对专利全文进行分词处理,采用TF-IDF算法剔除误导词;S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利j中每个关键词N出现的频率tfN,j,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值,最终,向量表述为: 其中,Vj:专利j的特征向量;S3.计算专利相似度:筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个企业,这些企业组成了第一次过滤的集合A;S4.构建企业特征向量,将所有IPC分类的大组作为一个向量,每家企业对应一个向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值,最终,向量表述为 其中,Wk:企业k的特征向量,pl,k:企业k拥有属于IPC大组l的专利数量,tpk:企业k拥有的专利总数;S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度,匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为: Si,j:企业i和企业j技术相似度,筛选Si,j大于0.9的企业作为最终的行业分类集合。

全文数据:

权利要求:

百度查询: 上交所技术有限责任公司 一种基于专利大数据的行业分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术