一种基于文本分类进行地址分类的词元分隔方法及系统

导航：龙图腾网> 最新专利技术> 一种基于文本分类进行地址分类的词元分隔方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东工业大学;佛山大学

摘要：本发明属于数据处理的领域，提供了一种基于文本分类进行地址分类的词元分隔方法及系统，筛选每个词元序列聚类中的词元靶序列，根据各个词元序列的对齐词元数计算该词元序列聚类的聚类对齐数，将中心词元序列中首个词元至聚类对齐数对应的词元的部分截取出来，计算得到该词元序列聚类的中心词元索引量；将输入的待检索地址文本向量化后与各个词元序列聚类中的词元靶序列对应的词向量序列进行匹配得到匹配的词元靶序列；根据匹配的词元靶序列所在的词元序列聚类对应的中心词元索引量和聚类对齐数，对待检索地址文本的词向量序列进行分隔补齐，得到所述待检索地址文本的分隔补齐序列，能够更有效地将待检测地址文本归类至区域地址。

主权项：1.一种基于文本分类进行地址分类的词元分隔方法，其特征在于，所述方法包括：收集多个不同的地址文本组成地址文本数据集，并获取每个地址文本对应的坐标，对每个地址文本进行分词得到词元序列，获取其中每个词元的嵌入向量，组成词向量序列；计算获取所述地址文本数据集中的词元序列聚类，通过分别将每个词元序列与中心词元序列进行对比得到每个词元序列的地址贴合数；再在各个词元序列聚类中，计算每个词元序列对应的坐标与其所在的词元序列聚类的中心词元序列对应的坐标之间的距离，作为该词元序列对应的地址修正距离，根据地址修正距离和地址贴合数，筛选每个词元序列聚类中的词元靶序列；根据词元序列聚类中各个词元序列的对齐词元数计算该词元序列聚类的聚类对齐数，将该词元序列聚类的中心词元序列中首个词元至聚类对齐数对应的词元的部分截取出来，进行计算得到该词元序列聚类的中心词元索引量；当进行地址文本检索时，将输入的待检索地址文本向量化后与各个词元序列聚类中的词元靶序列对应的词向量序列通过向量搜索进行匹配，得到匹配的词元靶序列；根据匹配的词元靶序列所在的词元序列聚类对应的中心词元索引量和聚类对齐数，对待检索地址文本的词向量序列进行分隔补齐，得到所述待检索地址文本的分隔补齐序列。

全文数据：

权利要求：

百度查询：广东工业大学佛山大学一种基于文本分类进行地址分类的词元分隔方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种固定式卡钳

下一篇：一种便捷的数据故障检测记录仪

相关技术

一种固定式卡钳

一种便捷的数据故障检测记录仪

一种具有矫正功能的手机维修用辅助定位装置

一种多功能料理机

一种新型环氧密封直流接触器

一种数码印花烘干机

一种新型弹簧操纵装置

一种便于收放的无人机脚架

一种履带式管材的牵引机

一种冷藏箱

一种高温电磁阀

一种COB灯条的散热结构

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于文本分类进行地址分类的词元分隔方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务