买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:知学云(北京)科技股份有限公司
摘要:本发明涉及智能化办公技术领域,具体为基于AIPaaS平台的中文文本向量化模型的交互数据管理系统。包括,AIPaaS平台模块、文本向量化模块以及交互数据管理模块;所述AIPaaS平台模块用于调试AIPaaS平台,划分AIPaaS平台的性能,显示AIPaaS平台的性能指标,在AIPaaS平台中集成交互数据管理功能;所述文本向量化模块用于构建词汇表,将所要存储的文本信息按照词汇表进行向量化存储;所述交互数据管理模块用于构建交互数据管理功能,用户对自身存储的文本数据进行搜索和删改,本发明基于AIPaaS平台,开发出文本向量化模型的交互数据管理系统,提高了文本数据的管理效率。
主权项:1.基于AIPaaS平台的中文文本向量化模型的交互数据管理系统,其特征在于,包括,AIPaaS平台模块、文本向量化模块以及交互数据管理模块;所述AIPaaS平台模块包括调试单元、功能集成单元、数据传输单元和数据存储单元;所述AIPaaS平台模块用于调试AIPaaS平台,划分AIPaaS平台的性能,显示AIPaaS平台的性能指标,在AIPaaS平台中集成交互数据管理功能;所述文本向量化模块包括词汇表单元、分词单元和向量化单元;所述文本向量化模块用于构建词汇表,划分输入的文本词汇,将所要存储的文本信息按照词汇表进行向量化存储;所述交互数据管理模块包括数据搜索单元和数据调整单元;所述交互数据管理模块用于构建交互数据管理功能,用户对自身存储的文本数据进行搜索和删改;所述调试单元用于创建可视化界面,分配获取的AIPaaS平台性能,通过可视化界面实时展示AIPaaS平台的性能指标;所述功能集成单元,用于在AIPaaS平台集成所需的功能模型;通过功能集成单元将创建的交互数据管理系统导入AIPaaS平台;所述数据传输单元,用于接收用户端向AIPaaS平台发送的请求指令以及传输AIPaaS平台向用户端发送的反馈数据;所述数据存储单元,用于存储用户向AIPaaS平台传输的向量化文本数据、发送的请求指令以及AIPaaS平台关联功能的工作时产生的日志数据;所述词汇表单元,用于构建中文词汇的向量表;将需要存储的中文词汇生成唯一对应的向量值,将所有词汇向量值集成为词汇表;词汇表V表示为:;所述分词单元,是将输入的文本进行分词;所述分词是将输入的文本分割成字符和词汇,将词汇按照词汇表的向量值进行转换存储为数据形式,若输入的文本为字符,则表示为:;若输入的文本为词汇,则表示为:;对每个字词和词汇的向量值增加向量空间维数,用于表示字符和词汇在文本中的位置;所述向量化单元,用于将文本进行向量化存储,当输入新的文本时,生成初始标识向量S;当完成文本输入时,生成结束标识向量E;单个文本的存储向量数据表示为:;所述初始标识向量S,存储了向量化文本的名称信息、向量化文本的存储位置信息和向量化文本开始存储的时间信息;所述结束标识向量E,存储了向量化文本结束存储的时间信息、向量化文本的空间大小占用信息以及向量化文本的字符和文字的数量统计信息;所述数据搜索单元采用搜索算法,用于搜索存储的向量化文本;所述搜索算法包括词汇搜索算法和语句搜索算法;构建的词汇搜索算法的步骤如下:对于向量化的文本数据,计算每个文本中每个词汇的词频,并构建词汇—文本矩阵:,其中表示词汇在向量化文本中出现的频率;对于每个词汇,创建包含词汇的文本列表,表示为:,表示为词汇在文本列表中的文本中出现;对于每个文本,使用TF-IDF法计算文本权重: ;其中,表示词汇在文本中的词频,表示逆文本频率;逆文本的计算式为: ;其中,N为总文本数量,n为包含词汇的文本数量;对查询的词汇,通过倒排索引找到包含词汇的文本列表,按照文本权重进行排序并输出;构建的语句搜索算法步骤如下:设计多个哈希函数,通过多个哈希函数,将文本向量映射到不同的哈希桶中;对于输入的查询语句,将输入的语句按照词汇表数据进行向量化,生成查询向量;对于查询向量,使用构建的哈希函数将查询向量映射到相应的哈希桶中;在与查询向量哈希值所映射到的哈希桶中寻找相似的文本向量;计算每个相似的文本向量与查询向量的距离值;选择距离值最近的文本向量进行输出。
全文数据:
权利要求:
百度查询: 知学云(北京)科技股份有限公司 基于AI PaaS平台的中文文本向量化模型的交互数据管理系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。