首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向句式结构图解分析的交互式标注方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宋继华;彭炜明;郭冬冬;宋天宝

摘要:本发明提供一种面向句式结构图解分析的交互式标注方法和系统,方法包括:对传统正则表达式进行扩展,得到新型正则表达式;使用新型正则表达式构建句式规则集;对待标注文本进行分词和词性标注,生成词对象序列;使用句式规则集,对词对象序列进行单层句式结构分析,将分析结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。本发明提供的一种面向句式结构图解分析的交互式标注方法和系统,构建交互式标注环境,语料标注采用逐层分析、逐层标注的模式,且在系统分析结果正确的情况下,所有单层成分的切分可以通过一次鼠标操作完成,因此,提高标注效率。

主权项:1.一种面向句式结构图解分析的交互式标注方法,其特征在于,包括以下步骤:步骤S1,对传统正则表达式进行扩展,得到新型正则表达式;所述新型正则表达式支持词对象序列的正则匹配;其中,传统正则表达式以字符串作为输入,以字符为单位匹配,匹配过程中需要不断判断文本中的字符是否等于正则表达式中的字符或属于正则表达式中的字符集;步骤S2,使用所述新型正则表达式构建句式规则集;具体的,通过句子成分的词形特征和词性特征建立句式规则集,所述句式规则集中的每个句式规则使用所述新型正则表达式表示;其中,所述词性特征为长度为1的英文字母,所述词形特征为长度大于等于1的中文字符串;其中,所述句子成分包括:主语、谓语、宾语、定语、状语和补语;所述句式规则具体为:1获得单层句式结构中各种句子成分的结构规律;2根据所述句子成分的结构规律,使用所述新型正则表达式表示每种句子成分;然后,根据句式结构特点,将各个所述句子成分组合在一起,构建得到一条完整的句式规则;步骤S3,对待标注文本进行分词和词性标注,生成词对象序列;步骤S4,使用步骤S2构建的所述句式规则集,对步骤S3生成的词对象序列进行正则匹配,将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内;其中,步骤S1具体包括以下步骤:步骤S101,对传统正则表达式的匹配机制进行改造,使所述新型正则表达式支持匹配所述词对象序列;具体的,所述新型正则表达式的输入为所述词对象序列,所述新型正则表达式的内部定义的比较操作指令为:使所述词对象序列中当前词对象的任一属性与所述新型正则表达式中当前字符集或词汇集进行比较操作;其中,所述词对象序列包括多个词对象;每个所述词对象是面向对象编程语言中的对象,具有词形属性、词性属性、前标点属性和后标点属性;步骤S102,对传统正则表达式的基本语法进行扩展,使所述新型正则表达式体现词汇的概念;具体的,对于所述新型正则表达式,首先定义一种表示词汇集合的词汇语法;所述词汇语法为:使用“[#”和“]”包裹一个词汇集合,形式为:“[#词汇集合]”,所述词汇集合特点为:在中括号内部以符号“#”开始,符号“#”作用为:使正则树生成器识别到符号“#”后面为词汇集合;所述词汇集合包括多个词汇,相邻词汇之间使用符号“|”分隔;然后,扩展所述新型正则表达式内正则树的节点类型以及操作指令类型,添加词汇集合到正则树再到操作指令的转换程序。

全文数据:

权利要求:

百度查询: 宋继华 彭炜明 郭冬冬 宋天宝 面向句式结构图解分析的交互式标注方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。