首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于句式结构的汉语自动句法分析器 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京汉雅天诚教育科技有限公司

摘要:本发明提供一种基于句式结构的汉语自动句法分析器,包括S1,扩展正则表达式的语法模式,实现基于多元词特征序列的扩展正则表达式语法;S2,使用S1得到的所述扩展正则表达式语法,构建句法规则库;S3,构建与S2构建的所述句法规则库配套的词汇知识库和词法知识库;S4,基于S3构建的词汇知识库和词法知识库,采用词法、句法一体化分析算法进行句式结构的汉语自动句法分析。本发明的有益效果是:本发明实现了基于句式结构体系的汉语自动句法分析功能,提升了大规模句本位语法树库的构建效率,为形式化的图解析句与中文信息处理下游应用的衔接铺平了道路。

主权项:1.一种基于句式结构的汉语自动句法分析器,其特征在于,包括如下步骤:S1,扩展正则表达式的语法模式,实现基于多元词特征序列的扩展正则表达式语法;S2,使用S1得到的所述扩展正则表达式语法,构建句法规则库;S3,构建与S2构建的所述句法规则库配套的词汇知识库和词法知识库;S4,基于S3构建的词汇知识库和词法知识库,采用词法、句法一体化分析算法进行句式结构的汉语自动句法分析,具体步骤为:使用逗号标点“,”将输入句子切分为多个标点句;采用S3构建的所述词汇知识库和词法知识库,对每个标点句进行词法分析,生成词特征序列候选集;采用S2构建的所述句法规则库,对所述词特征序列候选集进行句法分析,输出句式结构表达式,完成句式结构的汉语自动句法分析;其中,S2中,所述构建句法规则库的步骤为:S201,按照句式结构的成分格局,推导单层句式结构的成分序列组合模式,采用形式文法表示如下:小句句式::=连?状*定*主连?谓语部分助?谓语部分::=单核谓语|合成谓语|联合谓语|连动谓语|兼语谓语|主谓谓语单核谓语::=状*谓定*宾|状*谓|状*谓定*宾定*宾|状*谓补|状*谓定*宾补|状*谓补定*宾合成谓语::=状*谓谓语部分联合谓语::=单核谓语连?谓语部分连动谓语::=单核谓语谓语部分兼语谓语::=状*谓定*宾{1,2}谓语部分主谓谓语::=小句句式其中,主、谓、宾、定、状、补表示六种句子成分,连、助表示句式结构中的连词位和助词位;上述推导表示成最终的扩展正则表达式时,句子成分采用“?xxx”的命名分组形式,xxx对应编码为:主语sbj、谓语prd、宾语obj、定语att、状语adv、补语cmp、独立语ind,虚词位采用“?xx”的命名分组形式,xx对应编码为:连词位cc、助词位uu、介词位pp、方位词位ff;S202,按照句本位语法的成分和词类对应关系,推导句子成分的词特征序列组合模式,采用形式文法表示如下:1主::=NP2宾::=NP3NP::=NPc?NP*|n|t|r①|m①|.+?的|.+?f4谓::=v|a|r②5定::=n|a|r③|m|.+的6状::=d|a|t|n①|r③|m②|.+地|.+?f|PP7补::=d|a|m②|得.+|PP8PP::=p.+?f|u⑧?9独::=e|NP,上述推导表示成最终的扩展正则表达式时,其中虚词词类采用S201中所述的虚词位形式;S203,补充S201、S202之外的标点句模式,如下:句前模式::=连?状|独+,谓前模式::=连?状|独*主,|连?状|独*主连?状|独+,连名模式::=连NP,S204,为S201、S202、S203的模式建立句法规则,数据库字段包括:id、模式名称、模式表达式、标点句类型、频次、句法选用概率;其中,标点句类型字段取值为:xj、np、vp、jq、wq、null,与S201、S202的形式文法中产生式的对应关系为:小句句式xj,谓语部分vp,NP和连名模式p,句前模式jq,谓前模式wq,其它ull;所述句法选用概率的计算公式为: 其中,句法规则的使用频次、模式表达式的匹配次数均从句本位语法树库中统计得到;S3中,词汇知识库和词法知识库具体为:S301,词汇知识库的数据库字段包括:id、词形、词类、子类、释义、用例、频次、是否组合歧义;其中,词类的字母编码为:名词、时间词t、方位词f、数词m、量词q、代词r、动词v、形容词a、副词d、介词p、连词c、助词u、叹词e、拟声词o、标点w;子类编码如下:n①:时空类名词n②:中国人名之姓氏n③:中国人名v①:不及物动词v②:及物动词v③:双宾动词v④:引出兼语谓语的动词v⑤:引出合成谓语的动词v⑥:由动词短语或小句充当宾语的动词v⑦:趋向动词v⑧:引出连动谓语的动词v⑨:可作结果补语的动词v⑩:可以独立充当状语的动词a①:属性词a②:状态词a⑨:可作结果补语的形容词m①:数词与名量词组合的数量词m②:数词与动量词或时量词组合的数量词q①:名量词q②:动量词或时量词r①:代名词r②:代谓词r③:代饰词c①:连接小句的连词c②:连接并列NP的连词c③:连接同位语的连词c④:连接联合谓语的连词u①:语气助词u②:动态助词u③:连接定、状、补的结构助词u④:用于句末的结构助词u⑤:用于NP后的结构助词u⑥:用于VP前的结构助词u⑦:用于句首的结构助词u⑧:框式结构中的结构助词S302,词法知识库存储句式结构中的动态词结构模式,其数据库字段包括:id、模式名、结构属性、词法正则表达式、词类、子类、示例、频次、词法选用概率;其中,结构属性对应句式结构体系XML中的@mod属性;词法正则表达式采用扩展正则表达式形式,用于匹配动态词内部的词素特征序列;词类取值同S301中词类的字母编码;子类有两种取值方式,一种是取S301中子类编码,另一种是:用“\n”形式,其中n代表一个数字,表示动态词的子类特征由内部第n个词素的子类特征决定;词法选用概率的计算公式为: 其中,动态词结构模式的使用频次、词法正则表达式的匹配次数均从句本位语法树库中统计得到。

全文数据:

权利要求:

百度查询: 北京汉雅天诚教育科技有限公司 一种基于句式结构的汉语自动句法分析器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。