买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:常州微亿智造科技有限公司
摘要:本发明一种基于神经网络框架的文学作品作者识别方法,把文本分割成样本,样本划分为训练集和测试集;通过训练集训练模型,模型包括空间信息提取部分、时序信息提取部分以及时空信息结合部分;空间信息提取部分用CNN模型并行训练三种不同大小的卷积核;时序信息提取部分通过Attention机制突出文学作品文本局部信息,由两个Bi‑LSTM网络并行提取文学作品文本时间特征;时空信息结合部分将时间特征经过最大池化处理后和空间特征经过最大池化处理后被拼接送到具有sigmod激活函数的全连接层;更新模型参数,得出训练结果较好的模型做为测试模型;通过测试集得出模型精度、损失率。该方法实现文学作品的作者身份判定。
主权项:1.一种基于神经网络框架的文学作品作者识别方法,其特征在于:具体步骤如下:步骤一、数据清洗,把文本分割成样本,并且在样本上打上正负标签,将其中一位作者写的文本生成的样本作为正类样本,将另一位作者写的文本生成的样本作为负类样本,把样本划分为训练集和测试集,对样本的文字进行词向量嵌入;步骤二、通过训练集训练Parallel_ARCNN模型,所述Parallel_ARCNN模型包括空间信息提取部分、时序信息提取部分以及时空信息结合部分,所述时序信息提取部分包括Attention机制和两个Bi-LSTM网络;所述空间信息提取部分利用CNN模型并行训练三种不同大小的卷积核,卷积核采用的m*1大小的卷积核,其中m为大于1的正整数,并行提取文学作品文本空间特征;所述时序信息提取部分首先通过所述Attention机制突出文学作品文本局部信息,然后由所述两个Bi-LSTM网络并行提取文学作品文本时间特征;所述时空信息结合部分将由两个Bi-LSTM网络提取的时间特征经过最大池化处理后和由CNN模型提取的空间特征经过最大池化处理后被拼接送到具有sigmod激活函数的全连接层;更新Parallel_ARCNN模型参数,得出训练结果较好的Parallel_ARCNN模型做为测试模型;在步骤二中,所述Bi-LSTM由两个相反的单向LSTM构成,具体包括前向LSTM和后向LSTM;在每一时刻,同时将文本信息输入到前向LSTM和后向LSTM;而Bi-LSTM的输出由前向LSTM和后向LSTM共同决定,后向LSTM的输出通过拼接的方式拼接在前向LSTM输出的后面,即前向LSTM与后向LSTM最后一刻的隐藏层结果连接在一起作为Bi-LSTM的输出结果;步骤三、通过测试集得出模型的精度、损失率,而判断该模型是否能够准确的识别作品的作者;Parallel-ARCNN模型的精度由值刻画,其公式为: 其中,表示精确率;表示召回率; 的公式为: 的公式为:其中,指标签为正的样本中模型预测对的个数;指标签为正的样本中模型预测错的个数;指的是标签为负的样本中模型预测错的个数。
全文数据:
权利要求:
百度查询: 常州微亿智造科技有限公司 一种基于神经网络框架的文学作品作者识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。