首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多模混合深度学习的ICO项目欺诈自动判别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州云象网络技术有限公司

摘要:本发明公开了一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括步骤:1抽取ICO项目的多模信息作为特征输入;2构建层次化深度学习网络,基于当前已有的ICO项目作为训练样本对深度学习模型进行训练;3将需要判别的ICO项目特征输入已训练好的层次化深度学习模型,如输出为0则判别该项目为欺诈项目,否则判别该项目为非欺诈项目。依此本发明可以解决自动判别ICO新项目是否为欺诈项目的问题,添补当前针对该问题的方法欠缺,同时能够帮助投资者判别欺诈性的ICO项目使其免受资金损失,可以协助监管部门进行ICO项目欺诈的自动预警。

主权项:1.一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:1抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;2构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;3将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。

全文数据:基于多模混合深度学习的ICO项目欺诈自动判别方法技术领域本发明属于ICO项目欺诈判别技术领域,具体涉及一种基于多模混合深度学习的ICO项目欺诈自动判别方法。背景技术ICO全称为InitialCoinOffering,亦即首次代币发售或区块链众筹,其实质为区块链行业的一种融资模式。加密货币如BTC、ETH、NEO等正吸引着越来越多人的关注,与中心化电子货币和中心化银行系统相反,大多数数字代币不需要任何授权;这些去中心化系统通过区块链运转,区块链是一个开放、持续增长的分布式账本。具体而言,发行方通过发行基于区块链技术产生的代币Token来进行融资,投资方支付法定货币如美元、人民币等或虚拟货币如比特币、以太币等给发行方并获得相应比例的代币。具有代表性的ICO项目有比特币、以太币项目等,比特币自2009年发行以来,其价格由单枚不足0.01元蹿升至2018年的单枚43000元以上;与此类似,以太币自2015年发行至2018年,短短两年多的时间内其价格由初始的单枚不足30元上升至单枚2100元以上。以比特币和以太币为代表的代币的成功与暴利使得代币行业迅猛发展,截止目前全球已产生约2000个数字货币ICO项目,市场投资总额高达4万亿人民币以上。与证券行业的IPOInitialPublicOffering显著不同的是,ICO只受区块链中的共识算法制约,而不受国家法律的监管;ICO发行的代币基于区块链技术,不存在中心化机构,不受国别地域限制,任何国家的任何个人或机构都可以自由参与交易。国内以ICO模式,通过首次代币发行,进行区块链项目融资的活动大量涌现;早期投资者通过向项目发起人支付比特币或以太币等主流虚拟货币,以获得项目发起方基于区块链技术初始产生的加密数字代币,并期待代币将来在交易机构交易后,价格升值带来巨大潜在收益。当前众多的ICO项目中存在不少以区块链之名欺诈投资者的项目,如何在琳琅满目的ICO项目中自动甄别出哪些ICO项目是欺诈性的具有重大的社会价值与经济价值;尽管ICO项目可以提供公平的投资机会,众筹的便捷性给肆无忌惮的企业创造了使用ICO进行拉高出货的机会,也就是说ICO的发起人抬高了众筹加密货币的价格俗称拉盘,然后迅速出售加密货币来获利俗称砸盘;此外,加密货币的去中心化本质对政府监管带来了极大的挑战。具体而言,提出ICO项目欺诈自动判别的必要性体现在以下三点:首先,ICO项目往往涉及金额巨大,单个项目基本在一亿元人民币以上;其次,ICO项目不受国别和法律约束,一般不需要注册经营牌照,没有国家信任背书,投资者需要自担风险,而ICO的大部分投资者为爱好者或不专业的投资人员;第三,当前亟缺针对ICO项目欺诈性的自动甄别方法。发明内容鉴于上述,本发明提供了一种基于多模混合深度学习的ICO项目欺诈自动判别方法,该方法采用层次化的深度学习模型,输入ICO项目的多模信息包括项目基本信息、GitHub代码信息和白皮书信息,输出为ICO项目的欺诈性判别结果。一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:1抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;2构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM长短期记忆网络、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;其中,layer1、layer2、layer3层为隐藏层,神经单元个数可按需调整,激活函数使用Relu函数;LSTM层作用为将项目基本信息描述文字、白皮书等序列化文字转化为一个高维向量特征表示;全连接层的作用为逐层提取更高阶语义特征向量;Softmax层作用为获得目标输入项目属于欺诈或非欺诈项目两个类别的概率;3将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。进一步地,所述步骤1的具体实现过程如下:1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息;1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;1.3统计ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数作为人工提取的特征向量,即第二类特征向量;1.4使用章节将白皮书信息切分为多段,利用Doc2Vec模型将每一段抽取为300维的向量,抽取后得到的多个向量按照其对应段在白皮书中的顺序进行排列组成有序向量,同时统计白皮书的词数、平均词长度、章节数、词长方差、前50个高频词的出现次数作为人工提取的特征向量,即第三类特征向量。所述项目基本信息包括项目所属类别、项目简介、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队为项目排名前20的核心成员,项目关键字为排名前5的关键词;对于项目简介则利用开源项目Gensim的Doc2Vec模型进行抽取得到300维的向量,对于项目关键字则利用开源项目Gensim的Word2Vec模型进行抽取得到5个20维的向量,进而将这两部分向量排列组成有序向量;项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队均使用人工提取的方法得到对应的特征向量。进一步地,所述项目基本信息的特征向量包括基于项目简介、关键词提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。进一步地,所述GitHub代码信息的特征向量仅包含人工提取的特征向量,其直接输入至layer3层,layer3层的输出经过两个全连接层FullyConnectedLayer和一个Softmax层输出分类结果的概率分布。进一步地,所述白皮书信息的特征向量包括基于白皮书文档提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。进一步地,所述步骤2的具体实现过程如下:2.1对于发行时间距今超过一年的ICO项目,将每个ICO项目关于项目基本信息、GitHub代码信息和白皮书信息的三类特征向量作为输入,使用深度学习网络模型进行有监督训练;2.2对于有监督训练中的标签设置方法为:若ICO项目在发行一年后失败或一年后价格变得低于发行价的0.2%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。进一步地,所述步骤3中将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,Softmax层输出该ICO项目为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则最终输出结果为0,否则最终输出结果为1。本发明方法可以解决自动判别ICO新项目是否为欺诈项目的问题,添补当前针对该问题的方法欠缺,同时能够帮助投资者判别欺诈性的ICO项目使其免受资金损失,可以协助监管部门进行ICO项目欺诈的自动预警。附图说明图1为本发明用于ICO项目欺诈分析的特征分类图。图2为本发明用于ICO项目欺诈判别的深度学习网络结构图。具体实施方式为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。本发明基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:1抽取ICO项目的多模信息作为特征输入,具体实现过程为:1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息,并抽取相应的三类特征向量;1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;1.3统计该ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数等组成特征向量,作为第二类特征向量;1.4使用章节将白皮书信息切分为多个段,对每一段使用Doc2Vec模型抽取为300维的向量,抽取后的多个向量按照其对应的段在白皮书中的顺序进行排列,以便输入LSTM中,并统计白皮书的词数、平均词长度、章节数、词长方差、前50高频词出现次数为人工抽取的特征向量,作为第三类特征向量。项目基本信息包括基于项目简介、关键词提取的有序向量、基于人工提取的特征向量,有序向量顺序输入LSTM,人工提取的特征与layer2层的输出连接后输入layer3层;具体项目信息还包括项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字等,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队选取项目排名前20的核心成员,项目关键字选取排名前5的关键词,项目简介使用开源项目Gensim的Doc2Vec模型抽取为300维的特征向量,项目关键字使用Gensim的Word2Vec模型抽取为5个20维的向量,项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队信息使用人工提取的方法抽取特征向量。GitHub代码信息仅包含人工提取的特征,直接输入其对应的layer3层,Layer3层的输出经过两层全连接层和一个Softmax层输出分类结果的概率分布。白皮书信息包括基于白皮书文档提取的有序向量和基于人工提取的特征向量,白皮书提取的有序向量顺序输入白皮书对应的LSTM,其人工提取的特征与相应的layer2层的输出连接后输入layer3层。2构建层次化深度学习网络,基于当前已有的ICO项目作为训练样本对深度学习模型进行训练,具体实现方法为:2.1对于发行时间距今超过一年的ICO项目,按照三类特征向量作为输入,使用深度学习网络模型进行有监督训练;2.2对于有监督训练中的标签设置方法为:ICO项目若在发行一年后失败或一年后价格变得低于发行价的0.2%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。3将需要判别的ICO项目特征输入已训练好的层次化深度学习模型,如输出为0则判别该项目为欺诈项目,否则判别该项目为非欺诈项目。输入从需要判别的ICO项目中提取的特征至已训练好的神经网络中,Softmax层输出其为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则输出0,否则输出1。本实施方式选取以太坊ICO项目为例,对该项目是否为欺诈项目自动进行判别,具体过程如下:1抽取以太坊项目的多模信息作为特征输入;如图1所示,将以太坊项目相关信息组织成三个大类:以太坊项目基本信息、以太坊GitHub代码信息和以太坊白皮书信息,分别说明如下:以太坊项目基本信息包括项目简介、项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字等;具体而言,以太坊项目所属类别为金融服务,项目核心团队选取项目排名前20的核心成员,项目关键字选取排名前5的Ethereum以太坊、smartcontract智能合约、smartmoney智能货币、smartwallet智能钱包、decentralizedapplication去中心化应用;项目简介使用Doc2Vec模型抽取为300维的特征向量,项目关键字使用Word2Vec模型抽取为5个20维的向量,项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队信息使用人工提取的方法抽取特征向量。GitHub代码特征的抽取主要依赖人工选取。具体而言,统计以太坊项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数等组成特征向量。白皮书使用章节切分为6段,对每一段使用Doc2Vec模型抽取为300维的向量。抽取后的多个向量按照其对应的段在白皮书中的顺序进行排列,以便输入LSTM中。同时,统计白皮书的词数、平均词长度、章节数、词长方差、前50高频词出现次数作为人工抽取特征。2构建层次化深度学习模型,基于当前已有的ICO项目作为训练样本对深度学习模型进行训练,具体实施过程为:对于发行时间距今超过一年的ICO项目,按照步骤1抽取项目的三类特征向量作为输入,使用如图2所示的深度学习网络模型进行有监督训练;对于有监督学习中的标签设置方法为:ICO项目若在发行一年后失败退出或一年后价格变得低于发行价的0.1%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。图2中的深度学习网络模型结构为:最底部的输入层自左向右为输入三种类别的数据,即项目基本信息、GitHub代码特征和白皮书特征。其中项目基本信息包括基于项目简介和关键字提取的有序向量和基于人工提取的特征向量,有序向量顺序输入LSTM,人工提取的特征与layer2层的输出连接后输入layer3层。与此类似,白皮书特征包括基于白皮书文档提取的有序向量和基于人工提取的特征向量,白皮书提取的有序向量顺序输入白皮书对应的LSTM,其人工提取的特征与相应的layer2层的输出连接后输入layer3层;GitHub代码信息仅包含人工提取的特征,直接输入其对应的layer3层。Layer3层的输出经过两层全连接层和一个Softmax层输出分类结果的概率分布。3将以太坊项目特征输入已训练好的层次化深度学习模型,如输出为0则判别该项目为欺诈项目,否则判别该项目为非欺诈项目,其具体实现为:输入以太坊项目中的特征到已训练好的神经网络中,Softmax层输出其为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则输出0,否则输出1。上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

权利要求:1.一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:1抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;2构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;3将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。2.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤1的具体实现过程如下:1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息;1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;1.3统计ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数作为人工提取的特征向量,即第二类特征向量;1.4使用章节将白皮书信息切分为多段,利用Doc2Vec模型将每一段抽取为300维的向量,抽取后得到的多个向量按照其对应段在白皮书中的顺序进行排列组成有序向量,同时统计白皮书的词数、平均词长度、章节数、词长方差、前50个高频词的出现次数作为人工提取的特征向量,即第三类特征向量。3.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述项目基本信息包括项目所属类别、项目简介、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队为项目排名前20的核心成员,项目关键字为排名前5的关键词;对于项目简介则利用开源项目Gensim的Doc2Vec模型进行抽取得到300维的向量,对于项目关键字则利用开源项目Gensim的Word2Vec模型进行抽取得到5个20维的向量,进而将这两部分向量排列组成有序向量;项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队均使用人工提取的方法得到对应的特征向量。4.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述项目基本信息的特征向量包括基于项目简介、关键词提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。5.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述GitHub代码信息的特征向量仅包含人工提取的特征向量,其直接输入至layer3层,layer3层的输出经过两个全连接层和一个Softmax层输出分类结果的概率分布。6.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述白皮书信息的特征向量包括基于白皮书文档提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。7.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤2的具体实现过程如下:2.1对于发行时间距今超过一年的ICO项目,将每个ICO项目关于项目基本信息、GitHub代码信息和白皮书信息的三类特征向量作为输入,使用深度学习网络模型进行有监督训练;2.2对于有监督训练中的标签设置方法为:若ICO项目在发行一年后失败或一年后价格变得低于发行价的0.2%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。8.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤3中将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,Softmax层输出该ICO项目为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则最终输出结果为0,否则最终输出结果为1。

百度查询: 杭州云象网络技术有限公司 基于多模混合深度学习的ICO项目欺诈自动判别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。