首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于实时图像流的简谱图像识别与编码方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国地质大学(武汉)

摘要:本发明提供了一种基于实时图像流的简谱图像识别与编码方法及系统,包括:实时图像流循环采集模块、简谱图像处理与识别模块、MIDI文件生成模块;基于实时图像流的方式,循环采集直至得到最稳定的简谱图像,根据所述简谱图像处理与识别模块对简谱图像进行处理和识别,并按照标准电子音乐文件格式MIDI对所述音乐信息进行编码和保存。本发明的有益效果是:本发明实现了纸质简谱的数字化存储和传输,在图像流的基础上,解决了机器人实时读谱演奏过程中稳定图像的获取问题和复杂情况下简谱识别及编码的问题,能够连续识别出多张乐谱,抗干扰能力好,具有比较强的实用性。

主权项:1.一种基于实时图像流的简谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放架;其特征在于:包括:S1:对利用所述摄像头实时抓取的简谱图像流进行采集,并将所述简谱图像流以时间上连续的简谱图像进行序列化储存;选择简谱图像流中稳定的简谱图像,平均滤波处理后保存该简谱图像;摄像头在1秒内连续拍摄抓取5帧乐谱图像;选择选择简谱图像流中稳定的简谱图像,平均滤波处理后保存该简谱图像的过程为:取出5张所述的时间上连续的乐谱图片,对其中连续的两张直接做背景差分算法,将相邻的两张图片像素点直接相减,将像素灰度差异值小于15像素点的视为噪声干扰,忽略此差异,像素灰度差异值在15像素点以上时,定义像素变化点的个数占总像素点个数比为视频流的变化率,通过4次差分,累加变化率得到5张图片间的视频流变化率;将所述的视频流变化率和预设的动态变化阈值相比较,若大于动态变化阈值,则视频为动态翻页过程,丢弃检测到的动态视频流,循环进入下一次视频流采集;若小于动态变化阈值,则说明视频流稳定,将5张时间上连续的图片像素值做累加后再平均,达到在时间上平均滤波的效果,减少在一次拍摄过程中由于摄像头感光元件、光线因素等所造成的噪声干扰,最后保存平均滤波处理后的稳定乐谱图像;S2:获取步骤S1中保存的简谱图像,并对该简谱图像做二值化处理,识别二值化后的简谱图像中的小节线和下划线;根据识别出的下划线的角度对简谱图像做图片旋转矫正处理;根据所述小节线和下划线,通过基于特征学习的双层图像算子训练方法识别和定位所述旋转矫正后的简谱图像中的各种简谱音乐符号;二值化处理的过程为:通过Otsu算法,以聚类的思想将图像像素灰度分为两类,以最大化类间方差为目标,将采集到的灰度图像进行二值化处理,即黑色灰度值为0,白色灰度值为255;小节线和下划线的识别通过基于特征学习的双层图像算子训练方法实现,事先通过某一训练集中的训练数据对双层图像算子进行训练,以机器学习的方式,在训练过程中主动学习样本特征,并以图像算子的形式保存;训练双层图像算子的过程为,将带标签的训练样本作为输入—输出图像对,将二值化后的图像作为输入图像,输出图像为输入图像中仅含有小节线和下划线的部分图像,该部分图像为带有标签的训练样本,以此为输入—输出图像对,采用Relief算法训练第一层图像算子,得到的图像算子表示学习到小节线的特有特征,训练出来的算子和原始图像卷积就能得到仅剩小节线和下划线的输出图像,以这种方式完成对原始图像中小节线和下划线的识别,所述原始图像是指二值化及旋转矫正处理后的简谱图像;在所述的仅剩小节线和下划线的输出图像中,通过检测下划线的角度,将其与水平线之间的角度差作为图像旋转角度,对图像进行旋转矫正;所述简谱音乐符号包括数字:“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”,字母:“C”、“D”、“E”、“F”、“G”、“A”、“B”,其他符号:连音符、附点、升音符、降音符和还原符,共22种不同类型;各种简谱音乐符号的识别通过所述的基于特征学习的双层图像算子训练方法实现,将带标签的训练样本作为输入—输出图像对,以机器学习的方式,在训练过程中主动学习样本特征,并以图像算子的形式保存;每次训练只将原始图像分为两类,经过多次训练,得到多个图像算子,进而实现对每种音乐符号的识别和高精度分类;S3:按照标准电子音乐文件格式MIDI对步骤S2中得到的各种简谱音乐符号进行编码和保存,生成MIDI文件,即完成了对简谱图像的识别和编码,以便演奏机器人进行演奏该简谱对应的乐曲;MIDI文件的生成包含简谱调式的生成、简谱音高序列生成、简谱各音高对应音符时值生成与匹配、简谱音符信息序列中音高与时值的调整和简谱二进制文件编码与存储;简谱调式的生成,实质上是对“C”、“D”、“E”、“F”、“G”、“A”、“B”七个大写字母的识别,即对所述的经过旋转矫正后的简谱图像,分别与学习到的字母“C”、“D”、“E”、“F”、“G”、“A”、“B”的特征图像算子做卷积,输出图像中含有的字母即为本首乐曲的调式基础;简谱音高序列生成,实质上是对“1”、“2”、“3”、“4”、“5”、“6”、“7”七个数字和附点、升音符、降音符、还原符四种音乐符号的识别;将所述的经过旋转矫正后的简谱图像,分别与学习到的字母“1”、“2”、“3”、“4”、“5”、“6”、“7”的特征图像算子做卷积,输出图像中含有的数字即为音符音高,再根据不同音的位置关系,将识别的音高按位置先后顺序编码成音符序列;简谱各音高对应音符时值生成与匹配,实质上是对各音符音高附近下划线的识别;将所述的经过旋转矫正后的简谱图像,与学习到的包含下划线和小节线的特征的图像算子做卷积,输出图像即仅含下划线和小节线的图像,定位各下划线在图像中的起始位置和终止位置,结合位置关系,将其与识别到的音符音高做匹配,即可得到各音高对应的时值;简谱音符信息序列中音高与时值的调整,实质上是对连音符号的识别,将所述的经过旋转矫正后的简谱图像,与学习到的包含连音符号特征的图像算子做卷积,输出图像即仅含连音符号的图像,定位各下划线在图像中的起始位置和终止位置,结合位置关系,将相邻两相同音高的音符连在一起,时值为两相同音高时值之和,在乐理先验知识的基础上,结合调号,最终确定音符音高和时值;简谱二进制文件编码与存储,实质上是将识别到的所有包含音符音高与时值的音符序列按照MIDI格式转化为二进制文件,即标准电子音乐文件格式进行存储。

全文数据:

权利要求:

百度查询: 中国地质大学(武汉) 一种基于实时图像流的简谱图像识别与编码方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。