CN111399638B

CN111399638B - 一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法

Info

Publication number: CN111399638B
Application number: CN202010132964.7A
Authority: CN
Inventors: 郑雅羽; 石俊山; 林斯霞; 朱威
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2023-06-30
Anticipated expiration: 2040-02-29
Also published as: CN111399638A

Abstract

本发明涉及一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法，实时识别用户当前的手机使用界面，通过图像处理和机器学习的方法分析界面信息，对于当前界面中出现的具有明显图像特征或是文字特征的控件进行识别定位，并结合手势识别网络，以语音提示的方式对盲人用户进行操作引导，使盲人用户更好地使用智能手机。本发明检测识别快，在复杂环境以及目标多尺度的情况下识别精度高，普适性好；在应用不支持无障碍操作时，让用户对页面信息有较完整认识，引导点击，提供缓存操作，解决盲人用户操作智能手机时缺乏全局性了解的问题，极大改善盲人用户使用智能手机的操作体验，系统通过具有较高便携性的盲用电脑作为载体并实现。

Description

一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法

技术领域

本发明涉及电数字数据处理的技术领域，特别涉及一种通过图像处理技术结合机器学习技术来辅助盲人用户使用智能手机盲用电脑及适配于盲用电脑的智能手机辅助控制方法。

背景技术

随着多媒体技术的发展和移动通讯网络的应用普及，智能手机已经成为人们生活中不可或缺的电子设备，社会生活所需的社交、购物、订餐、查询等功能都需要依靠智能手机来完成。当下的智能手机一般都依靠触摸屏进行输入，通过图形界面的方式与用户进行交互，并且将许多传统的文字信息转换为更加简洁直观的图形图标来表示，增强了视觉效果，然而，这种依赖视觉的交互方式却给盲人的使用带来了不便。

基于此，盲人用户普遍都会借助手机读屏软件来操作手机，但市面上的读屏软件在使用过程中仍存在着各式各样的瓶颈，比如语音播报没有重点、描述不清，或是弹窗广告无法识别、无法引导盲人用户关闭广告，再比如识别网页时对于无法识别的符号和图片会采取跳过处理，但盲人并不知道读屏软件采取了什么操作，这会造成盲人用户对于全文的理解性较差，还有无法提供选项被选中后的图形变化，盲人无法得知是否选中等，而对于不支持无障碍操作的应用，盲人的使用则会更加困难，这严重制约了盲人用户的使用体验。

目前国内预估有至少600万视障人士在使用智能手机，因此，提供一种辅助盲人用户使用智能手机的方法和装置，对于方便盲人的日常生活，提供盲人用户的使用体验，有着十分积极的意义。

申请号为201910021633.3的专利“一种适用于盲人操作手机的自动点击方法”中，对手机的读屏软件功能进行了扩展，增加了对于当前页面所有可识别控件的自动分析功能，但该专利需要盲人用户手动将各个使用模式和相应快捷键联系起来，虽然在部分常用功能上可以使盲人用户一键完成相应操作，但在非预设功能的手机上使用仍较为繁琐，也没有解决对于不支持无障碍操作的应用软件的使用问题。

申请号为201910030373.6的专利“一种适用于盲人操作手机的全屏引导点击方法”中，提出了一种对于盲人用户进行屏幕点击的引导方法，通过截取当前手机屏幕并进行分析的方法，将图片中的文字识别出来并且模拟为安卓控件，解决了原本读屏软件中无法识别、选中图片的问题，但该方法实时性较差，也不具备智能分析、智能引导盲人用户的功能。

发明内容

本发明解决了现有技术中存在的问题，提供了一种优化的盲用电脑及适配于盲用电脑的智能手机辅助控制方法。

本发明所采用的技术方案是，一种适配于盲用电脑的智能手机辅助控制方法，所述方法包括以下步骤：

步骤1：启动盲用电脑，设置状态标识；初始化状态标识，进入待机模式；

步骤2：启动盲用电脑的深度摄像头，获取任一帧视频图像；

步骤3：检测所述视频图像中的焦点框；

步骤4：利用训练完成的手势检测网络对手势特征点进行识别；

步骤5：若检测到焦点框，则进行步骤7；若未检测到焦点框且识别到手势特征点，则进行步骤6；若未检测到焦点框且未识别到手势特征点，则进行步骤11；

步骤6：对用户对应的手指处的文字进行识别，将识别结果以语音输出，进行步骤11；

步骤7：判断当前使用界面与已缓存的若干帧图像间的关系，确认用户执行的操作；

步骤8：实时监测焦点框的移动，判断当前视频图像对应的页面是否不支持无障碍操作或是否存在无法识别的图片，若是，执行步骤9，否则，进行步骤11；

步骤9：将最新时间戳编号的图片通过页面信息检测识别算法，识别图片中的控件信息以及文字信息；

步骤10：结合步骤7中用户执行的操作及步骤9中的控件信息以及文字信息，通过语音输出对用户进行提示和指导；

步骤11：若收到结束信息，则程序结束，关闭盲用电脑，否则，返回步骤2。

优选地，所述步骤3包括以下步骤：

步骤3.1：将获得的视频图像复制一份，其中一份从RGB格式转换为HSV格式，筛得预设阈值内的像素点，其余像素点置为黑色；

步骤3.2：将过滤后的图像顺次进行灰度化及二值化处理，对噪声进行对应的滤波处理；

步骤3.3：对图像中未置为黑色的像素点设置最小外接矩形；采用交并比的方式比对图像中留下的轮廓的外接矩形及对应的轮廓的面积；若轮廓的外接矩形面积和轮廓的面积比值小于阈值则对当前外界矩形进行滤除；

步骤3.4：若存在矩形的焦点框，则进行步骤3.6，否则进行下一步；

步骤3.5：对于步骤3.3中寻找到的轮廓，对轮廓区域通过累计概率霍夫变换寻找二值化图像中的直线，并通过设定阈值的方式过滤掉长度小于阈值及不平行的直线；通过划线函数在新建的画布上将直线检测的结果连接起来，以连接后的图形重复步骤3.3；

步骤3.6：保存焦点框的中心点坐标、宽、高，与复制的另一份视频图像一起，进行步骤4；否则提示用户对智能手机的显示画面进行移动，返回步骤3.1。

优选地，所述步骤4包括以下步骤：

步骤4.1：若当前帧的前一帧视频图像中已经识别到用户手掌，则以MedianFlow算法对用户手掌进行追踪并显示，进行步骤4.6，否则，进行下一步；

步骤4.2：以当前帧视频图像构建图像金字塔，在若干种尺度下以训练样本中的多种手势模型与当前用户手势进行滑窗匹配，将检测结果通过非最大抑制的方法进行筛选；

步骤4.3：通过支持向量机的方法，计算当前手势与滑窗匹配得到的手势模型间的匹配分值；

步骤4.4：若匹配分值超过阈值，则匹配，进行下一步，否则，读入下一帧图像，返回步骤4.1；

步骤4.5：基于匹配分值，得到用户当前的手势，并且初始化MedianFlow追踪算法；

步骤4.6：以训练好的手势检测网络对得到的手势所在的包围盒进行特征检测，获得表征手指的特征点所在的位置，记录。

优选地，所述步骤6中，对用户对应的手指处的文字进行识别包括以下步骤：

步骤6.1：若用户停留在阅读位置超过预设时间，则对手指区域预设范围内的文字内容进行识别；若未检测到手指，则对当前图像全文识别；进行下一步；

步骤6.2：基于步骤6.1，通过训练好的文字位置检测网络对文字内容进行检测，对检测结果腐蚀膨胀，通过轮廓检测的方式得到目标中所有文本行区域的定位框；

步骤6.3：遍历所有的定位框；依次判断任意两个定位框之间是否相交，如果相交则计算其重叠区域，如果重叠区域面积与相交的两个定位框的最小面积的占比大于阈值，则将两个定位框合并；

步骤6.4：滤除合并后仍小于阈值M的定位框，将定位框中的内容送交训练好的文字识别网络进行文字识别；

步骤6.5：将文字识别结果保存为TXT格式的文件，并将文字送交语言单元，通过TTS技术将文本转换为语言文件，并通过语音模块播报。

优选地，所述步骤7包括以下步骤：

步骤7.1：利用ORB算法对当前视频图像进行检测，计算关键点和描述符；

步骤7.2：使用FLANN算法，以关键点与之前保存的若干帧图像进行特征点匹配，获得匹配特征点，并提取最优配对；

步骤7.3：对匹配特征点按照匹配度从高至低进行排序，利用RANSAC方法去除误匹配；

步骤7.4：以处理后的匹配点数量与位置信息，判断当前视频图像对应的手机页面与之前若干帧图像对应的页面的关系；

若部分匹配，则判断为由用户进行滑动操作得到，进行下一步；

若与之前任一图像的相同或相似度高于预设值，则认为发生了返回操作，记录返回的层次，将返回的层次通过语音的方式告知用户，进行步骤8；

否则进行步骤7.6；

步骤7.5：对当前视频图像对应的手机页面与上一帧图像对应的页面进行图像配准和图像融合操作，拼接为一副完整图像；设置输出，进行步骤8；

步骤7.6：将当前视频图像对应的手机页面输入图像编码单元进行压缩编码，并且以时间戳为文件名保存为预设格式的图像；设置输出，进行步骤8。

优选地，所述步骤7.5中，图像配准和图像融合操作包括以下步骤：

步骤7.5.1：根据RANSAC方法去除误匹配后的特征点，计算两帧匹配图像之间的变换矩阵，根据变换矩阵计算配准后图像的四个顶点坐标；

步骤7.5.2：通过透视变换，将当前帧图像与匹配图像配准至同一坐标下，计算重叠区域宽度；

步骤7.5.3：在图像的重叠区域进行加权融合，其像素的权重正比于当前处理点距重叠区域上边界的距离，对于图像的非重叠区域，则直接将两幅图像的像素叠加；得到拼接后的完整图像。

优选地，所述步骤8中，检测焦点框的移动：

a.若用户连续操作次数超过阈值，但焦点框并未发生移动，则当前视频图像对应的页面中存在不支持无障碍操作的控件；

b.若用户连续操作次数超过阈值，读屏软件的焦点框可以发生上下移动，但上下移动时读屏软件焦点框的轮廓位置不连续，则当前视频对应的页面存在图片或者盲用电脑无法识别的信息；所述b中，对图片或者盲用电脑无法识别的信息截图，进行OCR处理，将识别出的文字信息拼接为完整语意后以语音输出；

c.读屏软件焦点框的大小等于整个手机屏幕的大小，则可以判断当前页面不支持无障碍操作。

优选地，所述步骤9中，页面信息检测识别算法包括以下步骤：

步骤9.1：初始化一用于存储网络的识别结果的三维字符串数组，所述数组初始状态为空；

步骤9.2：基于训练好的多目标检测网络，识别当前视频图像对应的手机页面中与匹配素材库中相同的图形标志信息，将识别结果以及其坐标值存入数组，其中，以手机页面的左上角为坐标原点，数组的第一列的存储内容为分类标签，第二列的内容为其行坐标值，第三列的内容为其列坐标；

步骤9.3：通过文字识别网络识别当前页面中的文字信息，滤除识别结果中无法识别以及不完整的语意的内容后，存入另外若干数组，其中，数组第一列的存储内容为识别结果，第二列的内容为其行坐标值，第三列的内容为其列坐标；

步骤9.4：基于行坐标和列坐标，对所有数组进行排序，并且将排序后的数组进行筛选，将第一列字符串长度为2-3个汉字的结果作为控件信息，存入控件数组。

优选地，所述步骤10包括以下步骤：

步骤10.1：以从左到右、从上到下的顺序，将步骤9中最终得到的所有数组内容拼接成完整语意，以语音输出的形式进行播报；用户选择需要点击的控件；

步骤10.2：若获得用户想要点击的控件信息，则通过字符串比较的方式，从控件数组中查找该控件坐标，进入步骤10.4，否则待机，等待用户的进一步操作，直至监测到用户手部特征点，进入步骤10.3；

步骤10.3：用户开始操作手机，基于步骤4中得到的手指特征点位置信息，从所有数组中查找并播报当前手指附近N*M个像素区域内的信息；

步骤10.4：获得用户输入后，语音输出、引导用户的手指向该控件位置移动，当用户食指特征点与控件的中心位置重合时，向盲人用户发出语音提示，告知盲人用户已位于该控件上方，引导盲人用户进行点击；

步骤10.5：对点击后的页面进行检测，将点击后的页面信息变化通过语音输出。

一种采用所述的适配于盲用电脑的智能手机辅助控制方法的盲用电脑，所述盲用电脑包括盲用电脑本体，所述盲用电脑底部设有深度摄像头，所述盲用电脑内设有控制器及与控制器配合的六轴陀螺仪和按键功能区；

所述控制器包括：

一图像预处理单元，用于对深度摄像头采集的图像进行预处理；

一存储单元，用于缓存图片、手势特征点信息；

一手势识别单元，用于检测用户手势，并且进行手部特征点的检测与提取；

一OCR单元，用于文字检测与文字识别；

一焦点框识别单元，用于检测视频图像中的焦点框；

一语音单元：用于将文本转换为语音或是将输入的语音转换为文本；

一页面信息检测单元，用于对当前界面中的控件和文字信息进行检测与识别；

一通信单元，用于各单元之间的信息交换。

本发明提供了一种优化的盲用电脑及适配于盲用电脑的智能手机辅助控制方法，实时识别用户当前的手机使用界面，通过图像处理和机器学习的方法分析界面信息，对于当前界面中出现的具有明显图像特征或是文字特征的控件进行识别定位，并结合手势识别网络，以语音提示的方式对盲人用户进行操作引导，使盲人用户更好地使用智能手机。

本发明的有益效果在于：

(1)使用机器学习的方法进行多目标检测以及文字识别，检测识别速度较快，在复杂环境以及目标多尺度的情况下仍然有较高的识别精度，对于不同手机的普适性较好；

(2)在应用不支持无障碍操作的情况下，分别对应用界面进行图像和文字的分析与检测，并可以通过语音的方式将页面信息播报给盲人，不仅可以让盲人用户对页面信息有较为完整的认识，也可以实时引导盲人用户对控件进行点击；

(3)提供缓存操作，将手机使用过程中的各个页面缓存起来，结合特征点检测与匹配网络、手势识别网络，分析盲人用户所采取的操作以及各个页面之间的联系，解决了盲人用户操作智能手机时缺乏全局性了解的问题。

本发明极大改善盲人用户使用智能手机的操作体验，一定程度上解决了手机应用不支持无障碍操作时盲人用户使用智能手机的问题，使盲人用户能够像正常人一样操作智能手机，系统通过具有较高便携性的盲用电脑作为载体并实现。

附图说明

图1为本发明中辅助使用智能手机的方法与装置与盲人用户之间的原理结构图，虚线段为摄像头拍摄范围示意。

图2是本发明的流程图。

图3是本发明的手势特征点检测算法流程图。

图4是实施例提供的手机应用的界面图。

图5是实施例提供的进入手机辅助模式后的效果图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种适配于盲用电脑的智能手机辅助控制方法，所述方法包括以下步骤。

步骤1：启动盲用电脑1，设置状态标识；初始化状态标识，进入待机模式。

本发明中，实际上，状态应当有三种对应不同基本模式的标识，如对应待机模式时标识为0，对应书本辅助模式时标识为1，对应阅读辅助模式时标识为2；默认模式为待机模式，待机模式下，会根据程序的判断结果选择进入阅读模式或是手机辅助模式，也可基于人工操作切换模式，一旦进入阅读辅助模式或是手机辅助模式后，只能通过手动切换工作模式。

步骤2：启动盲用电脑1的深度摄像头2，获取任一帧视频图像。

步骤3：检测所述视频图像中的焦点框。

所述步骤3包括以下步骤：

本发明中，由于用户的使用场景较为多样，读屏软件的焦点框不仅大小、位置不定，而且焦点框附近的复杂像素信息对图像的识别也造成了很多干扰，因此一般的轮廓检测算法无法准确定位焦点框的位置，此处的检测算法具有较强鲁棒性。

本发明中，步骤3.1的预设阈值用于筛选绿色区域，阈值为[35,43,46]至[77,255,255]。

本发明中，步骤3.2的滤波包括采用高斯滤波和均值滤波滤除白噪声，椒盐噪声等。

本发明中，由于生成的焦点矩形框比较规整，不会出现旋转等现象，所以采用交并比的方式，比对图像中留下的轮廓的外界矩形，和找到轮廓的面积，当找到的轮廓为标准的矩形轮廓时，该轮廓的外接矩形面积和轮廓的面积比值接近于1，通过设定阈值的方式，如0.95，过滤掉图像中的不规则图形，以此定位出图像中的绿色规整的矩形轮廓；当未检测到任何矩形框，则认为可能存在周边复杂像素的影响，执行步骤3.5。

本发明中，若是处于手机辅助模式下却连续多帧识别不到读屏软件焦点框，则会提示盲人用户在智能手机触摸屏上左右滑动的方式操作读屏软件焦点框，进而根据找到的平行直线中的像素值动态修改步骤3.1中颜色筛选的阈值，直到识别出读屏软件焦点框。

步骤4：利用训练完成的手势检测网络对手势特征点进行识别。

所述步骤4包括以下步骤：

本发明中，为了减少网络运行时间，提供运行效率，在初次匹配时初始化TrackerMedianFlow跟踪器，通过MedianFlow算法对用户手掌进行追踪，如果跟踪失败，则通过重新创建追踪器的方法初始化追踪算法，等待再次检测到用户手势后则可以继续采用MedianFlow算法对用户手掌进行追踪。

本发明中，手势特征点为每个手势的轮廓点，为了提高手势的定位精度，在手势模型训练时，增加了手腕与手臂处的四个特征点。

本发明中，为了减少构建图像金字塔以及滑窗匹配的时间，本发明结合深度摄像头2所获得的深度图像，利用

以及bouding box回归方法预测被识别物体的实际尺寸，将被识别物体图像调整到与训练样本相同的大小，这样就可以减少识别网络中对待识别图像上下采样的次数，也可以动态的选择识别的滑动窗口，减少运行时间，较好的解决了因为尺度问题带来的较为费时的问题，其中，R_m为被测物体直径，β_p为被测物体在摄像头2拍摄的图像中所占的像素大小，α_p为摄像头2的分辨率，a为视场角，L_m为特征区域内的深度图像深度值的平均值。

本发明中，结合各帧图像中手势特征点检测的结果，以及深度摄像头2采集到的深度图像的深度值变化，可以判断出盲人用户是否在手机触摸屏上进行了左右滑动、双击等操作。

本发明中，为了保证处理的成功率，一般在任意处理前将视频图像进行复制，以一份进行操作，另一份作为显示或缓存。

步骤5：若检测到焦点框，则进行步骤7；若未检测到焦点框且识别到手势特征点，则进行步骤6；若未检测到焦点框且未识别到手势特征点，则进行步骤11。

本发明中，两次检测的输入均为同一视频帧，但识别结果各自独立。如果检测到读屏软件的焦点框，则认定用户正在使用手机，进入手机辅助模式，执行步骤7；如果未检测到读屏软件焦点框，但识别到用户手部特征点，则进入阅读辅助模式，执行步骤6。

步骤6：对用户对应的手指处的文字进行识别，将识别结果以语音输出，进行步骤11。

所述步骤6中，对用户对应的手指处的文字进行识别包括以下步骤：

本发明中，步骤6.1的预设时间一般为至少2秒，如果检测到用户手指特征点，仅仅播报用户指定的文字定位框中的文字内容，此操作需要盲人用户至少将在阅读位置停留2s，并且在语言提示后移开手指，等待文字识别操作完成，如果未检测到手指，则会以默认规则，对当前图像中的文字进行全文识别并朗读。

本发明中，步骤6.3中的阈值一般为0.75。

本发明中，步骤6.4删除的定位框为合并完后还是过分小的定位框，这类定位框内的内容类似文字像素点，实际上为噪点。

步骤7：判断当前使用界面与已缓存的若干帧图像间的关系，确认用户执行的操作。

所述步骤7包括以下步骤：

否则进行步骤7.6；

所述步骤7.5中，图像配准和图像融合操作包括以下步骤：

本发明中，操作一般为三种，分别是返回操作、移动操作和跳转操作。

本发明中，步骤7.2的提取最优匹配对的方法是使用DescriptorMatcher::match()从每个描述符查询集中找到最佳匹配，并且根据劳氏算法(Lowe’s algorithm)进行筛选。

本发明中，步骤7.3中，排序后的匹配稳健程度按由小到大的顺序排列，越靠前的，匹配度越高，可以通过排序后把靠前的匹配提取出来。

本发明中，步骤7.4中，根据RANSAC之后的匹配点数量与中特征点描述符数量的比率，判断当前手机页面与之前若干保存页面的关系；如果比率在60至95％之间，则判断为由用户进行滑动操作得到，若与之前某一图像的匹配特征点比率大于95％，则认为发生了返回操作，将返回的层次通过语音的方式告知盲人用户。

本发明中，进一步结合识别到的焦点框的移动以及判断出的盲人用户的手部特征点信息，可以辅助判断各页面之间的关系，包括：

(1)若检测到用户手指在触摸屏上发生向右滑动，且焦点框发生了向下的移动，则可以判断出用户进行了滑动操作，当前帧图像与上一帧图像可以进行图像拼接与图像融合；

(2)若检测到用户手指在触摸屏上发生了两次相同位置的点击，则可以判断用户进行了点击操作，当前帧图像与之前某一缓存图像存在较大程度的相同，则认为发生了返回操作，提示用户返回的层次；若是当前界面并未发生明显改变，则检测读屏焦点框附近100*100像素区域内部是否发生了像素值的变化，若发生变化，则提示当前用户控件信息已改变。

步骤8：实时监测焦点框的移动，判断当前视频图像对应的页面是否不支持无障碍操作或是否存在无法识别的图片，若是，执行步骤9，否则，进行步骤11。

所述步骤8中，检测焦点框的移动：

b.若用户连续操作次数超过阈值，读屏软件的焦点框可以发生上下移动，但上下移动时读屏软件焦点框的轮廓位置不连续，则当前视频对应的页面存在图片或者盲用电脑1无法识别的信息；所述b中，对图片或者盲用电脑1无法识别的信息截图，进行OCR处理，将识别出的文字信息拼接为完整语意后以语音输出；

步骤9：将最新时间戳编号的图片通过页面信息检测识别算法，识别图片中的控件信息以及文字信息。

所述步骤9中，页面信息检测识别算法包括以下步骤：

本发明中，匹配素材库是专门针对盲人用户收集的、在智能手机界面中普遍出现的、符合国际标准的图形标志，对应的配合有文本描述以及语音信息，帮助盲人用户对于智能手机的图形界面有一个更为全面准确的认知。

本发明中，步骤9.4的排序为：

从上到下，坐标越小则排序位置越靠前；

从左到右，坐标x越小，排序位置越靠前；

优先级为y坐标，若y坐标相等，则x坐标越小，排序位置越靠前。

本发明中，若该界面判断为滑动移动操作后的界面，则会将拼接后的完整页面信息送入网络进行识别，若是已经识别过的页面，则跳过。

步骤10：结合步骤7中用户执行的操作及步骤9中的控件信息以及文字信息，通过语音输出对用户进行提示和指导。

所述步骤10包括以下步骤：

本发明中，步骤10.1如果检测到是通过滑动操作访问的长页面，则会将拼接后的图片送入识别，语音提示也会播报当前长页面中所有的控件信息。

本发明中，步骤10.3的N为50，M为150。

本发明中，用户点击后需要手指暂时离开手机屏幕，等待算法检测点击的结果；如果读屏软件焦点框中心点与刚才点击区域重合，则会提示盲人用户需要双击触摸屏。

步骤11：若收到结束信息，则程序结束，关闭盲用电脑1，否则，返回步骤2。

本发明还涉及一种采用所述的适配于盲用电脑的智能手机辅助控制方法的盲用电脑1，所述盲用电脑1包括盲用电脑1本体，所述盲用电脑1底部设有深度摄像头2，所述盲用电脑1内设有控制器及与控制器配合的六轴陀螺仪和按键功能区，一般可以包括选择按钮3、帮助按钮4等；

所述控制器包括：

一图像预处理单元，用于对深度摄像头2采集的图像进行预处理，如去噪、梯形矫正、透视变换等；

一存储单元，用于缓存图片、手势特征点信息；

一OCR单元，用于文字检测与文字识别；

一焦点框识别单元，用于检测视频图像中的焦点框；

一通信单元，用于各单元之间的信息交换。

本发明中，装置应该平行于桌面放置且与书本或手机之间的距离保持在预设范围。

本发明中，针对盲人用户可能无法摆正装置与手机的位置这个问题，图像预处理单元可以根据陀螺仪所获得的装置姿态数据进行梯形矫正、透视变换等操作，并保存矫正矩阵，并且会根据深度摄像头2的距离读数结合ISP进行自动对焦。

本发明实时识别用户当前的手机使用界面，通过图像处理和机器学习的方法分析界面信息，对于当前界面中出现的具有明显图像特征或是文字特征的控件进行识别定位，并结合手势识别网络，以语音提示的方式对盲人用户进行操作引导，使盲人用户更好地使用智能手机。

本发明使用机器学习的方法进行多目标检测以及文字识别，检测识别速度较快，在复杂环境以及目标多尺度的情况下仍然有较高的识别精度，对于不同手机的普适性较好；在应用不支持无障碍操作的情况下，分别对应用界面进行图像和文字的分析与检测，并可以通过语音的方式将页面信息播报给盲人，不仅可以让盲人用户对页面信息有较为完整的认识，也可以实时引导盲人用户对控件进行点击；提供缓存操作，将手机使用过程中的各个页面缓存起来，结合特征点检测与匹配网络、手势识别网络，分析盲人用户所采取的操作以及各个页面之间的联系，解决了盲人用户操作智能手机时缺乏全局性了解的问题。

本发明极大改善盲人用户使用智能手机的操作体验，一定程度上解决了手机应用不支持无障碍操作时盲人用户使用智能手机的问题，使盲人用户能够像正常人一样操作智能手机，系统通过具有较高便携性的盲用电脑1作为载体并实现。

Claims

1.一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述方法包括以下步骤：

步骤2：启动盲用电脑的深度摄像头，获取任一帧视频图像；

步骤3：检测所述视频图像中的焦点框；

2.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤3包括以下步骤：

3.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤4包括以下步骤：

4.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤6中，对用户对应的手指处的文字进行识别包括以下步骤：

步骤6.3：遍历所有的定位框；依次判断任意两个定位框之间是否相交，如果相交则计算其重叠区域，如果重叠区域面积与相交的两个定位框的最小面积的占比大于阈值，则将两个定位框合并；步骤6.4：滤除合并后仍小于阈值M的定位框，将定位框中的内容送交训练好的文字识别网络进行文字识别；

5.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤7包括以下步骤：

否则进行步骤7.6；

6.根据权利要求5所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤7.5中，图像配准和图像融合操作包括以下步骤：

7.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤8中，检测焦点框的移动：

8.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤9中，页面信息检测识别算法包括以下步骤：

9.根据权利要求8所述的一种适配于盲用电脑的智能手机辅助控制方法，其特征在于：所述步骤10包括以下步骤：

10.一种采用权利要求1~9之一所述的适配于盲用电脑的智能手机辅助控制方法的盲用电脑，其特征在于：所述盲用电脑包括盲用电脑本体，所述盲用电脑底部设有深度摄像头，所述盲用电脑内设有控制器及与控制器配合的六轴陀螺仪和按键功能区；

所述控制器包括：

一存储单元，用于缓存图片、手势特征点信息；

一OCR单元，用于文字检测与文字识别；

一焦点框识别单元，用于检测视频图像中的焦点框；

一通信单元，用于各单元之间的信息交换。