CN103617422A

CN103617422A - 一种基于名片识别的社交关系管理方法

Info

Publication number: CN103617422A
Application number: CN201310521182.2A
Authority: CN
Inventors: 高飞; 梅凯城; 张元鸣; 胡伟江; 陆佳炜; 卢书芳; 李泽界; 胡小燕; 张雪君; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2014-03-05
Anticipated expiration: 2033-10-29
Also published as: CN103617422B

Abstract

一种基于名片识别的社交关系管理方法，包括以下四个步骤：步骤1、录入名片信息，利用摄像头或扫描仪进行名片图像采集，根据名片图像的特征划分出文字块并利用OCR引擎进行字符识别，根据关键字段进行分词处理，对提取的信息归类录入，将其填入相应的表单，最后与用户进行交互，对可能存在的无法识别信息进行人工确认与调整；步骤2、建立社交关系网络；步骤3、实现智能检索；步骤4、完成移动终端同步。

Description

一种基于名片识别的社交关系管理方法

技术领域

本发明涉及将名片信息快速录入计算机以及由名片所形成的社交关系的管理方法。

背景技术

经济的迅猛发展促使人际交往日益频繁，一张小小的名片，承载着的实际上是资源，是商机，甚至可以说是效益。

虽然时下的手机、PDA(Personal Digital Assistant)、平板电脑、笔记本甚至台式PC都可安装相应的名片管理系统，但这些系统所采用的管理方法没能很好地解决一个最根本、也是最重要的问题，即社交关系管理——由大量的联系人而产生的复杂人际关系，常常让人无法以最快的速度找到想要合作或寻求帮助的合适人选。

目前主流的名片管理方法都采用分组的方式进行名片分类。例如,将联系人按“朋友”、“客户”、“同事”、“领导”等关键词分组。这种分组管理方式局限于传统的习惯，不仅不直观，而且无法基于人际关系来提供一条合适的联系途径，只能针对“人”而不能针对“事”。在人际关系中，常常存在着一种情况，某个人有过一面之缘，并不熟悉，其姓名或手机号码或工作单位等信息只是知道其中片断信息，比如只知道他(她)在市一医院工作，但其他信息却难以记住，当“我”的通讯录里有上千名联系人时，很难查找到这位联系人，因此，有必要提供更智能化的方法进行管理。一面之缘的朋友通常发生在某种特点场合，或与一个与自己关系更亲密的朋友有关，或者是由该朋友介绍，因此，通过某种智能化查询可以顺藤摸瓜，找到该位朋友。比如：用户现在想要去医院看病，希望联系到一个医院。但是按照传统的方式，他只能先定位一个合适的分组，再一个个查看有没有医生朋友，无法实现模糊的定位。而更为常见的情况是：用户有一个医生朋友的名片，却与其不熟，需要一个或多个朋友的引荐。这时，传统的分组管理方式就无法提供一条合适的引荐途径，而需要用户花费大量时间去思考、整理。而人工的整理往往是不全面的，所能想到的引荐途径也不一定是最合适的。这也是大量用户最为头疼的问题，也是目前的各种名片与社交关系管理方法无法解决的问题。此外，对于自己的朋友圈子与自己的亲密程度通过传统名片与社交关系管理方法也无法给出，因此难以开展高效的社交活动。

归结起来，本发明重点解决了三方面的创新问题：(1)基于计算机视觉技术以及语义分词方法解决了名片信息的快速录入；(2)社交关系的智能定位及最优的引荐途径；(3)移动终端与系统数据库之间的智能同步。

发明内容

本发明克服了目前采用的名片与社交关系管理方法存在的上述问题，实现了基于计算机视觉的名片信息自动录入以及社交关系的智能定位，节省了用户人工考虑的时间，并能提供一条最合适的联系渠道与引荐途径，给出最优、最可靠的联系方案。

本发明解决其技术问题所采用的技术方案包括四个步骤：

步骤1.录入名片信息

利用摄像头或扫描仪进行名片图像采集，根据名片图像的特征划分出文字块并利用OCR引擎进行字符识别，根据关键字段进行分词处理，对提取的信息归类录入，将其填入相应的表单，最后与用户进行交互，对可能存在的无法识别信息进行人工确认与调整。所述流程应包含如下操作：

1.1、灰度化。首先对摄像头或扫描仪采集的名片图像采用加权平均法进行灰度化：

f(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)

其中(i,j)表示像素坐标，彩色图像中红、绿、蓝三个分量分别为R(i,j)、G(i,j)、B(i,j)，f(i,j)则为该点的灰度值。

1.2、边缘提取。结合Sobel算子与LOG(Laplacian of Gauss)算子，形成修正LOG算法，即选取下列Sobel算子（S_x为水平方向的中心分差，S_y为垂直方向的中心分差，选取其中较大值作为梯度S）

S_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}], S_{y} = [\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}], S = \max {| S_{x} |, | S_{y} |}

作为边缘检测的前提条件，减少多余的零交叉点。再利用如下函数作为滤波器，进行LOG检测。

LOG (i, j) = (\frac{{&PartialD;}^{2}}{{&PartialD; x}^{2}} + \frac{{&PartialD;}^{2}}{{&PartialD; y}^{2}}) \frac{1}{2 πσ}

LOG算子模板如下

LOG = [\begin{matrix} - 2 & - 4 & - 4 & - 4 & - 2 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 4 & 8 & 24 & 8 & - 4 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 2 & - 4 & - 4 & - 4 & - 2 \end{matrix}]

其中的LOG算子模板为LOG的数字形式，将其作为内核对图像做卷积，σ为高斯分布的均方差。

1.3、二值化。计算阈值，并对灰度图进行二值化。若灰度图高为h，宽为w，由下式求得阈值，即灰度平均值Threshold：

Threshold = \underset{i &Element; [0, w - 1], j &Element; [0, h - 1]}{Σ} \frac{f (i, j)}{h \times w}

再根据阈值Threshold进行二值化：

B (i, j) = \{\begin{matrix} 1 & iff (i, j) &GreaterEqual; Threshold \\ 0 & iff (i, j) < Threshold \end{matrix}

1.4、倾斜检测与矫正。通过霍夫变换（Hough Transform）检测名片框的边缘线，获得名片区域并判断出名片的倾斜角度进行矫正。

由于y=kx+b形式的直线方程无法表示x=c形式的直线(c为常数，即与x轴平行的直线，斜率k→∞)。故这里采用参数方程ρ=x*cosθ+y*sinθ，其中通过选取p₁(x₁,y₁)，p₂(x₂,y₂)两监测点，由下式可以得到倾斜角θ：

θ = \{\begin{matrix} \arctan \frac{y_{2} - y_{1}}{x_{2} - x_{1}} & if x_{2} &NotEqual; x_{1} \\ \frac{π}{2} & if x_{2} = x_{1} and y_{2} > y_{1} \\ - \frac{π}{2} & if x_{2} = x_{1} and y_{2} < y_{1} \end{matrix}

根据倾斜角θ对原图与二值图像同时进行仿射变换（使用齐次矩阵表示），P'=P·R，将-θ代入2D旋转矩阵得到矫正矩阵

R = [\begin{matrix} \cos θ & \sin θ & 0 \\ - \sin θ & \cos θ & 0 \\ 0 & 0 & 1 \end{matrix}],

P^{'} = [\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}]

由点

P = [\begin{matrix} x \\ y \\ 1 \end{matrix}]

矫正后得到。具体运算如下：

x'=xcosθ+ysinθ

y'=-xsinθ+ycosθ

1.5、图像分割。根据名片图像的特征划分出文字块。包括步骤如下：

1.5.1、定义探测密度Density，为当前像素上下左右及斜对角线共8个方向上的相邻像素中黑色像素的数量，计算公式如下：

Density = \{\begin{matrix} Density + 1 & ifB (i, j) = 1 \\ Density & ifB (i, j) = 0 \end{matrix}

其中i∈[x-1,x+1]∩N^*,j∈[y-1,y+1]∩N^*，(x,y)为当前探测点坐标，N^*为正整数集。

1.5.2、将名片区域的图像转化为密度矩阵，去掉余下噪点。操作方法如下：逐个判断各个像素的密度，当Density<2时，对应矩阵元素记为0，即当作噪声处理。当Density>=2时，对应矩阵元素记为1，表明该像素为文字块一部分。

1.5.3、通过转换公式

d (i, j) = \{\begin{matrix} 1 & ifDensity (i, j) &GreaterEqual; 2 \\ 0 & ifDensity (i, j) < 2 \end{matrix}

将矫正后的二值单色图转化为如下的二维数组形式：

\{\begin{matrix} d (0,0) & \cdot \cdot \cdot & d (w, 0) \\ \cdot & \cdot \\ \cdot & d (i, j) & \cdot \\ \cdot & \cdot \\ d (0, h) & \cdot \cdot \cdot & d (w, h) \end{matrix}\}

1.5.4、根据密度矩阵，定位文字块区域（至此有两种策略分别应用于快速识别模式与精准识别模式），然后依据区域对名片图像进行分割。

快速识别策略：逐行判断密度矩阵，每一行内“1”元素占单元个数的比例超过一定阈值，则视为文本行，低于此阈值则视为空白。

精准识别策略：逐行判断密度矩阵，将行内连续的“0”元素连结成“探测线”，根据“探测线”起始端的深浅、长度差异与末端位置特征判断是否为文本区域。即去除长度小于阈值的探测线；然后标记出第一条探测线的末端与第二条探测线的始端；对所有行进行探测与标记后，由标记围成的区域即文本区域。

1.5.5、定义R_i∈{d(i,y)|y∈[0,h]∩N^*}，当且仅当

时记录下j值。最后所得的一组区域[j₁,j₂]，[j₂,j₃]，[j₃,j₄]…即若干文字块，其中h表示行数，w表示列数，N^*为正整数集，R_i为步骤3的二维数组中第i行的元素，Sum_j为R_i所在行所有元素之和。

1.6、字符识别。利用OCR(Optical Character Recognition)技术提取出每一个文字块的信息。这里采用MODI(Microsoft Office Document Imaging)的OCR模块对分割出的图像逐一进行识别，将每一文字块图像都变成一组文字。即对文字块[j₁,j₂]，[j₂,j₃]，[j₃,j₄]…逐一调用OCR识别引擎，得到与每个区域对应的字符集C_1,2,C_2,3,C_3,4…。

1.7、分词处理。根据关键字段进行分词处理，对提取的信息归类录入。这需要建立关键词库以及语义库，例如：公司、职位、地址、联系电话、email、路、号等等。定义关键字集合W={公司,职位,地址,联系电话,email,…}并定义关键字语义库，例如Address、Addr、通讯地址、联系地址等均为地址的近义词，即在语义上是一致的，建立对应的映射关系，形成语义库。

根据关键词，基于上下文特征，提取出每组文字中的对应信息，填入相应表单，完成分词处理。具体步骤如下：

1.7.1、寻找“：”分隔符，利用分隔符界定关键词与内容。如果界定出的关键词不在关键字集合中则交由用户决定是否将其视为关键词收录到集合中。通过此步骤实现分词策略的学习功能。

1.7.2、然后匹配出关键字Key=C_x,y∩W，将字符串

填入名为Key的表单项中。当

时，将字符集C_x,y填入“未分类”表单项。

基于语义库的策略包括：

定位姓名策略（中文）：排除其他语义，字符数在2～4之间，跟随有职位、头衔，或带有“姓名”类标签；

定位手机号码策略：以13、15、18开头的11位纯数字字符串，或带有“手机”类标签；

定位电话号码策略：7～8位纯数字字符串，或以区号开头，包含括号、连字符、空格等分隔符，或带有“电话”类标签；

定位公司名称策略：排除其他语义，出现“公司”、“集团”、各机关单位关键词，或带有“公司”类标签；

定位地址策略：出现“省”、“市”、“县”、“乡”、“镇”、“路”、“区”、“幢”、“单位”、“室”与数字混合的字符串，或带有“地址”类标签；

定位邮编策略：6位纯数字字符串，或带有“邮编”类标签；

定位邮箱策略：出现数字、字母、“”、“.”字符，或带有“邮箱”类标签；

定位网址策略：出现“http”、“.”、“www”、“com”、“cn”、“edu”字符，或带有“网址”类标签。

1.8、人工校正。分词完成后，需与用户进行交互，对可能存在的无法识别信息进行人工确认与调整，即对“未分类”表单项进行人工分类，分类过程结束后，将自动学习进入语义库。

步骤2.建立社交关系网络

其步骤如下：

2.1、通过用鼠标移动联系人结点来建立两个联系人的关系。将新加入的结点A_j附加到已有结点A_i（即要建立关系的联系人）上，确定操作双方后利用连线的形式表示两个联系人之间建立的关系L_i,j，它表示A_i与A_j彼此互相认识(双向)。

2.1.1（可选）、如果新建立的联系人结点A_i是用户O(即“我”)的第一接触人，则将新结点A_i连接到用户结点O上建立联系线路OA_i，其关系为L_0,i。

2.1.2（可选）、如果新建立的联系人结点A_j是用户O通过朋友A_i得知了此联系人，且对方并不认识用户O的情况下，则将新结点A_j连接到用户朋友结点A_i上建立联系线路A_iA_j，其关系为L_i,j。

2.1.3（可选）、如果原先是用户O通过朋友A_i得知的联系人A_j与用户朋友A_i是第一接触人(单向)，而在进一步的合作交流后，用户O与该联系人A_j成为了第一接触人（双向），则将该联系人结点A_j连接到用户结点O上，形成与用户结点直接的联系路径OA_j，其关系为L_0,j。

2.2、对于每个关系L_i,j通过使用权值K_i,j来表示关系的强弱。L_i,j的权值K_i,j取决于联系人A_i与联系人A_j的结识时间T（单位：天）以及联系次数Count。具体计算方法如下：

K_{i, j} = 0.5 * T^{2} {(1 + T^{2})}^{- 1} + Min (\frac{Count}{\sqrt{T} + 8}, 0.5), K_{i, j} &Element; [0,1)

2.3、根据度数D与权值K得出“我”与各联系人的“亲密度”Intimacy。约定用户结点O的度数D₀=0通过路径OA_i上的关系L_0,i相连的结点A_i的度数D_i=1+D₀;通过路径A_iA_j上的关系L_i,j相连的结点A_j的度数D_j=1+D_i。“我”与结点A_j的“亲密度”计算公式为：

Intimacy_j=D_j+K_i,j,D_i∈N^*,K_i,j∈[0,1)

“亲密度”Intimacy的整数部分代表了六度分割中的度数，小数部分将同等度数下的各个关系进一步划分开。因此，“亲密度”能较好的反应出以“我”为中心到各个结点的亲疏关系，其中N^*为正整数集。

步骤3.实现智能检索

通过用户输入的检索关键词与已录入的个人信息进行模糊匹配，筛选出可能的目标列表，其具体步骤如下：

3.1、设用户输入的关键词为字符串WORD，其中的元素为Char，名片数据集DATA，若

且

则返回其对应的联系人A_{(Char∩DATA)}。

3.2、用户从返回的列表中，根据实际需求，选择出具体目标，定位到某一联系人A_i。

3.3、根据关系L上的权值K，通过最短路径算法（这里采用Dijkstra算法），得到“我”与目标之间“最有效”的沟通途径，即通过最亲密的（抑或最少的）联系人联系到最需要的联系人。

这里将联系人结点A视作Dijkstra算法中的点集；关系L视作算法中的边集；边的长度为对应K值；用户结点O作为算法中的源。

步骤4.完成移动终端同步

其步骤如下：

4.1、启动服务。PC服务器端要求采用Socket和多线程等相关技术设计服务器程序，它可以是驻留服务程序，即随着操作系统启动而启动，也可以手工启动，启动后将与数据库服务器建立连接，然后自动监听移动终端的请求。

4.2、自动配置IP。当用户点击移动终端的同步客户端程序时，它将从移动终端中的配置文件中读取服务器IP地址、服务器端口号PORT；如果无法连接上PC服务器端，它将智能自动扫描服务器端程序。

一次性IP扫描配置策略：终端加入PC服务器所在网段后，终端程序自动获取其IP地址，根据字符串定位算法获取IP地址前三个区域的数据，利用循环程序自动扫描由0-255与前三个区域数据构成的IP地址（作为可能的PC服务器端程序IP地址），若能连接成功，则将其保存于配置文件中，供下次自动连接服务器使用。

4.3、设置系统。移动终端的系统设置功能技术特征为：当终端程序自动扫描无法连接上PC服务器端程序时，可以交互式地修改IP地址、端口号PORT，同时还可以设置备份和导入时的完全覆盖、差异覆盖两个选项。

4.4、备份移动终端。移动终端的备份功能技术特征为：用户在移动终端上点击备份功能按钮时，当系统设置中的选项为完全覆盖，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则更新数据，若不存在，则插入。如果系统设置中的选项为差异时，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则忽略，若不存在，则插入。

4.5、导入移动终端。移动终端的导入功能技术特征为：用户在移动终端上点击导入功能按钮时，当系统设置中的选项为完全覆盖，PC服务器端程序读取数据库通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过移动终端程序写入到终端的通讯录中，若通讯录中存在该联系人，则更新数据，若不存在，则插入。如果当系统设置中的选项为差异时，PC服务器端程序读取数据库通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过移动终端程序写入到终端的通讯录中，若通讯录中存在该联系人，则忽略，若不存在，则插入。

附图说明

图1是名片录入流程图。

图2是Density取值时，八个相邻像素位置示意图。

图3是Density取值举例。

图4是图3转换的密度矩阵。

图5是名片图像处理算法示意图

图6是名片信息分词处理算法示意图

图7是一种以“我”为中心的社交网络结构示意图。

图8是检索的结果在社交网络上的具体表现效果。

具体实施方式

本发明所采用的技术方案各步骤实施方式如下：

步骤1.录入名片信息

利用摄像头或扫描仪进行名片图像采集，根据名片图像的特征划分出文字块并利用OCR引擎进行字符识别，根据关键字段进行分词处理，对提取的信息归类录入，将其填入相应的表单，最后与用户进行交互，对可能存在的无法识别信息进行人工确认与调整。

整个过程从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果存入数据库，参照图1。

所述流程应包含如下操作：

1.1、灰度化。首先对摄像头或扫描仪采集的名片图像采用加权平均法进行灰度化。由于人眼对绿色的敏感最高，对蓝色敏感最低，因此，使用下式能得到较合理的灰度图像。

f(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)

S_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}], S_{y} = [\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}], S = \max {| S_{x} |, | S_{y} |}

LOG (x, y) = (\frac{{&PartialD;}^{2}}{{&PartialD; x}^{2}} + \frac{{&PartialD;}^{2}}{{&PartialD; y}^{2}}) \frac{1}{2 πσ}

LOG算子模板如下

LOG = [\begin{matrix} - 2 & - 4 & - 4 & - 4 & - 2 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 4 & 8 & 24 & 8 & - 4 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 2 & - 4 & - 4 & - 4 & - 2 \end{matrix}]

Threshold = \underset{i &Element; [0, w - 1], j &Element; [0, h - 1]}{Σ} \frac{f (i, j)}{h \times w}

再根据阈值Threshold进行二值化：

B (i, j) = \{\begin{matrix} 1 & iff (i, j) &GreaterEqual; Threshold \\ 0 & iff (i, j) < Threshold \end{matrix}

θ = \{\begin{matrix} \arctan \frac{y_{2} - y_{1}}{x_{2} - x_{1}} & if x_{2} &NotEqual; x_{1} \\ \frac{π}{2} & if x_{2} = x_{1} and y_{2} > y_{1} \\ - \frac{π}{2} & if x_{2} = x_{1} and y_{2} < y_{1} \end{matrix}

R = [\begin{matrix} \cos θ & \sin θ & 0 \\ - \sin θ & \cos θ & 0 \\ 0 & 0 & 1 \end{matrix}],

P^{'} = [\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}]

由点

P = [\begin{matrix} x \\ y \\ 1 \end{matrix}]

矫正后得到。具体运算如下：

x'=xcosθ+ysinθ

y'=-xsinθ+ycosθ

1.5.1、定义探测密度Density，为当前像素上下左右及斜对角线共8个方向上的相邻像素中黑色像素的数量，参照图2，计算公式如下：

Density = \{\begin{matrix} Density + 1 & ifB (i, j) = 1 \\ Density & ifB (i, j) = 0 \end{matrix}

其中i∈[x-1,x+1]∩N^*,j∈[x-1,x+1]∩N^*，(x,y)为当前探测点坐标，N^*为正整数集。

1.5.2、将名片区域的图像转化为密度矩阵，去掉余下噪点。操作方法如下：逐个判断各个像素的密度，当Density<2时，对应矩阵元素记为0，即当作噪声处理。当Density>=2时，对应矩阵元素记为1，表明该像素为文字块一部分。如图3中，右上标注的像素Density=0；左上标注的像素Density=2，其转化为密度矩阵见图4。

1.5.3、通过转换公式

d (i, j) = \{\begin{matrix} 1 & ifDensity (i, j) &GreaterEqual; 2 \\ 0 & ifDensity (i, j) < 2 \end{matrix}

将矫正后的二值单色图转化为如下的二维数组形式：

\{\begin{matrix} d (0,0) & \cdot \cdot \cdot & d (w, 0) \\ \cdot & \cdot \\ \cdot & d (i, j) & \cdot \\ \cdot & \cdot \\ d (0, h) & \cdot \cdot \cdot & d (w, h) \end{matrix}\}

1.5.4、根据密度矩阵，定位文字块区域（此次有两种策略分辨应用于快速识别模式与精准识别模式），然后依据区域对名片图像进行分割。

1.5.5、定义R_i∈{d(i,y)|y∈[0,h]∩N^*}，

当且仅当

由于中文名片多为横向排版，文字块之间呈垂直分布，故此处仅采用水平分割文字块。若遇到复杂版面样式的名片需要进行垂直分割的话，可按同样方法再细分竖直文字块。

1.6、字符识别。利用OCR(Optical Character Recognition)技术提取出每一个文字块的信息。这里采用MODI(Microsoft Office Document Imaging)的OCR模块对分割出的图像逐一进行识别，将每一文字块图像都变成一组文字。

即对文字块[j₁,j₂]，[j₂,j₃]，[j₃,j₄]…逐一调用OCR识别引擎，得到与每个区域对应的字符集C_1,2,C_2,3,C_3,4…

名片图像处理至此结束，图5简述了此处理过程及所用算法。

1.7、分词处理。根据关键字段进行分词处理，对提取的信息归类录入。这需要建立关键词库以及语义库，例如：公司、职位、地址、联系电话、email、路、号等等。定义关键字集合W={公司,职位,地址,联系电话,email,…}并定义关键字语义库，例如Address、Addr、通讯地址、联系地址等均为地址的近义词，即在语义上是一致的，建立对应的映射关系，形成具有自学习功能的语义库。

然后根据关键词，基于上下文特征，提取出每组文字中的对应信息，填入相应表单，完成分词处理。具体步骤如下：

1.7.1、寻找“：”分隔符，利用分隔符界定关键词与内容。如果界定出的关键词不在关键字集合中则交由用户决定是否将其视为关键词收录到集合中。通过此步骤实现分词策略的自学习功能。

1.7.2、然后匹配出关键字Key=C_x,y∩W，将字符串

填入名为Key的表单项中。当

时，将字符集C_x,y填入“未分类”表单项。

基于语义库的策略包括：

定位邮编策略：6位纯数字字符串，或带有“邮编”类标签；

定位网址策略：出现“http”、“.”、“www”、“com”、“cn”、“edu”字符，或带有“网址”类标签；

1.8人工校正。分词完成后，需与用户进行交互，对可能存在的无法识别信息进行人工确认与调整，即对“未分类”表单项进行人工分类，分类过程结束后，将自动学习进入语义库。

名片信息分词处理至此结束，图6简述了其处理过程与逻辑。

步骤2.建立社交关系网络

根据社会学中的六度分隔理论，建立一种以“我”为中心的社交网络。

具体表现为基于“我”为出发点O，呈蛛网状向四周辐射的形式，见示意图7。

将联系人与“我”之间的熟悉程度作为依据，同“我”直接相关的联系人Ai通过连线直接连结在“我”的周围，成为同“我”最为密切的第一层联系人。以此类推，将每一层的联系人向与“我”相反的方向OAi辐散。

除此以外，关系的强弱还会由六度理论的度数D决定。1度关系即“我”与我所认识的朋友之间的关系，2度关系即“我”与“我”的朋友所认识的朋友之间的关系，以此类推，可以理解的是：1度关系肯定要比2度关系强。

在此，引入“亲密度”Intimacy的概念来表达“我”与各联系人的熟悉程度。其取决于权值K（表示了关系的强弱）以及六度理论的度数D。这里，将联系人作为结点，并提供可视化的交互工具对联系人进行分组以建立关系网络。建立该网络的步骤如下：

2.1、通过移动联系人结点来建立两个联系人的关系。将新加入的结点A_j附加到已有结点A_i（即要建立关系的联系人）上，确定操作双方后利用连线的形式表示两个联系人之间建立的关系L_i,j。本文中出现的所有关系如L_i,j，表明A_i与A_j彼此互相认识(双向)。

2.2、对于每个关系L通过使用权值K来表示关系的强弱。L_i,j的权值K_i,j取决于联系人A_i与联系人A_j的结识时间T（单位：天）以及联系次数Count。具体计算方法如下：

K_{i, j} = 0.5 * T^{2} {(1 + T^{2})}^{- 1} + Min (\frac{Count}{\sqrt{T} + 8}, 0.5), K_{i, j} &Element; [0,1)

Intimacy_j=D_j+K_i,j,D_i∈N^*,K_i,j∈[0,1)

“亲密度”Intimacy的整数部分代表了六度分割中的度数，小数部分将同等度数下的各个关系进一步划分开，其中N^*为正整数集。因此，“亲密度”能较好的反应出以“我”为中心到各个结点的亲疏关系。

步骤3.实现智能检索

通过以“我”为中心的社交网络，智能检索与定位最佳联系途径。

检索的结果通过可视化的社交网络图表现为：将路径上的联系人结点与连线高亮显示，见示意图8。当用户选择高亮结点联系人时，联系人基本信息在结点旁显现。由此，用户可以通过高亮显示的路线查看用户可以查看可以通过哪几位朋友可以联系到所需要的联系人。所述检索流程应实现：

●机器筛选：模糊匹配检索信息，筛选出可能的目标列表。

●人工定位：从目标列表，手动定位目标。

●结果反馈：得到“我”与目标之间“最有效”的沟通途径，即通过最亲密的（抑或最少的）联系人联系到最需要的联系人。

具体实施时，通过用户输入的检索关键词与已录入的个人信息进行模糊匹配，筛选出可能的目标列表，步骤如下：

满足

则返回其对应的联系人A_{(Char∩DATA)}。

将联系人结点A视作Dijkstra算法中的点集；关系L视作算法中的边集；边的长度为对应K值；用户结点O作为算法中的源。

步骤4.完成移动终端同步

此步骤将实现数据库中的名片信息与移动终端平台如Android、iOS等手机的通讯录之间的智能同步。具体实施时，应完成如下步骤：

4.2、自动配置IP。当用户点击移动终端的同步客户端程序时，它将从移动终端中的配置文件中读取服务器IP地址、服务器端口号PORT；如果无法连接上PC服务器端，它将自动扫描服务器端程序。

4.3、设置系统。移动终端的系统设置功能技术特征为：当终端程序自动扫描无法连接上PC服务器端程序时，可以交互式地修改IP地址、端口号PORT，同时还可以设置备份和导入时的完全覆盖、差异两个选项。

4.4、备份移动终端。移动终端的备份功能技术特征为：用户在移动终端上点击备份功能按钮时，当系统设置中的选项为完全覆盖，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则更新数据，若不存在，则插入。如果当系统设置中的选项为差异时，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则忽略，若不存在，则插入。

Claims

1.一种基于名片识别的社交关系管理方法，包括以下四个步骤：

步骤1、录入名片信息，利用摄像头或扫描仪进行名片图像采集，根据名片图像的特征划分出文字块并利用OCR引擎进行字符识别，根据关键字段进行分词处理，对提取的信息归类录入，将其填入相应的表单，最后与用户进行交互，对可能存在的无法识别信息进行人工确认与调整；

步骤2、建立社交关系网络；

步骤3、实现智能检索；

步骤4、完成移动终端同步。

2.如权利要求1所述的一种基于名片识别的社交关系管理方法，其特征在于：，

步骤1）中根据名片图像的特征划分文字块并利用OCR引擎进行字符识别的的具体步骤如下：

1.1、灰度化。首先对摄像头或扫描仪采集的名片图像采用加权平均法进行灰度化。由于人眼对绿色的敏感最高，对蓝色敏感最低，因此使用f(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)能得到较合理的灰度图像。其中(i,j)表示像素坐标，彩色图像中红、绿、蓝三个分量分别为R(i,j)、G(i,j)、B(i,j)，f(i,j)则为该点的灰度值；

S=max{|S_x|,|S_y|}作为边缘检测的前提条件，减少多余的零交叉点。再利用

此函数作为滤波器，进行LOG检测。 LOG算子模板为

它是LOG的数字形式，将其作为内核对图像做卷积。σ为高斯分布的均方差；

1.3、二值化。计算出阈值对灰度图进行二值化。若灰度图高为h，宽为w，求得阈值，即灰度平均值

再根据阈值Threshold进行二值化：

1.4、倾斜检测与矫正。通过霍夫变换（Hough Transform）检测名片框的边缘线，获得名片区域并判断出名片的倾斜角度进行矫正。由于y=kx+b形式的直线方程无法表示x=c形式的直线(c为常数，即与x轴平行的直线，斜率k→∞)。故这里采用参数方程ρ=x*cosθ+y*sinθ，其中通过选取p₁(x₁,y₁)，p₂(x₂,y₂)两监测点，可以得到倾斜角

由点

矫正后得到。具体运算为：

1.5.1、定义探测密度Density，为当前像素上下左右及斜对角线共8个方向上的相邻像素中黑色像素的数量，计算公式为：

其中i∈[x-1,x+1]∩N^*,j∈[x-1,x+1]∩N^*，(x,y)为当前探测点坐标，N^*为正整数集；

1.5.2、将名片区域的图像转化为密度矩阵，去掉余下噪点。操作方法如下：逐个判断各个像素的密度，当Density<2时，对应矩阵元素记为0，即当作噪声处理。当Density>=2时，对应矩阵元素记为1，表明该像素为文字块一部分；

1.5.3、通过转换公式

将矫正后的二值单色图转化为以下的二维数组形式：

1.5.4、根据密度矩阵，定位文字块区域（此次有两种策略分辨应用于快速识别模式与精准识别模式），然后依据区域对名片图像进行分割。快速识别策略：逐行判断密度矩阵，每一行内“1”元素占单元个数的比例超过一定阈值，则视为文本行，低于此阈值则视为空白。精准识别策略：逐行判断密度矩阵，将行内连续的“0”元素连结成“探测线”，根据“探测线”起始端的深浅、长度差异与末端位置特征判断是否为文本区域。即去除长度小于阈值的探测线；然后标记出第一条探测线的末端与第二条探测线的始端；对所有行进行探测与标记后，由标记围成的区域即文本区域；

1.5.5、定义R_i∈{d(i,y)|y∈[0,h]∩N^*}，

当且仅当

3.如权利要求1所述的一种基于名片识别的社交关系管理方法，其特征在于：

步骤1）中根据关键字段进行分词处理的具体步骤如下：

1.7、分词处理。根据关键字段进行分词处理，对提取的信息归类录入。这首先需要建立关键词库以及语义库，例如：公司、职位、地址、联系电话、email、路、号等等。定义关键字集合W={公司,职位,地址,联系电话,email,…}并定义关键字语义库，例如Address、Addr、通讯地址、联系地址等均为地址的近义词，即在语义上是一致的，建立对应的映射关系，形成语义库。然后根据关键词，基于上下文特征，提取出每组文字中的对应信息，填入相应表单，完成分词处理。具体步骤如下：

1.7.1、寻找“：”分隔符，利用分隔符界定关键词与内容。如果界定出的关键词不在关键字集合中则交由用户决定是否将其视为关键词收录到集合中。通过此步骤实现分词策略的学习功能;

1.7.2、然后匹配出关键字Key=C_x,y∩W，将字符串

填入名为Key的表单项中。当

时，将字符集C_x,y填入“未分类”表单项；

基于语义库的策略包括：

定位邮编策略：6位纯数字字符串，或带有“邮编”类标签；

4.如权利要求1所述的一种基于名片识别的社交关系管理方法，其特征在于：

步骤2）中建立社交关系网络的步骤如下：

2.1、通过用鼠标移动联系人结点来建立两个联系人的关系。将新加入的结点A_j附加到已有结点A_i（即要建立关系的联系人）上，确定操作双方后利用连线的形式表示两个联系人之间建立的关系L_i,j，它表示A_i与A_j彼此互相认识(双向)；

2.1.1、（可选）：如果新建立的联系人结点A_i是用户O(即“我”)的第一接触人，则将新结点A_i连接到用户结点O上建立联系线路OA_i，其关系为L_0,i；

2.1.2、（可选）：如果新建立的联系人结点A_j是用户O通过朋友A_i得知了此联系人，且对方并不认识用户O的情况下，则将新结点A_j连接到用户朋友结点A_i上建立联系线路A_iA_j，其关系为L_i,j；

2.1.3、（可选）：如果原先是用户O通过朋友A_i得知的联系人A_j与用户朋友A_i是第一接触人(单向)，而在进一步的合作交流后，用户O与该联系人A_j成为了第一接触人（双向），则将该联系人结点A_j连接到用户结点O上，形成与用户结点直接的联系路径OA_j，其关系为L_0,j；

2.2、对于每个关系L_i,j通过使用权值K_i,j来表示关系的强弱。L_i,j的权值K_i,j取决于联系人A_i与联系人A_j的结识时间T（单位：天）以及联系次数Count。具体计算方法为：

2.3、根据度数D与权值K得出“我”与各联系人的“亲密度”Intimacy。约定用户结点O的度数D₀=0通过路径OA_i上的关系L_0,i相连的结点A_i的度数D_i=1+D₀;通过路径A_iA_j上的关系L_i,j相连的结点A_j的度数D_j=1+D_i。“我”与结点A_j的“亲密度”计算公式为：Intimacy_j=D_j+K_i,j,D_i∈N^*,K_i,j∈[0,1)，“亲密度”Intimacy的整数部分代表了六度分割中的度数，小数部分将同等度数下的各个关系进一步划分开。因此，“亲密度”能较好的反应出以“我”为中心到各个结点的亲疏关系，其中N^*为正整数集。

5.如权利要求1所述的一种基于名片识别的社交关系管理方法所，其特征在于：

步骤3）中通过用户输入的检索关键词与已录入的个人信息进行模糊匹配，筛选出可能的目标列表智能检索，其具体步骤如下：

且

则返回其对应的联系人A_{(Char∩DATA)}。

3.3、根据关系L上的权值K，通过最短路径算法（这里采用Dijkstra算法），得到“我”与目标之间“最有效”的沟通途径，即通过最亲密的（抑或最少的）联系人联系到最需要的联系人。这里将联系人结点A视作Dijkstra算法中的点集；关系L视作算法中的边集；边的长度为对应K值；用户结点O作为算法中的源。

6.如权利要求1所述的一种基于名片识别的社交关系管理方法，其特征在于：步骤4）中完成移动终端同步的步骤如下：

4.1、启动服务。PC服务器端要求采用Socket和多线程等相关技术设计服务器程序，它可以是驻留服务程序，即随着操作系统启动而启动，也可以手工启动，启动后将与数据库服务器建立连接，然后自动监听移动终端的请求；

4.2、自动配置IP。当用户点击移动终端的同步客户端程序时，它将从移动终端中的配置文件中读取服务器IP地址、服务器端口号PORT；如果无法连接上PC服务器端，它将自动扫描服务器端程序。一次性IP扫描配置策略：终端加入PC服务器所在网段后，终端程序自动获取其IP地址，根据字符串定位算法获取IP地址前三个区域的数据，利用循环程序自动扫描由0-255与前三个区域数据构成的IP地址（作为可能的PC服务器端程序IP地址），若能连接成功，则将其保存于配置文件中，供下次自动连接服务器使用；

4.3、设置系统。移动终端的系统设置功能技术特征为：当终端程序自动扫描无法连接上PC服务器端程序时，可以交互式地修改IP地址、端口号PORT，同时还可以设置备份和导入时的完全覆盖、差异两个选项；

4.4、备份移动终端。移动终端的备份功能技术特征为：用户在移动终端上点击备份功能按钮时，当系统设置中的选项为完全覆盖，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,...,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则更新数据，若不存在，则插入。如果当系统设置中的选项为差异时，移动终端程序读取该终端的通讯录中第i个联系人(i=1,2,…,n)，然后将第i个联系人通过PC服务器端程序写入到对应的数据库中，若数据库中存在该联系人，则忽略，若不存在，则插入；