CN104246872B - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN104246872B CN104246872B CN201380020070.7A CN201380020070A CN104246872B CN 104246872 B CN104246872 B CN 104246872B CN 201380020070 A CN201380020070 A CN 201380020070A CN 104246872 B CN104246872 B CN 104246872B
- Authority
- CN
- China
- Prior art keywords
- data
- dictionary
- name
- dictionary data
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
Abstract
声音识别装置(1)按名称的每个类别开始基于名称数据或近义词数据的词典数据的制作,进行该词典数据的词典登记。声音识别装置(1)在取得与上次制作词典数据的文本信息相同的文本信息,并制作了与上次的文本信息对应的备份数据的情况下,对作为备份数据制作的词典数据进行词典登记。进而,每当词典数据制作单元(9)完成了基于某名称数据的词典数据的制作时,对基于该名称数据的词典数据进行词典登记。
Description
相关申请的交叉引用
本申请基于2012年4月16日提交的日本专利申请2012-93014,在此引用其记载内容。
技术领域
本申请涉及一种声音识别装置,其从设备取得包含多个名称数据的文本信息,对该取得的文本信息所包含的名称数据进行词典变换并制作词典数据,对该制作的词典数据进行词典登记,据此针对声音进行声音识别。
背景技术
例如针对有关乐曲的声音进行声音识别的声音识别装置得到广泛地普及(参照专利文献1)。
声音识别装置针对有关乐曲的声音进行声音识别时,从例如USB(UniversalSerial Bus:通用串行总线)存储器等设备中取得乐曲信息。声音识别装置对该取得的乐曲信息所包含的名称(艺术家名、专辑名、标题名、播放列表名等)的名称数据进行词典变换并制作词典数据,对该制作的词典数据进行词典登记,据此利用进行了该词典登记的词典数据来进行声音识别。
可是,以往是在取得乐曲信息所包含的全部名称数据后(全部名称数据齐备后)才开始制作词典数据,即,直到取得乐曲信息所包含的全部名称数据为止并不开始制作词典数据。因此,若制作词典数据的对象的乐曲信息的件数多,乐曲信息的数据量增加,则到开始制作词典数据为止需要大量时间。结果,存在从将设备连接至声音识别装置时起到可进行声音识别为止需要大量时间的问题。
另外,以往,即使在与上次连接时制作了词典数据的设备相同的设备被再次连接的情况下,若存储于该设备的乐曲信息从上次连接时起稍微发生了变更(添加或删除),则会废弃在该上次连接时制作的词典数据并从头制作新的词典数据。因此,存在如下问题:即使在少量乐曲信息发生了变更的情况下,在与该变更的少量乐曲信息的数据量不相称的期间内不能进行声音识别。
在先技术文献
专利文献
专利文献1:特许第3911178号公报
发明内容
本申请的目的在于提供一种声音识别装置,通过极力缩短不能进行声音识别的期间,能够适当地确保能够进行声音识别的期间,能够提高便利性。
在本申请的第一方式中,声音识别装置具备:文本信息取得单元,从外部设备取得包含多个名称数据的文本信息;词典数据制作单元,制作基于文本信息所包含的多个名称数据的词典数据;词典数据保存控制单元,使词典数据保存于词典数据保存单元;词典登记单元,对词典数据进行词典登记;声音识别单元,利用进行了词典登记的词典数据来进行声音识别;以及备份数据制作单元,制作所述词典数据保存单元中保存的词典数据的备份数据。所述词典数据制作单元按名称的每个类别执行基于名称数据的词典数据的制作。在上次从外部设备取得了与当前从外部设备取得的文本信息相同的文本信息、且与其对应的备份数据已由所述备份数据制作单元制作的情况下,所述词典登记单元对作为备份数据制作的词典数据进行词典登记,每当所述词典数据制作单元完成基于某名称数据的词典数据的制作时,对基于该名称数据的词典数据进行词典登记。
据此,不同于以往在取得文本信息所包含的全部名称数据后(全部名称数据齐备后)才开始制作词典数据,在此通过按名称的每个类别开始制作基于名称数据的词典数据,并对完成了该制作的词典数据进行词典登记,能够利用进行了该词典登记的词典数据进行声音识别。只要对基于一个名称数据的词典数据进行了词典登记,即使未对基于其他名称数据的词典数据进行词典登记,也能够利用基于一个名称数据的词典数据进行声音识别。
另外,不同于以往若从与上次制作了词典数据的设备相同的设备取得了文本信息,则会废弃上次的词典数据并从头制作新的词典数据,在此只要制作了与从下述设备上次取得的文本信息对应的备份数据,其中该设备是与取得本次文本信息的设备相同的设备,则事先对作为备份数据制作的词典数据进行词典登记,由此能够利用进行了该词典登记的词典数据进行声音识别。
如此地,只要在判定为与上次的设备相同的时刻制作备份数据,则通过对该备份数据的词典数据进行词典登记,就能够在取得文本信息之前利用进行了该词典登记的备份数据的词典数据进行声音识别。另一方面,通过按名称的每个类别开始制作基于名称数据的词典数据,并对完成了该制作的最新的词典数据进行词典登记(将最新的词典数据与备份数据的词典数据进行替换),能够利用进行了该词典登记的最新的词典数据依次(阶段性地)进行声音识别。
附图说明
通过一边参照附图一边进行下述的详细记述,有关本申请的上述目的以及其他目的、特征或优点将会变得更为明确。其附图为:
图1为表示本申请的一实施方式的功能框图,
图2为表示设备连接判定处理的流程图,
图3为表示制作词典数据的方式的图,
图4为表示制作有关乐曲信息的词典数据的方式的图,
图5(a)和图5(b)为表示制作词典数据的时序与显示画面的对应的图,
图6(a)至图6(c)为表示显示画面的图,
图7(a)至图7(c)为表示其他显示画面的图,
图8(a)至图8(c)为表示其他显示画面的图,
图9(a)至图9(c)为表示其他显示画面的图,
图10(a)至图10(c)为表示其他显示画面的图,
图11(a)至图11(c)为表示其他显示画面的图,
图12为表示其他显示画面的图。
具体实施方式
以下,对照附图说明适用于如下声音识别装置的一个实施方式,该声音识别装置构成为可搭载于车辆上,具有与可存储乐曲信息(相当于文本信息)的USB(UniversalSerial Bus)存储器的连接接口。在此所言的可搭载于车辆上,既可以是相对于车辆固定安装的所谓固定式的方式,也可以是相对于车辆可装卸的所谓可移动式的方式。声音识别装置1具有控制播放乐曲的处理等的音频控制部2、以及控制制作词典数据的处理或对声音进行声音识别的处理等的声音识别控制部3。音频控制部2以及声音识别控制部3构成为可在两者之间转送各种数据。
音频控制部2具有由众所周知的微型计算机构成的CPU、RAM、ROM以及I/O总线等,通过执行预先存储的控制程序进行播放乐曲的处理等。音频控制部2根据其功能具有乐曲信息取得部4(相当于文本信息取得单元),并且连接着可保存乐曲信息所包含的多个名称数据的乐曲信息数据库5以及可保存与名称建立了对应的近义词数据的近义词数据库6。通过针对声音识别装置1的主体(未图示)物理性地连接USB存储器7(相当于设备),乐曲信息取得部4从该USB存储器7取得(输入)存储于USB存储器7的乐曲信息,将该取得的乐曲信息保存于乐曲信息数据库5。
乐曲信息例如由mp3文件、wmv文件等构成。乐曲信息所包含的多个名称数据是艺术家名的名称数据、专辑名的名称数据、标题名的名称数据、播放列表名的名称数据等。近义词数据如上述那样与名称建立了对应,例如如果针对艺术家名和专辑名这两个名称各自建立了对应,则是与艺术家名对应的近义词数据、以及与专辑名对应的近义词数据。另外,在本实施方式中,作为近义词数据列举了与艺术家名对应的近义词数据以及与专辑名对应的近义词数据这两种数据,但也可以是与标题名对应的近义词数据、或与播放列表名对应的近义词数据。另外,也可以省略近义词数据库6,即也可以不将近义词数据与名称建立对应。
声音识别控制部3具有由众所周知的微型计算机构成的CPU、RAM、ROM以及I/O总线等,通过执行预先存储的控制程序进行制作词典数据的处理或对声音进行声音识别的处理等。声音识别控制部3根据其功能,具有建立对应部8(相当于建立对应单元)、词典数据制作部9(相当于词典数据制作单元)、词典数据保存控制部10(相当于词典数据保存控制单元)、词典登记部11(相当于词典登记单元)、声音识别部12(相当于声音识别单元)、备份数据制作部13(相当于备份数据制作单元)和显示控制部14(相当于通知控制单元),并且连接着可保存词典数据的词典数据库15、16(相当于词典数据保存单元)。
建立对应部8将从乐曲信息数据库5取得的乐曲信息的名称与从近义词数据库6取得的近义词数据建立对应。词典数据制作部9具有G2P(Grapheme to Phoneme:字素-音素)变换功能作为制作词典数据的功能,对从乐曲信息数据库5取得的名称数据进行词典变换来制作词典数据。另外,词典数据制作部9对从近义词数据库6取得的近义词数据进行词典变换来制作词典数据。此时,词典数据制作部9按名称的每个类别开始制作基于名称数据或近义词数据的词典数据(细节后述)。
词典数据保存控制部10使由词典数据制作部9制作的词典数据保存至词典数据库15、16之中被设定为最新保存区域(细节后述)的某一个数据库。词典登记部11对保存于词典数据库15、16的词典数据进行词典登记。声音识别部12连接着收集用户所发出的声音的麦克风17,若由麦克风17收集用户所发出的声音,并从麦克风17输入声音,则利用通过词典登记部11进行了词典登记而得的词典数据对该声音进行声音识别。此时,声音识别部12将进行了该声音识别而得的识别结果输出至显示控制部14,显示控制部14若从声音识别部12输入识别结果,则使表示该识别结果的显示画面显示于由例如液晶显示器装置构成的显示装置18(相对于通知单元)。
词典数据库15、16为能够择一地切换最新保存区域与备份区域的所谓双面构成。备份数据制作部13能够将词典数据库15、16在最新保存区域与备份区域间进行择一性切换,制作词典数据库15、16之中被设定为最新保存区域的某一个数据库所保存的词典数据作为备份数据。备份数据制作部13若制作备份数据则以完成该备份数据的制作为契机,将被设定为最新保存区域的一方从最新保存区域切换为备份区域,将被设定为备份区域的另一方从备份区域切换为最新保存区域,废弃(删除)在完成备份数据的制作之前作为备份数据保存的词典数据(过去的词典数据)。
词典数据库15、16构成为包括:对应于如上所述词典数据制作部9按名称的每个类别开始建立名称数据或近义词数据的词典数据,分别可保存每个名称数据的词典数据的词典数据库以及可保存每个近义词数据的词典数据的词典数据库。即,词典数据库15具有可保存对艺术家名的名称数据进行词典变换而得的词典数据的词典数据库15a、可保存对专辑名的名称数据进行词典变换而得的词典数据的词典数据库15b、可保存对标题名的名称数据进行词典变换而得的词典数据的词典数据库15c、可保存对播放列表名的名称数据进行词典变换而得的词典数据的词典数据库15d、可保存对与艺术家名对应的近义词数据进行词典变换而得的词典数据的词典数据库15e、可保存对与专辑名对应的近义词数据进行词典变换而得的词典数据的词典数据库15f。
同样地,词典数据库16具有可保存对艺术家名的名称数据进行词典变换而得的词典数据的词典数据库16a、可保存对专辑名的名称数据进行词典变换而得的词典数据的词典数据库16b、可保存对标题名的名称数据进行词典变换而得的词典数据的词典数据库16c、可保存对播放列表名的名称数据进行词典变换而得的词典数据的词典数据库16d、可保存对与艺术家名对应的近义词数据进行词典变换而得的词典数据的词典数据库16e、可保存对与专辑名对应的近义词数据进行词典变换而得的词典数据的词典数据库16f。词典数据库15、16优选为保存的对象的词典数据所对应的数据库彼此在其存储容量、数据的写入速度、数据的读出速度等性能上无差异。
上述的声音识别装置1例如可以是具有声音识别功能的导航装置等。若是具有声音识别功能的导航装置,则除了上述的功能之外,还具有用于进行导航的众所周知的功能,即确定车辆的当前位置的功能、从记录介质读出地图数据的功能、使用车辆的当前位置与地图数据所包含的道路数据对车辆的当前位置存在的道路进行匹配的功能、检索从车辆的当前位置到用户设定的目的地的路线的功能、基于检索的路线以及地图数据所包含的道路数据等算出路线引导所需的地点并进行路线引导的功能、描绘车辆的当前位置的周边地图、高速公路的简略图或交叉点附近的放大图等的功能等。此时,显示装置18为显示车辆的当前位置的周边地图等的装置等亦可。
接着,作为上述的构成的作用,对照图2至图12说明声音识别控制部3与本申请相关地进行的设备连接判定处理。另外,在此,说明的前提是,作为制作基于名称数据的词典数据的优先顺位,设定了艺术家名、专辑名、标题名、播放列表名的顺序,作为制作基于近义词数据的词典数据的优先顺位,设定了艺术家名、专辑名的顺序。
声音识别控制部3若开始设备连接判定处理,则判定USB存储器7是否连接至声音识别装置3(步骤S1)。声音识别控制部3若判定为USB存储器7连接至声音识别装置3(步骤S1:是),则判定该连接的USB存储器7与上次连接时是否相同(步骤S2)。此时,声音识别控制部3通过判定从USB存储器7输入的固有的识别信息(例如制造编号等),判定该连接的USB存储器7与上次连接时是否相同。
声音识别控制部3若判定该连接的USB存储器7与上次连接时相同(步骤S2:是),则最先对基于作为备份数据保存的名称数据的词典数据进行词典登记。具体而言,声音识别控制部3将名称的类别设定为名称数据的优先顺位为最高位的名称(在本实施方式中为艺术家名)(步骤S3),判定基于该设定的名称的名称数据的词典数据是否作为备份数据保存于词典数据库15、16的某一个数据库中(步骤S4)。
声音识别控制部3若判定为基于该设定的名称的名称数据的词典数据作为备份数据保存于词典数据库15、16的某一个数据库中(步骤S4:是),则对作为该备份数据保存的基于名称数据的词典数据进行词典登记(步骤S5)。即,声音识别控制部3通过对作为该备份数据保存的基于名称数据的词典数据进行词典登记,之后能够利用进行了词典登记的备份数据的词典数据针对输入的声音进行声音识别。
并且,声音识别控制部3判定是否将名称的类别设定为名称数据的优先顺位为最低位的名称(在本实施方式中为播放列表名)(步骤S6),若判定为尚未将名称的类别设定为名称数据的优先顺位为最低位的名称(步骤S5:否)则对名称的类别进行增量(设定优先顺位低一个的名称)(步骤S7),反复地进行上述的步骤S4至S6。即,声音识别控制部3随后将名称的类别依次设定为专辑名、标题名、播放列表名,若判定为基于各个名称数据的词典数据作为备份数据保存于词典数据库15、16的某一个数据库中,则对作为该备份数据保存的基于名称数据的词典数据进行词典登记。
另一方面,声音识别控制部3若判定为将名称的类别设定为名称数据的优先顺位为最低位的名称(步骤S6:是),则完成作为备份数据保存的基于名称数据的词典数据的词典登记。声音识别控制部3若如此地完成作为备份数据保存的基于名称数据的词典数据的词典登记,则会同样地进行作为备份数据保存的基于近义词数据的词典数据的词典登记。
接着,声音识别控制部3若完成作为备份数据保存的基于近义词数据的词典数据的词典登记,则按名称的每个类别对基于从USB存储器7取得的名称数据的词典数据进行词典登记。具体而言,声音识别控制部3将名称的类别设定为名称数据的优先顺位为最高位的名称(步骤S8),判定设定为名称的类别的名称数据是否从上次连接时起发生了变更(步骤S9)。即,声音识别控制部3通过对照保存于乐曲信息数据库5的名称数据与在词典数据库15、16的某一个数据库中作为备份数据而保存的词典数据,判定设定为名称的类别的名称数据是否从上次连接时起发生了变更。
声音识别控制部3若判定为设定为名称的类别的名称数据从上次连接时起发生了变更(步骤S9:是),则从乐曲信息数据库5取得该名称数据(步骤S10)。声音识别控制部3对该取得的名称数据进行词典变换并开始制作词典数据(步骤S11),判定是否完成基于该名称数据的词典数据的制作(步骤S12)。声音识别控制部3若判定完成了基于该名称数据的词典数据的制作(步骤S12:是),则使该制作的基于名称数据的词典数据保存于词典数据库15、16之中被设定为最新保存区域的某一个数据库(步骤S13)。
声音识别控制部3制作保存于词典数据库15、16之中被设定为最新保存区域的某一个数据库的词典数据作为备份数据(步骤S14)。此时,声音识别控制部3以完成该备份数据的制作为契机,将被设定为最新保存区域的一方从最新保存区域切换至备份区域。另外,声音识别控制部3将被设定为备份区域的另一方从备份区域切换至最新保存区域,废弃到该时刻之前作为备份数据保存的词典数据(过去的词典数据)(步骤S15)。
之后,声音识别控制部3对作为该备份数据制作的基于名称数据、即通过本次连接从USB存储器7取得的名称数据的词典数据进行词典登记(步骤S16)。即,声音识别控制部3对基于通过本次连接从USB存储器7取得的名称数据的词典数据进行词典登记,从而之后能够利用最新的词典数据针对输入的声音进行声音识别。
并且,声音识别控制部3判定是否将名称的类别设定为名称数据的优先顺位为最低位的名称(在本实施方式中为播放列表名)(步骤S17),若判定为尚未将名称的类别设定为名称数据的优先顺位为最低位的名称(步骤S17:否),则对名称的类别进行增量(设定优先顺位低一个的名称)(步骤S18),反复地进行上述的步骤S9至S17。即,声音识别控制部3随后将名称的类别依次设定为专辑名、标题名、播放列表名,若判定为各个名称数据发生了变更,则从乐曲信息数据库5中取得该名称数据,对该取得的名称数据进行词典变换来制作词典数据。
另一方面,声音识别控制部3若判定为将名称的类别设定为名称数据的优先顺位为最低位的名称(步骤S17:是),则完成基于从USB存储器7取得的名称数据的词典数据的词典登记。
接着,声音识别控制部3按名称的每个类别对基于与名称对应的近义词数据的词典数据进行词典登记。具体而言,声音识别控制部3将名称的类别设定为近义词数据的优先顺位为最高位的名称(步骤S19),判定设定为名称的类别的近义词数据是否从上次连接时起发生了变更(步骤S20)。即,声音识别控制部3通过对照保存于近义词数据库5的近义词数据与在词典数据库15、16的某一个数据库中作为备份数据而保存的词典数据,判定设定为名称的类别的近义词数据是否从上次连接时起发生了变更。
声音识别控制部3若判定为设定为名称的类别的近义词数据从上次连接时起发生了变更(步骤S20:是),则从近义词数据库6中取得该近义词数据(步骤S21)。声音识别控制部3对该取得的近义词数据进行词典变换并开始词典数据的制作(步骤S22),判定是否完成基于该近义词数据的词典数据的制作(步骤S23)。声音识别控制部3若判定完成了基于该近义词数据的词典数据的制作(步骤S23:是),则使该制作的基于近义词数据的词典数据保存于词典数据库15、16之中被设定为最新保存区域的某一数据库(步骤S24)。
声音识别控制部3制作保存于词典数据库15、16之中被设定为最新保存区域的某一数据库的词典数据作为备份数据(步骤S25)。声音识别控制部3以完成了该备份数据的制作为契机,将被设定为最新保存区域的一方从最新保存区域切换至备份区域。另外,声音识别控制部3将被设定为备份区域的另一方从备份区域切换至最新保存区域,废弃到该时刻之前作为备份数据保存的词典数据(过去的词典数据)(步骤S26)。
之后,声音识别控制部3对作为该备份数据制作的基于近义词数据、即与通过本次连接从USB存储器7取得的名称对应的近义词数据的词典数据进行词典登记(步骤S27)。即,声音识别控制部3对基于与通过本次连接从USB存储器7取得的名称对应的近义词数据的词典数据进行词典登记,从而之后能够利用最新的词典数据针对输入的声音进行声音识别。
并且,声音识别控制部3判定是否将名称的类别设定为近义词数据的优先顺位为最低位的名称(在本实施方式中为专辑名)(步骤S28),若判定为尚未将名称的类别设定为近义词数据的优先顺位为最低位的名称(步骤S28:否),则对名称的类别进行增量(设定优先顺位低一个的名称)(步骤S29),反复地进行上述的步骤S20至S28。即,声音识别控制部3随后将名称的类别设定为专辑名,若判定为该近义词数据发生了变更,则从近义词数据库6中取得该近义词数据,对该取得的近义词数据进行词典变换来制作词典数据。
另一方面,声音识别控制部3若判定为将名称的类别设定为近义词数据的优先顺位为最低位的名称(步骤S28:是),则完成基于名称所对应的近义词数据的词典数据的词典登记,结束设备连接判定处理并返回。
另外,声音识别控制部3若判定连接的USB存储器7与上次连接时不同(步骤S2:否),则不会判定是否保存有备份数据,而转移至步骤S8。此时,声音识别控制部3判定为设定为名称的类别的名称数据从上次连接时起发生了变更(步骤S9:是),从乐曲信息数据库5取得该名称数据(步骤S10),之后进行同样的处理。
另外,声音识别控制部3若判定为设定为名称的类别的名称数据从上次连接时起未发生变更(步骤S9:否),则不从乐曲信息数据库5取得该名称数据从而不会开始词典数据的制作,转移至步骤S17。另外,声音识别控制部3若判定为设定为名称的类别的近义词数据从上次连接时起未发生变更(步骤S20:否),则不从近义词数据库6中取得该近义词数据从而不会开始词典数据的制作,转移至步骤S28。
声音识别装置1通过由声音识别控制部3进行上述的一连串的处理,在连接了上次连接时制作过词典数据的USB存储器7时,如图3所示,通过对作为备份数据保存的基于名称数据或近义词数据的词典数据进行词典登记,能够在新的词典数据的制作期间,利用作为备份数据而制作的词典数据进行声音识别。
另外,声音识别控制部1在制作基于从USB存储器7取得的名称数据或近义词数据的词典数据时,如图4所示,按照预先设定的优先顺位按名称的每个类别开始制作词典数据并进行词典登记。即,就名称数据而言,按照艺术家名、专辑名、标题名、播放列表名的顺序开始制作词典数据并进行词典登记,然后,就近义词数据而言,按照艺术家名、专辑名的顺序开始制作词典数据并进行词典登记,据此能够利用制作完成了的基于名称数据或近义词数据的词典数据进行声音识别。
另外,声音识别装置1在如上述基于名称数据或近义词数据的词典数据的制作期间,使图6(a)至图11(c)所示的显示画面依次显示于显示装置18,以便将词典数据的制作的进度处于何种程度通知给用户。若具体地说明,声音识别装置1在连接了USB存储器7的时刻未保存备份数据的情况下,在基于艺术家名、专辑名、标题名、播放列表名的各个名称数据的词典数据开始制作的定时、制作中的定时、完成制作的定时,使图6(a)至图8(c)所示的显示画面依次显示于显示装置18,据此通知该情况。
即,通过显示例如图6(a)所示的显示画面,用户能够掌握最新的词典数据的制作已开始、并且无法进行声音识别这一情况。另外,通过显示图6(b)所示的显示画面,用户能够掌握最新的词典数据正在制作中、并且不久之后便能够利用最新的词典数据进行声音识别这一情况。另外,通过显示图6(c)所示的显示画面,用户能够掌握基于艺术家名的名称数据的词典数据的制作已完成,并且能够利用最新的艺术家名的名称数据进行声音识别(基于艺术家名的名称数据的词典数据已制作)这一情况。
另一方面,声音识别装置1在连接了USB存储器7的时刻保存有备份数据的情况下,同样也在基于艺术家名、专辑名、标题名、播放列表名的各个名称数据的词典数据的制作开始的定时、制作中的定时、完成制作的定时,使图9(a)至图11(c)所示的显示画面依次显示于显示装置18,据此通知该情况。
即,通过显示例如图9(a)所示的显示画面,用户能够掌握最新的词典数据的制作已开始、并且无法利用最新的词典数据进行声音识别但能够利用过去的词典数据进行声音识别这一情况。另外,通过显示图9(b)所示的显示画面,用户能够掌握最新的词典数据正在制作中、并且不久之后便能够利用最新的词典数据进行声音识别这一情况。另外,通过显示图9(c)所示的显示画面,用户能够掌握基于艺术家名的名称数据的词典数据的制作已完成、并且能够利用最新的艺术家名的名称数据进行声音识别(基于艺术家名的名称数据的词典数据已更新)这一情况。
另外,声音识别装置1不限于上述的基于名称数据的词典数据的制作开始的定时、制作中的定时、完成制作的定时,在基于与艺术家名对应的近义词数据或与专辑名对应的近义词数据的词典数据的制作开始的定时、制作中的定时、完成制作的定时,也同样使词典数据的制作的进度处于何种程度通知给用户的显示画面(未图示)依次显示于显示装置18。在此所说的完成制作的定时,意思也包含完成词典登记的定时,即意思是能够进行声音识别的定时。另外,声音识别装置1在针对表示从USB存储器7删除了的名称的声音进行声音识别时,使图12所示的显示画面显示于显示装置18,通知该情况。
如以上说明,根据本实施方式,在声音识别装置1中,按名称的每个类别开始制作基于名称数据或近义词数据的词典数据,对完成了该制作的最新的词典数据进行词典登记。据此,能够利用进行了该词典登记的最新的词典数据来进行声音识别。另外,若从与上次制作了词典数据的设备相同的设备取得文本信息,则只要制作与从下述设备上次取得的文本信息对应的备份数据,其中该设备是与取得本次文本信息的设备相同的设备,就能够对作为备份数据而制作的词典数据进行词典登记。据此,能够利用进行了该词典登记的词典数据来进行声音识别。
只要将在进行声音识别时所利用的词典数据作为履历存储,以基于该履历在过去进行了声音识别时作为词典数据利用且频度较多的顺序为优先顺序,开始制作基于名称数据或近义词数据的词典数据,就能够优先地制作使用可能性高的基于名称数据或近义词数据的词典数据。
只要判定制作词典数据或近义词数据的对象的件数(数据量),以其件数少的顺序为优先顺位开始制作基于名称数据或近义词数据的词典数据,就能够优先地制作件数少的基于名称数据或近义词数据的词典数据。
若进行了备份数据的词典数据的词典登记之后,判定为从上次连接时起名称数据未发生变更,则并不进行基于名称数据的词典数据的制作,另外,若判定为从上次连接时起近义词数据未发生变更,则并不进行基于近义词数据的词典数据的制作。据此,能够利用在判定从上次连接时起名称数据或近义词数据是否发生变更之前进行了词典登记的备份数据的词典数据进行声音识别。
在备份数据已制作的状态下,逐一通知哪一个名称能够利用最新的基于名称数据或近义词数据的词典数据进行声音识别,或者哪一个名称能够利用过去的基于名称数据或近义词数据的词典数据进行声音识别。据此,能够使用户逐一掌握已更新基于名称数据或近义词数据的词典数据的情况、或者能够利用最新的名称数据或近义词数据进行声音识别的情况。
即使在尚未制作备份数据的状态下,也逐一通知哪一个名称能够利用最新的基于名称数据或近义词数据的词典数据进行声音识别。据此,能够使用户逐一掌握已制作基于名称数据或近义词数据的词典数据的情况、或者能够通过最新的名称数据或近义词数据进行声音识别的情况。
不限于可搭载于车辆的装置,例如也可以是设置于自宅等建筑物内的装置,即也可以是在无关车辆的状况下使用的装置。
作为设备,不限于USB存储器,例如也可以是乐曲播放终端等其他机器。在设备为乐曲播放终端时,也可以是声音识别装置与乐曲播放终端在二者之间进行Bluetooth(蓝牙,注册商标)通信,由此声音识别装置从乐曲播放终端取得乐曲信息。
作为文本信息,不限于乐曲信息,也可以是通讯录信息或地名信息等。在文本信息为通讯录信息时,也可以按名称的每个类别开始基于作为名称数据的登记名、固定电话号码、便携电话号码等的各自的词典数据。此时,也可以采用例如人物的称呼等作为近义词数据。另外,在文本信息为地名信息时,也可以按名称的每个类别开始基于作为名称数据的设施名称、设施电话号码、住址等的各自的词典数据。此时,也可以采用例如设施名的简称等作为近义词数据。
也可以代替显示图6(a)至图12所示的显示画面,而输出表示词典数据的制作的进度处于何种程度的声音,据此通知该情况。另外,也可以并用显示显示画面以及输出声音亦可。
在最新的词典数据的制作中利用过去的词典数据来进行声音识别的情况下,也可以在输出该识别结果时,通知该声音结果为利用过去的词典数据来进行声音识别而得到的这一情况。
也可以构成为播放乐曲的功能设置于不同于声音识别装置的装置中。
本申请遵照实施例而记述,但应该理解为本申请不限定于该实施例或构造。本申请还包含各种变形例或等同范围内的变形。此外,各种组合和方式、进而包含这些之中仅一个要素、其以上或其以下的其他组合和方式也包含于本申请的范畴和思想范围。
Claims (14)
1.一种声音识别装置,具备:
文本信息取得单元(4),从外部设备(7)取得包含多个名称数据的文本信息;
词典数据制作单元(9),按名称的每个类别制作基于文本信息所包含的多个名称数据的词典数据;
词典数据保存控制单元(10),使词典数据保存于词典数据保存单元(15、16);
词典登记单元(11),按名称的每个类别对词典数据进行词典登记;
声音识别单元(12),利用进行了词典登记的词典数据来进行声音识别;以及
备份数据制作单元(13),制作所述词典数据保存单元(15、16)中保存的词典数据的备份数据;
所述词典数据制作单元(9)按名称的每个类别执行基于名称数据的词典数据的制作,
在上次从外部设备(7)取得了与当前从外部设备(7)取得的文本信息相同的文本信息、且与该文本信息对应的备份数据已由所述备份数据制作单元(13)制作的情况下,所述词典登记单元(11)按名称的每个类别对作为备份数据制作的词典数据进行词典登记,每当所述词典数据制作单元(9)基于某名称数据的词典数据的制作按名称的每个类别完成时,按名称的每个类别对基于该名称数据的词典数据进行词典登记。
2.如权利要求1所述的声音识别装置,
所述词典数据制作单元(9)按照所述声音识别单元(12)过去进行声音识别时作为词典数据利用的频度从多到少的名称数据的顺序,执行基于名称数据的词典数据的制作。
3.如权利要求1所述的声音识别装置,
所述词典数据制作单元(9)按照制作该词典数据的对象的件数从少到多的顺序,执行基于名称数据的词典数据的制作。
4.如权利要求1所述的声音识别装置,
所述词典数据制作单元(9)在某名称数据从上次的文本信息取得时刻起发生了变更的情况下,执行基于该名称数据的词典数据的制作,
所述词典数据制作单元(9)在某名称数据从上次的文本信息取得时刻起未发生变更的情况下,跳过基于该名称数据的词典数据的制作。
5.如权利要求1所述的声音识别装置,
所述声音识别装置还具备建立对应单元(8),该建立对应单元(8)将某名称与近义词数据建立对应,
所述词典数据制作单元(9)在完成了基于全部名称数据的词典数据的制作之后,执行基于由所述建立对应单元(8)与名称建立了对应的近义词数据的词典数据的制作,
在所述词典数据制作单元(9)完成了基于近义词数据的词典数据的制作的情况下,所述词典登记单元(11)进行基于该近义词数据的词典数据的词典登记。
6.如权利要求5所述的声音识别装置,
在所述建立对应单元(8)将多个近义词数据与多个名称各自建立了对应的情况下,所述词典数据制作单元(9)按名称的每个类别执行基于该多个近义词数据的词典数据的制作,
每当所述词典数据制作单元(9)完成了基于某近义词数据的词典数据的制作时,所述词典登记单元(11)进行基于该近义词数据的词典数据的词典登记。
7.如权利要求5所述的声音识别装置,
所述词典数据制作单元(9)按照所述声音识别单元(12)过去进行声音识别时作为词典数据利用的频度从多到少的近义词数据的顺序,执行基于多个近义词数据的词典数据的制作。
8.如权利要求5所述的声音识别装置,
所述词典数据制作单元(9)按照制作该词典数据的对象的件数从少到多的顺序,执行基于多个近义词数据的词典数据的制作。
9.如权利要求5所述的声音识别装置,
所述词典数据制作单元(9)在某近义词数据从上次的文本信息取得时刻起发生了变更的情况下,执行基于该近义词数据的词典数据的制作,
所述词典数据制作单元(9)在某近义词数据从上次的文本信息取得时刻起未发生变更的情况下,跳过基于该近义词数据的词典数据的制作。
10.如权利要求1所述的声音识别装置,还具备:
通知控制单元(14),在由所述备份数据制作单元(13)制作了备份数据的情况下,在所述词典数据制作单元(9)正在制作词典数据或所述词典登记单元(11)正在进行词典登记的期间,通过通知单元(18)进行意为所述声音识别单元(12)能够利用备份数据进行声音识别的通知。
11.如权利要求10所述的声音识别装置,
在所述词典数据制作单元(9)完成了基于名称数据或近义词数据的词典数据的制作时,所述通知控制单元(14)通过所述通知单元(18)进行意为所述声音识别单元(12)能够利用该词典数据进行声音识别的通知。
12.如权利要求1所述的声音识别装置,还具备:
通知控制单元(14),在未由所述备份数据制作单元(13)制作备份数据、且所述词典数据制作单元(9)正在制作词典数据的期间的情况下,在所述词典数据制作单元(9)完成了基于名称数据或近义词数据的词典数据的制作之后,通过通知单元(18)进行意为所述声音识别单元(12)能够利用该词典数据进行声音识别的通知。
13.如权利要求11所述的声音识别装置,
在所述词典数据制作单元(9)刚完成了基于名称数据或近义词数据的词典数据的制作之后,所述通知控制单元(14)通过通知单元(18)进行意为所述声音识别单元(12)能够利用该词典数据进行声音识别的通知。
14.如权利要求1~13中任一项所述的声音识别装置,
所述文本信息取得单元(4)取得至少包含艺术家名、专辑名、标题名、播放列表名的名称数据的乐曲信息作为文本信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012093014A JP5942559B2 (ja) | 2012-04-16 | 2012-04-16 | 音声認識装置 |
JP2012-093014 | 2012-04-16 | ||
PCT/JP2013/000458 WO2013157174A1 (ja) | 2012-04-16 | 2013-01-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104246872A CN104246872A (zh) | 2014-12-24 |
CN104246872B true CN104246872B (zh) | 2017-07-28 |
Family
ID=49383149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380020070.7A Expired - Fee Related CN104246872B (zh) | 2012-04-16 | 2013-01-29 | 声音识别装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9704479B2 (zh) |
JP (1) | JP5942559B2 (zh) |
CN (1) | CN104246872B (zh) |
WO (1) | WO2013157174A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220632A1 (en) * | 2012-09-27 | 2015-08-06 | Nec Corporation | Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information |
WO2015178715A1 (en) * | 2014-05-23 | 2015-11-26 | Samsung Electronics Co., Ltd. | System and method of providing voice-message call service |
US11036926B2 (en) | 2018-05-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Generating annotated natural language phrases |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1530926A (zh) * | 2003-03-13 | 2004-09-22 | ���µ�����ҵ��ʽ���� | 语音识别词典制作装置及信息检索装置 |
CN101454826A (zh) * | 2006-05-31 | 2009-06-10 | 日本电气株式会社 | 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020048224A1 (en) | 1999-01-05 | 2002-04-25 | Dygert Timothy W. | Playback device having text display and communication with remote database of titles |
US6304523B1 (en) | 1999-01-05 | 2001-10-16 | Openglobe, Inc. | Playback device having text display and communication with remote database of titles |
JP3911178B2 (ja) | 2002-03-19 | 2007-05-09 | シャープ株式会社 | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 |
US7584102B2 (en) * | 2002-11-15 | 2009-09-01 | Scansoft, Inc. | Language model for use in speech recognition |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
JP4867622B2 (ja) * | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
DE112007002665B4 (de) * | 2006-12-15 | 2017-12-28 | Mitsubishi Electric Corp. | Spracherkennungssystem |
US8639214B1 (en) * | 2007-10-26 | 2014-01-28 | Iwao Fujisaki | Communication device |
CN102119412B (zh) * | 2008-08-11 | 2013-01-02 | 旭化成株式会社 | 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法 |
JP5465926B2 (ja) * | 2009-05-22 | 2014-04-09 | アルパイン株式会社 | 音声認識辞書作成装置及び音声認識辞書作成方法 |
JP2011039202A (ja) * | 2009-08-07 | 2011-02-24 | Aisin Aw Co Ltd | 車載情報処理装置 |
JP5693834B2 (ja) * | 2009-09-17 | 2015-04-01 | アルパイン株式会社 | 音声認識装置及び音声認識方法 |
JP2011095498A (ja) * | 2009-10-29 | 2011-05-12 | Aisin Aw Co Ltd | 車載情報処理装置及び車載情報処理方法 |
CN102687197B (zh) * | 2010-01-22 | 2014-07-23 | 三菱电机株式会社 | 声音识别用词典制作装置、声音识别装置及声音合成装置 |
JP2011150169A (ja) * | 2010-01-22 | 2011-08-04 | Alpine Electronics Inc | 音声認識装置 |
US20110238412A1 (en) * | 2010-03-26 | 2011-09-29 | Antoine Ezzat | Method for Constructing Pronunciation Dictionaries |
DE112010005425T5 (de) * | 2010-03-30 | 2013-01-10 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
-
2012
- 2012-04-16 JP JP2012093014A patent/JP5942559B2/ja not_active Expired - Fee Related
-
2013
- 2013-01-29 US US14/384,400 patent/US9704479B2/en not_active Expired - Fee Related
- 2013-01-29 CN CN201380020070.7A patent/CN104246872B/zh not_active Expired - Fee Related
- 2013-01-29 WO PCT/JP2013/000458 patent/WO2013157174A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1530926A (zh) * | 2003-03-13 | 2004-09-22 | ���µ�����ҵ��ʽ���� | 语音识别词典制作装置及信息检索装置 |
CN101454826A (zh) * | 2006-05-31 | 2009-06-10 | 日本电气株式会社 | 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104246872A (zh) | 2014-12-24 |
US20150100317A1 (en) | 2015-04-09 |
WO2013157174A1 (ja) | 2013-10-24 |
US9704479B2 (en) | 2017-07-11 |
JP5942559B2 (ja) | 2016-06-29 |
JP2013222033A (ja) | 2013-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5019836B2 (ja) | データ再生機能を有する電子装置 | |
JP3892410B2 (ja) | 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体 | |
KR20060106683A (ko) | 유저 단말 및 콘텐츠 탐색 제시방법 | |
KR20080000203A (ko) | 음성인식을 이용한 음악 파일 검색 방법 | |
JP2010250023A (ja) | テキスト表示機能付情報処理装置、データ取得方法およびデータ取得プログラム | |
JP2004226741A (ja) | 情報提供装置 | |
CN104246872B (zh) | 声音识别装置 | |
CN104834738B (zh) | 录音文件存储方法及装置 | |
JP5465926B2 (ja) | 音声認識辞書作成装置及び音声認識辞書作成方法 | |
JP3931179B2 (ja) | コンテンツ再生装置 | |
JP5814879B2 (ja) | 投稿音声再生制御システム、投稿音声再生制御方法、投稿音声再生制御プログラム | |
US20090132591A1 (en) | Method and system for displaying and accessing music data files | |
JPH09212513A (ja) | 書籍情報表示装置 | |
JP2009092977A (ja) | 車載装置および楽曲検索システム | |
JP2006311010A5 (zh) | ||
JP6265711B2 (ja) | 楽曲再生装置及びコンピュータプログラム | |
JP4812109B2 (ja) | コンテンツデータ再生装置、コンテンツリスト作成方法及びコンテンツリスト検索方法 | |
JP2010072081A (ja) | 音声認識用辞書作成装置 | |
CN118551770B (zh) | 一种知识图谱生成方法及装置 | |
JP2008139924A (ja) | 記憶ストックシステム | |
JP2009204872A (ja) | 音声認識用辞書生成システム | |
CN102622401A (zh) | 一种在音频文件播放过程中扩展显示相关信息的方法、系统及移动手持装置 | |
US20120130518A1 (en) | Music data reproduction apparatus | |
JP2004070495A (ja) | データ再生装置、データ検索方法、データ再生方法およびコンテンツデータを再生するデータ再生装置におけるデータ検索方法をコンピュータに実行させるためのプログラム | |
JP5213358B2 (ja) | データベース登録装置、データベース登録方法、制御プログラム及びコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170728 Termination date: 20210129 |