[go: up one dir, main page]

CN1327573A - 信息检索方法、信息检索设备、信息存储方法和信息存储设备 - Google Patents

信息检索方法、信息检索设备、信息存储方法和信息存储设备 Download PDF

Info

Publication number
CN1327573A
CN1327573A CN00802218A CN00802218A CN1327573A CN 1327573 A CN1327573 A CN 1327573A CN 00802218 A CN00802218 A CN 00802218A CN 00802218 A CN00802218 A CN 00802218A CN 1327573 A CN1327573 A CN 1327573A
Authority
CN
China
Prior art keywords
sound
signal
retrieval
retrieval key
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00802218A
Other languages
English (en)
Other versions
CN1178201C (zh
Inventor
三浦雅美
矢部进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1327573A publication Critical patent/CN1327573A/zh
Application granted granted Critical
Publication of CN1178201C publication Critical patent/CN1178201C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/066MPEG audio-visual compression file formats, e.g. MPEG-4 for coding of audio-visual objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/315Firewire, i.e. transmission according to IEEE1394
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • G10H2250/575Adaptive MDCT-based compression, e.g. using a hybrid subband-MDCT, as in ATRAC
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2525Magneto-optical [MO] discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

声音特征参数分析单元,设置在相似性计算单元的前级中,分析要检索的声音信号,以获得声音特征参数。检索器声音信号读取单元从检索器存储器中的检索器存储区域读取检索器的声音信号,用于由检索器声音特征参数分析单元分析以获得检索器声音特征参数。相似性计算单元比较由声音特征参数分析单元获得的声音特征参数和来自检索器声音特征参数分析单元的检索器声音特征参数,以计算两者之间的相似性,从要检索的声音信号中检索类似于来自检索器的声源的声音信号的部分。

Description

信息检索方法、信息检索 设备、信息存储方法和信息存储设备
技术领域
本发明涉及用于从音频信号检索特定乐器、人或动物的声音和/或从视频信号检索特定人或特定场景的图象的方法和设备。本发明还涉及用于存储利用该检索方法的信息的方法和设备。
背景技术
例如,可能有这样的需要,即检索表示会议的所记录讨论的特定部分的音频信号。
例如,按照惯例,表示会议的所记录讨论并被该记录的用户需要的特定部分音频信号可以通过在记录的时候对特定部分放置标记来检索,这样用户可以在他或她希望的任何时间容易地检索该部分记录。
还知道一种记录从记录的开始就带有计数器读数(readings)或时刻(timings)(通常以秒、分和时来表示)的声音信号的方法,这样声音信号的任何部分都有和它相连的对应的数值。
然而,不管是放标记的方法还是记录计数器读数的方法,考虑到他或她以后将必须检索和使用所记录的音频信号的部分,该用户必须选择上面的方法的一种。因此,这些方法伴随着下面的问题:
1.用户必须进行独立的和繁重的放置标记或记录计数器读数或时刻的操作。
2.用户不能检索没有放置标记或没有计数器读数被记录的音频信号的任何部分。
3.会议的特定发言者的发言信号部分或音乐会的特定乐器的音调不能检索。换言之,会议的特定发言者的发言或音乐会的特定乐器的音调不能被分出。
4.由于适合的音频信号必须被带有标记或计数器读数地记录,不可能通过多个检索器,不记录一部分音频信号而检索和分类它。
发明地公开
考虑到上面的情况,因此,本发明的一个目的是提供一种方法和一种装置,能够从所记录的音频信号中检索特定发言者的发言或特定乐器的声调的部分,而不需要在记录该音频信号时放置标记或记录计数器读数或时刻的操作。
本发明的另一个目的是提供一种方法和一种装置,能够通过使用作为检索线索的信号的部分,检索从特定声源产生的音频信号的特定部分。
根据本发明,本发明的上述目的和其它目的的实现是通过提供一种声音检索方法,用于通过比较从作为检索关键码(key)操作的各个音频信号获得的并依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号。
根据本发明,也提供了一种声音信息存储方法,用于在记录介质上记录输入音频信号,和通过比较从作为检索关键码操作的各个音频信号获得的并依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,从而记录与所述检索关键码联系的检索处理的结果和在所述记录介质上用于记录所述输入音频信号的位置。
在本发明的另一个方面,也提供了一种声音信息检索设备,包括声音特性参数分析装置,用于分析要分析的音频信号和获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,提取要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和结果显示装置,用于显示所述检索处理的结果。
在本发明的另一个方面,也提供了一种声音信息检索设备,包括声音特性参数分析装置,用于分析要分析的音频信号和获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,提取要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和重现装置,用于根据所述检索装置的检索处理的结果,提取和仅重现所述类似部分。
在本发明的另一个方面,也提供了一种声音信息存储设备,包括记录装置,用于在记录介质上记录输入音频信号;声音特性参数分析装置,用于分析要分析的所述输入音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;和检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和输入音频信号的所述声音特性参数,检索要分析的输入音频信号的一部分,其类似于一个或多于一个的作为检索关键码操作的和从检索关键码的声源获得的音频信号,所述检索装置的检索处理的结果被记录,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
在本发明的另一个方面,也提供了一种声音/图象信息检索方法,用于检索包括视频信号和与所述视频信号相联系的音频信号的输入信号的一部分,所述方法包括通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,并产生所检索的部分作为对所述输入信号进行的检索操作的结果。
在本发明的另一个方面,也提供了一种声音/图象信息检索方法,用于检索包括视频信号和与所述视频信号相联系的音频信号的输入信号的一部分,所述方法包括通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,也通过比较作为检索关键码操作和示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,所述输入信号的一部分基于对所述音频信号进行的检索处理的结果和对所述视频信号进行的检索处理的结果被检索。
在本发明的另一个方面,也提供了一种声音/图象信息存储方法,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号,通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,记录所述检索处理的结果,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
在本发明的另一个方面,也提供了一种声音/图象信息存储方法,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号,通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,也通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,记录对所述音频信号和所述视频信号进行的检索处理的结果,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
在本发明的另一个方面,也提供了一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,并获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,并检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和结果显示装置,用于显示所述检索处理的结果。
在本发明的另一个方面,也提供了一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,并获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,和检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和重现装置,用于提取和重现对应于所述类似部分的所述输入信号的部分。
在本发明的另一个方面,也提供了一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,并获得依赖于该音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,和检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象;和结果显示装置,用于显示所述声音部分检索装置的检索处理的结果和所述图象部分检索装置的的检索处理的结果。
在本发明的另一个方面,也提供了一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,和获得依赖于该音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,并检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象;和重现装置,用于提取和重现基于所述声音部分检索装置的检索处理的结果和所述图象部分检索装置的检索处理的结果确定的所述输入信号的部分。
在本发明的另一个方面,也提供了一种声音/图象信息存储设备,包括记录装置,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号;声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;和声音部分检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和所述输入信号的音频信号的所述声音特性参数,并检索所述输入信号的音频信号的一部分,其类似于作为检索关键码操作的音频信号,所述声音部分检索装置的检索处理的结果被记录,以便与所述检索关键码和在所述记录介质上用于记录所述输入信号的位置相联系。
在本发明的另一个方面,也提供了一种声音/图象信息存储设备,包括记录装置,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号;声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和所述输入信号的音频信号的所述声音特性参数,并检索所述输入信号的音频信号的一部分,其类似于作为检索关键码操作的音频信号;和图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,所述声音部分检索装置和所述图象部分检索装置的检索处理的结果被记录,以便与所述检索关键码和在所述记录介质上用于记录所述输入信号的位置相联系。
图1是根据本发明的声音检索设备的第一个实施例的示意框图;
图2A和2B分别示出男人语音的典型频率分量分布特性曲线和瞬时波形;
图3A和3B分别示出女人语音的典型频率分量分布特性曲线和瞬时波形;
图4A和4B示出萨克斯的典型频率分量分布特性曲线和瞬时波形;
图5A和5B示出低音电吉他的典型频率分量分布特性曲线和瞬时波形;
图6是第一个实施例的登记检索关键码的操作的流程图;
图7是第一个实施例的检索操作的流程图;
图8A和8B是第一个实施例的检索操作的结果的一些显示例;
图9是第一个实施例的检索操作的结果的另一个显示例;
图10是第一个实施例的检索操作的结果的另一个显示例;
图11是根据本发明的声音检索设备的第二个实施例的示意框图;
图12是根据本发明的声音检索设备的第三个实施例的示意框图;
图13是根据本发明的声音检索设备的第四个实施例的示意框图;
图14是根据本发明的声音检索设备的第五个实施例的主要部分的示意图示;
图15是根据本发明的声音检索设备的第五个实施例的主要部分的操作的流程图;
图16是根据本发明的声音/图象信息检索设备的第一个实施例的示意框图:和
图17是根据本发明的声音/图象信息检索设备的第一个实施例的示意图示。
实现本发明的最佳模式
现在,将参考附图描述本发明,附图示出了实现本发明的最佳模式。
下面将参考附图描述本发明的一些优选实施例。
[第一个实施例]
图1是本发明的第一个实施例的示意框图。该第一实施例适用于记录要检查的输入音频信号和重现所记录的信号,该信号通常表示由麦克风拾取的声音。该实施例也适用于检索所重现的音频信号。另外,该实施例也适用于从所输入的或重现的要检查的音频信号中提取出作为检索关键码操作的音频信号,存储它们,并通过使用所存储的作为检索关键码操作的音频信号来实际上检查所输入的或重现的音频信号,以及在实施例的显示部分上显示检查的输出。
所输入的音频信号通过输入端11被供给开关电路SW1。当记录输入音频信号时,由从控制部分10供给的开关控制信号将开关电路SW1切换到a端的一侧;当从输入音频信号中提取作为检索关键码操作的音频信号时,由也从控制部分10供给的开关控制信号将开关电路SW1切换到b端的一侧。
在开关电路SW1的a端的一侧获得的音频信号被记录在记录介质13上,记录介质13通常是记忆卡、磁盘、诸如磁光盘(magneto-optical disk)的光盘或作为音频信号记录部分12的硬盘。当用户经由关键码操作部分20将一记录指令给它时,该实施例的音频信号记录部分12被从控制部分10供给的控制信号激活以实现记录操作。
经由输入端11进入的输入音频信号也被供给开关电路SW2的输入端IN。音频放大器15和扬声器16被安排在后面,并连接到开关电路SW2,除了当实施例被操作用于信号重现(后面将描述)时外,开关电路SW2被来自控制部分10的开关控制信号切换到输入端IN一侧。因此,如果该实施例不用作信号重现,则输入音频信号经由音频放大器15被供给到扬声器16,以重现音频信号的声音。
当用户经由关键码操作部分20给出用于信号重现的指令时,音频信号重现部分14被来自该实施例的控制部分10的控制信号激活,所重现的音频信号和从记录介质13读取的音频信号被供给到开关电路SW2的输入端PB。在信号重现的操作处理中,开关电路SW2由来自控制部分10的开关控制信号切换到输入端PB的一侧。因此,所重现的音频信号经由音频放大器15被供给到扬声器16,以重现音频信号的声音。
在开关电路SW1的a端一侧获得的输入音频信号也被供给到开关电路SW3的一个输入端,即输入端d。开关电路SW3的另一个输入端,即输入端c被供给来自音频信号重现部分14的所重现的音频信号。
开关电路SW3适合于根据由用户经由关键码操作部分20给出的用于音频信号检查的指令,来选择要检查的音频信号。
从开关电路SW3获得的要检查的音频信号然后被供给到声音特性参数分析部分21,声音特性参数分析部分21通常分析声音特性参数,该声音特性参数依赖于声源的结构的因素,比如声音发射器的结构和回声系统,其正常情况下是彼此不同的。可以用于本发明的目的的声音特性参数包括音调频率、音调频率的高次谐波频率、共振频率、倒谱信息、线性预测系数及其残余信号和PARCOR系数。
图2A和2B分另示出男人语音的典型频率分量分布特性曲线和瞬时波形,而图3A和3B则分别示出女人语音的典型频率分量分布特性曲线和瞬时波形。图4A和4B示出萨克斯的典型频率分量分布特性曲线和瞬时波形,而图5A和5B则示出低音电吉他的典型频率分量分布特性曲线和瞬时波形。
虽然图2A到5B只示出了简单的频率分量分布特性曲线和瞬时波形,但是在大多数声音中也可以找到其他的声学特性,诸如音调频率、音调频率的高次谐波频率、共振频率等。
除了频率分量分布特性曲线,诸如线性预测系数及其残余信号的声音特性参数也可以用于本发明的目的。
我们也知道,作为音调频率的瞬时波动而获得的语调参数也可以被有效地用于表征音频信号。基于语调,可以从同一个人的发言中识别不同的状况。例如,当一个人悲伤和/或难过时,他或她可能以低音调和低语调来说话。因此,关于语调的信息也可以作为声音特性参数用于本发明的目的。
来自声音特性参数分析部分21的声音特性参数被供给到相似性确定部分22,相似性确定部分22通过计算来确定作为检索关键码操作的音频信号的每个声音特性参数(以下称为检索关键码声音特性参数)和来自声音特性参数分析部分21的要检查的音频信号的每个声音特性参数的相似性(的程度)。
通过计算来确定相似性确定部分22的两个声音特性参数的相似性的操作,不同于语音识别中基于声音的时序波形特性曲线的操作,而是通过计算确定是否诸如声音发射器的结构和回声系统的一些声音的结构因素类似于作为检索关键码操作的音频信号(以下称为检索关键码音频信号)的声音的结构因素。如果音频信号是高速重现的,则可以实现这样的通过计算确定两个声音特性参数的相似性的操作。
现在,假定通常包括音调频率和共振频率的三个参数(x,y,z)被用于相似性确定操作的声音特性参数。
同时假定,在时间段TW中作为检索关键码操作的音频信号的检索关键码声音特性参数是(x0,y0,z0),要检查的音频信号的对应的声音特性参数是(xi,yi,zi)。然后,相似性确定部分22通过计算确定隔开它们的距离S作为它们之间的相似性。通过考虑要使用的参数的数目和类型以及相似性确定操作所需要的时间,时间段TW被预先选择:
S=sqrt{(xi-x0)2+(yi-y0)2+(zi-z0)2}
其中sqrt是括号中的值的平方根。
应该理解,S的值越小,两个音频信号的相似性越大。在该实施例中,对于每个预先选择的时间段TW相似性确定部分22通过计算确定距离S,当通过计算所确定的距离S小于预定值Sth时,判定要检查的音频信号类似于作为检索关键码操作的音频信号,当所确定的距离S不小于预定值Sth时,判定要检查的音频信号不类似于作为检索关键码操作的音频信号
由于值S本身表示两个音频信号的相似性的程度,直接输出距离S也是可行的。
关于两个音频信号的相似性的判断的相似性确定部分22的输出然后经由显示控制部分23被供给到显示部分24。显示控制部分23使显示部分24的显示屏显示相似性确定部分22的关于相似性判断的输出,从要检查的音频信号的开始,以时间为单位。具体说,它通常可以显示条形图,如图8A和8B所示,其将在后面描述。
现在,将描述该实施例的检索关键码。在该实施例中,要用作检索关键码的音频信号被从输入音频信号或重现的音频信号中提取,并预先存储在存储器部分32中。
在开关电路SW1的b端获得的输入音频信号被供给到开关电路SW4的输入端f,来自音频信号重现部分14的所重现的音频信号被供给到开关电路SW4的输入端e,开关电路SW4适于从输入音频信号或从所重现的音频信号提取作为检索关键码操作的音频信号,根据由用户经由关键码操作部分20通过来自控制部分10的控制信号输入的用于选择它们之一的指令被切换。
来自开关电路SW4的音频信号被提供到检索关键码音频信号提取/存储部分31。根据用户在关键码操作部分20的关键码操作,检索关键码音频信号提取/存储部分31被供给来自控制部分10的控制信号。
该实施侧的用户收听来自扬声器的输入音频信号或所重现的音频信号的所重现的输出声音,当听到他或她想用作检索关键码的部分时,操作关键码操作部分20的检索关键码指定关键码(未示出)。然后,该实施例提取对应于包括关键码操作的时间的预定时间段TW的一部分音频信号,并存储该部分在检索关键码存储器32中,检索关键码存储器32具有存储区域,每个大小对应于检索关键码的大小,这样检索关键码被存储在相应的存储区域。
检索关键码音频信号提取/存储部分31有一缓中存储器,这样时间段TW在关键码操作的时间之前一点开始。然后,对应于由用户指定的时间段TW的音频信号的部分被存储在检索关键码存储器32中作为检索关键码音频信号。
检索关键码存储器32可以存储几个检索关键码,每次当用户指定新的检索关键码音频信号时,检索关键码存储器32的检索关键码存储区域由来自控制部分10的控制信号更新。因此,根据用户的指令从检索关键码提取/存储部分31提取的时间段TW的检索关键码音频信号,根据来自控制部分10的与检索关键码存储区域的更新同步的开关控制信号,被存储在检索关键码存储器32的检索关键码存储区域。
尽管未图示,存储相应的检索关键码音频信号的检索关键码存储器32的检索关键码存储区域也可以被输入,作为经由关键码操作部分20输入的备忘录,输入的备忘录可以以表格的形式被显示在显示部分24上,该表格示出分配给存储检索关键码音频信号的存储区域的号码。因此,用户可以通过指定存储他或她想使用的检索关键码存储区域的号码,使用所希望的检索关键码以检索音频信号。
具体说,当用户经由关键码操作部分20,选择检索模式和指定存储检索关键码音频信号的检索关键码存储区域的号码时,开关电路SW6由来自控制部分10的控制信号操作,作为检索关键码操作的音频信号被检索关键码音频信号读取部分33从指定的检索关键码存储器32的检索关键码存储区域读取。
所读取的检索关键码音频信号然后被供给到检索关键码声音特性参数分析部分34,并由其分析以获得作为检索关键码操作的音频信号的检索关键码声音特性参数。所获得的检索关键码声音特性参数然后被供给到上述的相似性确定部分22,被用于检索预定时间段TW的要检查的音频信号。
现在,具有上述结构的音频信号检索设备的操作将被详细讨论。
[检测密钥的登记]
在上述实施例的情况中,每个检索关键码在其被用于实际检索操作之前被登记。如上所述,每个检索关键码被存储在检索关键码存储器32中,并被登记为音频信号。图6是登记检索关键码的操作的流程图,其中控制部分10起了主要作用。当用户经由关键码操作部分20选择检索关键码登记模式时,图6的处理流程开始。现在,将参考图6描述登记检索关键码的操作。
首先,控制部分10确定用户经由关键码操作部分20所做的模式选择。具体说,它确定是否用户选择从输入音频信号提取检索关键码的模式或从所重现的音频信号提取检索关键码的模式(步骤S101)。
如果确定要从输入音频信号提取检索关键码,则控制部分10分别切换开关电路SW1、SW2和SW4到输出端b的一侧、输入端IN的一侧和输入端f的一侧(步骤S102)。
另一方面,如果确定要从所重现的音频信号提取检索关键码,则控制部分10分别切换开关电路SW1、SW2和SW4到输出端a的一侧、输入端PB的一例和输入端e的一侧(步骤S103)。
在步骤S102或S103后,控制部分10前进到步骤S104,在那里它等待经由关键码操作部分20给出的用户的指令,指定要用作检索关键码的音频信号的部分。同时,要从其提取检索关键码的音频信号被经由音频放大器15供给到扬声器16,最初的声音从扬声器16被重现,以便用户可以经由关键码操作部分20输入他的或她的指令,以指定要用作检索关键码的音频信号的每个部分,其可以是会议的特定发言者的部分发言。
然后,在步骤S104检测到由用户输入的用于提取作为检索关键码的一部分音频信号的指令后,控制部分10更新检索关键码存储器32的检索关键码存储区域(步骤S105),控制检索关键码音频信号提取/存储部分31以便使它提取对应于预定时间段TW的音频信号的部分(步骤S106)。然后,控制部分10在检索关键码存储器32的更新的特定检索关键码存储区域中写入所提取的音频信号的部分作为检索关键码的操作(步骤S107)。
其后,控制部分10确定是否用户经由关键码操作部分20给出用于结束登记检索关键码的当前模式的指令(步骤S108)。如果给出了这样的指令,则控制部分10终止登记检索关键码的模式的处理流程。另一方面,如果没有给出这样的指令,控制部分10返回步骤S104,在那里它等待用户的用于提取检索关键码的另一个指令以重复上面的步骤。
以这种方式,由用户从输入音频信号或所重现的音频信号提取的作为检索关键码的音频信号可以被登记和存储在检索关键码存储器32中。如果检索关键码存储器32的存储能力足够大到存储这些新的检索关键码,则已经存储在存储器中作为检索关键码的音频信号不必被清除,可以保留在那里。
根据本发明,由于任何两个音频信号的相似性是通过使用声音特性参数通过计算来确定的,因此存储在检索关键码存储器32中的每个作为检索关键码的音频信号不仅可以被用于检索象它的原始音频信号的部分,也可以用于检索未从其提取检索关键码的任何音频信号的部分,如果该部分象它的话。
因此,在图1的实施例的情况,一旦用户在检索关键码存储器32中存储了长达预定时间段TW的音频信号,且他或她想要使用其作检索关键码以便检查特定声音源,则用户可以在希望的时候使用它们作为检索关键码。
[检索操作]
存储在检索关键码存储器32中的作为检索关键码的音频信号以下面所述的方式被用于检索操作。图7示意性地示出检索操作的处理流程。当用户经由关键码操作部分20选择检索操作模式时,图7的处理流程开始。现在,参考图7描述检索操作。
首先,控制部分10确定由用户经由关键码操作部分20所做的模式选择。具体说,它确定用户选择了要在输入音频信号上进行检索操作的模式还是要在所重现的音频信号上进行检索操作的模式(步骤S201)。
如果确定要在输入音频信号上进行检索操作,则控制部分10分别切换开关电路SW1、SW2和SW3到输出端a的一侧、输入端IN的一侧和输入端d的一侧(步骤S202)。
另一方面,如果确定要在所重现的音频信号上进行检索操作,则控制部分10分别切换开关电路SW2和SW3到输入端PB的一侧和输入端c的一侧(步骤S203)。
在步骤S202或S203后,控制部分10前进到步骤S204,在那里它识别由用户选择的作为检索关键码的音频信号(步骤S204)和控制实施例的操作,以便从检索关键码存储器32读取所选择的作为检索关键码的音频信号(步骤S205)。
然后,从检索关键码存储器32读取的作为检索关键码的音频信号被供给到检索关键码声音特性参数分析部分34,然后被供给到相似性确定部分22作为检索关键码声音特性参数,该相似性确定部分22通过计算确定要检查相似性的音频信号的每个时间段TW的声音特性参数和供给到它的检索关键码的声音特性参数之间的相似性(步骤S206)。如上所述,在该例中,该相似性基于它们之间的距离S确定。
因此,确定是否表示相似性的程度的距离S小于预定阈值Sth(步骤S207),如果距离S小于预定阈值Sth,则原始音频信号的部分被确定类似该检索关键码(步骤S208),而如果距离S不小于预定阈值Sth,则原始音频信号的部分被确定不类似该检索关键码(步骤S209)。经过计算确定的结果然后经由显示控制部分23显示在显示部分24的显示屏上(步骤S210)。
当要检查的音频信号过去了或当由用户给出结束检索操作的指令时,控制部分10确定是否终止检索操作(步骤S211)。如果终止该操作,则结束处理流程。否则,控制部分10返回步骤S206,继续使用检索关键码的检索操作。
图8A和8B示意性地示出根据本发明可以从所重现的会议的电子音频记录的音频信号中由检索音频信号的操作获得的一个结果,其中检索关键码从特定发言者的发言中选择。对图8A和8B的情况,特定发言者说话的时间区段可以在会议的整个音频记录中被识别出来。
尽管在上述的检索操作的描述中仅使用了单一的检索关键码,但不必说的是也可以指定多个检索关键码,用于确定两个发言之间的相似性的程度。对这种情况,可以安排为,这些检索关键码每隔几十毫秒通过从一个切换到另一个而被顺序使用,这样相似性确定部分22基于每个检索关键码通过计算确定两个发言的相似性。
或者,可以提供多个相似性确定部分,并列地同时使用,使用相应的检索关键码,以便通过计算确定两个发言的相似性。
图9示意性地示出当多个检索关键码被选择和用作检索操作时可以获得的结果。对图9的情况,三个特定发言者A、B和C发言的时间区段可以在会议的整个音频记录中被识别出来。
因此,用上述的实施例,在出现多个与会者的会议中,如果所有与会者的音频信号被预先作为检索关键码登记,则从会议的整个电子音频记录中,会议的所有发言者的发言的部分可以被识别、分类和显示。
在上面的描述中,以二态值表达相似性确定的结果。换言之,相似性是基于是否预定阈值被超过来确定的。然而,相似性也可以以隔开两个信号部分的距离来表达。该距离S越小,两个信号部分彼此越类似。然后,相似性的程度可以由阴影的黑的程度来显示,如图8B所示。在图8B中,阴影越黑,相似性的程度越大。或者,不同的颜色可以被用于显示相似性的程度。
如果使用了多个检索关键码,则相似性确定的结果可以通过为每个检索关键码使用特定的颜色来显示,相似性的程度也可以通过改变颜色的深度来显示。
应该注意,相似性确定的结果从上述的要检查的音频信号的开始处,作为所消逝的时间的函数,被输出和显示在显示部分的显示屏上。另一方面,如果要检查的音频信号是重现的音频信号,则在记录介质13上的对应于给定消逝时间的音频信号的位置可以容易地知道。因此,对于一时间区段的所重现的音频信号,当获得相似性确定操作的输出时,当前正在重现的音频信号的位置通常可以通过重放位置指示符光标被显示,该光标和该时间区段的相似性确定结果在一起,如图10所示。
相反地,如果安排为用户可以指定光标的开始位置,也可以从图10所示的重放位置指示符光标开始重现要检查的音频信号。然后,也可以通过检索关键码提取分类的音频信号的部分,并同时重现它。
由于根据本发明,声音特性参数被用于通过计算确定要检查的音频信号的部分的相似性和要用作检索关键码的音频信号,所以如果要重现的用于检查的音频信号不是以适当的速度而是因为音频信号的波形不是以时序为基础使用的而以双倍或三倍速重放时,相似性确定操作也可以被成功实现,不象语音识别的情况,在那里在所进行的特性曲线匹配的处理操作中检查两个波形特性曲线的相似性。
因此,根据本发明,当以高速重现音频信号时,相似性确定操作也可以进行,当类似正使用的检索关键码的部分被检测到时,该部分可以被以适当的速度重现,这样仅类似检索关键码的部分可以被提取和重现给用户。
另外,在检索操作后,由于可以使检索操作的结果对应于记录介质上的特定地址,也可以仅提取类似特定检索关键码的原始音频信号的部分,在检索操作的基础上重现所提取的部分。
尽管本发明的上述优点在重现音频信号的方面被指出,但也可以根据本发明检索类似预先登记的特定检索关键码的输入音频信号的部分。在这种情况下,通过使用一些检索关键码,输入音频信号的一些部分可以被分类。例如,多个乐器的音频信号可以被预先登记为多个检索关键码,这样输入音频信号可以被分为一些部分,这些部分可以被分类,并针对每个乐器显示。
尽管在上面的第一个实施例的描述中,检索关键码从输入音频信号或重现的音频信号中提取并存储在检索关键码存储器32中,但也可以安排为多个音频信号被预先存储在检索关键码存储器32中以形成检索关键码库。
尽管在上面的描述中,相似性确定操作是基于任何两个声音特性参数的几何距离S来进行的,但也可以安排为,在几个已知参数的基础上确定一新参数,任何两个声音特性参数之间的距离可以使用该新确定的参数来确定。
例如,如果三个声音特性参数x,y和z被用于确定一个新参数,使用下面的公式
k=ay+bz,
则要检查的音频信号的声音特性参数和检索关键码的声音特性参数的距离可以使用两个参数(x,k),即参数x和新参数k来确定。另外,每个声音特性参数也可以被加权,音频信号的任何两个部分的相似性也可以通过给权重的参数优先权来确定。
检索关键码存储器32可以是包含在该实施例中存储器,或者是可移动存储器,其通常以存储卡的形式来实现。如果存储卡被用作检索关键码存储器32,则多个存储卡可以被用于存储多个类型的检索关键码,这样包含适于检查特定音频信号的检索关键码的合适的一个存储卡可以被选择使用。
另外,也可以被安排为,可以提供要用作检索关键码的音频信号的声源,经由输入端11从该声源输入音频信号,并被预先存储在检索关键码存储器32中。或者,每次当检查一音频信号时,从该声源输入音频信号,并暂时存储在缓冲存储器中作为检索关键码。然后,不再需要使用检索关键码存储器32。
检索关键码不限于来自单一声源的音频信号。如前所述,它可以是从输入音频信号或重现的音频信号为特定时间区段提取的音频信号。
如果涉及与图象相伴的音频信号,则该图象也可以在显示部分的显示屏上被显示。图象的使用将方便检索操作的结果的分类操作。例如,记录的视频信号可以使用音频信号被检查和分类。
[第二个实施例]
图11是根据本发明的音频信号检索设备的第二个实施例的示意框图。上述第一个实施例适用于存储音频信号作为所登记的检索关键码,而第二个实施例则适用于在检索关键码存储器32中存储声音特性参数作为所登记的检索关键码。其他方面,第二个实施例具有和第一个实施例相同的结构,因此,该实施例与第一个实施例相同的部件相应地用相同的参考符号表示。
第二个实施例包括安排在开关电路SW4的输出侧的检索关键码音频信号提取部分35。该检索关键码音频信号提取部分35对应于适用于提取由用户指定作为检索关键码的音频信号的部分的检索关键码音频信号提取/存储部分31。
由检索关键码音频信号提取部分35提取的检索关键码音频信号,被检索关键码声音特性参数分析部分36分析,以获得该音频信号的声音特性参数,该声音特性参数然后被存储在检索关键码声音特性参数存储部分37中,也经由开关电路SW5存储在检索关键码存储器32中。应该理解,检索关键码声音特性参数存储部分37对应于图1的检索关键码音频信号提取/存储部分31的用于存储作为检索关键码的提取的音频信号的部分的装置,并存储检索关键码声音特性参数,取代音频信号被用作检索关键码。因此,检索关键码(在该实施例中是声音特性参数)被存储在检索关键码存储器32的相应的检索关键码存储区域中。
在检索关键码存储器32中存储和作为检索关键码操作的任何声音特性参数由开关电路SW6和检索关键码声音特性参数读取部分38根据来自控制部分10的控制信号读出,该控制信号是根据由用户经由关键码操作部分20输入的指令产生的。由于对于第二个实施例的情况,从检索关键码存储器32读出声音特性参数,因此其被直接供给到相似性确定部分22,用于确定作为检索关键码操作的音频信号和要检查的音频信号的部分的相似性的计算的操作。
从上面的描述可以看出,第二个实施例和第一个实施例的不同之处仅在于,检索关键码存储器32存储了取代了音频信号的检索关键码声音特性参数,而登记检索关键码的操作和使用检索关键码的检索操作与第一个实施例是一样的。因此,第二个实施例提供了与上面参考第一个实施例描述的相同的优势。另外,第二个实施例也可以以上面参考第一个实施例描述的方式以各种方式被修改。
最后,由于在第二个实施例中,检索关键码存储器32没存储音频信号而是存储了检索关键码声音特性参数作为检索关键码,该实施例的检索关键码存储器的需要用于存储检索关键码的存储容量小于第一个实施例的检索关键码存储器。换言之,在该实施例中,更大量的检索关键码可以被存储。
[第三个实施例]
本发明的第三个实施例的特征在于它使用了可以被用于合成地重现音频信号的声音特性参数。因为声音特性参数可以被用于合成地重现音频信号,音频信号可以以声音特性参数的形式被记录。因此,如同第二个实施例中,声音特性参数被作为检索关键码存储在该第三个实施例的检索关键码存储器32中。
图12是根据本发明的音频信号检索设备的第三个实施例的示意框图。在图12中,该实施例与前面的实施例相同的部件相应地用相同的参考符号表示。在该第三个实施例中,声码器的参数通常可以被用作声音特性参数。
如图12所示,输入音频信号经由输入端11被供给到声音特性参数分析部分41,并被分析,通常用于声码器系统的声音特性参数。来自声音特性参数分析部分41的输入音频信号的声音特性参数然后经由开关电路SW1被供给到声音特性参数记录部分42,该声音特性参数记录部分42在控制部分10的控制下记录供给它的声音特性参数在记录介质13上。
记录在记录介质13上的输入音频信号的声音特性参数由声音特性参数重现部分43在控制部分10的控制下重现,并供给到音频信号合成部分44,该音频信号合成部分44通过使用声音特性参数合成地重现原始音频信号。
由音频信号合成部分44获得的所重现的音频信号然后经由开关电路SW2的输入端侧PB和音频放大器15被供给到扬声器16,原始的声音从扬声器16被重现。应该理解,通过输入端11进入的输入音频信号经由开关电路SW2的输入端侧IN和音频放大器15被供给到扬声器16以重现原始声音的处理和第一个和第二个实施例的对应部分是相同的。
在该第三个实施例中,未提供声音特性参数分析部分21,开关电路SW3适用于借助由控制部分10根据由用户经由关键码操作部分20给出的指令而产生的切换控制信号,选择通过开关电路SW1的输出端a的输入音频信号的声音特性参数或者通过声音特性参数重现部分43所重现的音频信号的声音特性参数,并将其提供给相似性确定部分22。
另一方面,检索关键码声音特性参数被存储在该第三个实施例的检索关键码存储器32中作为检索关键码,如同第二个实施例的情况。因此,用该第三个实施例,来自声音特性参数分析部分41的声音特性参数经由开关电路SW1的输出端侧b,被供给到开关电路SW4的输入端之一,即输入端f,而来自声音特性参数重现部分43的声音特性参数被供给到开关电路SW4的另一输入端,即输入端e。
然后,开关电路SW4根据来自控制部分10的切换控制信号,被切换到输入端e侧或输入端f侧,该切换控制信号指定声音特性参数要从输入音频信号提取或是要从所重现的音频信号提取。
然后来自开关电路SW4的声音特性参数被供给到检索关键码声音特性参数提取/存储部分45。如同第一个实施例的情况,当用户希望用作检索关键码的部分来到时,他或她操作关键码操作部分20的检索关键码指定关键码(未示出)。然后,该实施例的检索关键码声音特性参数提取/存储部分45提取对应于包括关键码操作的时间的预定时间段TW的一部分音频信号,并在检索关键码存储器32中存储该部分。
因此,检索关键码存储器32存储或者从输入音频信号或者从所重现的音频信号提取的音频信号的声音特性参数作为检索关键码。如同第二个实施例的情况,存储在检索关键码存储器32中的任何由用户指定的检索关键码声音特性参数被检索关键码声音特性参数读取部分38读出,并供给到相似性确定部分22。
登记和检索检索关键码的操作与第一和第二个实施例相同,因此这里就不进一步描述了。因此,除了检索关键码存储器32存储检索关键码声音特性参数,第三个实施例的登记和检索检索关键码的操作与第一和第二个实施例相同。因此,第三个实施例提供了上面参考第一和第二个实施例描述的那些优势。另外,第三个实施例也可以以上面参考第一和第二个实施例描述的方式以各种不同方式被修改。
另外,对该第三个实施例的情况,由于声音特性参数被存储在记录介质中代替了音频信号,记录介质的存储容量可以被有效地利用。另外,由于该第三个实施例的同一声音特性参数分析部分可以被公共地用于要检查的音频信号和要作为检索关键码使用的音频信号,因此第三个实施例可以被做成结构比第一和第二个实施例更简单。
可用于本发明的目的的可合成地重现的声音特性参数的具体例子包括符合MPEG(运动图象专家组)标准的音频压缩系统(MPEG音频层I、层II、层III)的音频数据和ATRAC(自适应变换音编码,Adaptive Transform AcousticCoding)系统的音频数据。
根据MPEG音频标准和ATRAC系统,音带被分为多个用于编码的子带,以便有效地利用人类听觉的生理特性。例如,对MPEG音频层I的情况,音频信号的整个音带被分为具有相同频率宽度的32个子带,所获得的每个信号用1/32的采样频率采样,用于编码。
因此,当符合MPEG标准的音频压缩系统的数据或ATRAC系统的数据(音频压缩/编码数据)被检查时,诸如确定音带水平分布和主带频率和检测谐波结构和主带频率随时间的改变的操作,通过使用子带数据来进行,在这些操作的基础上获得检索关键码声音特性参数。
当使用符合MPEG(运动图象专家组)标准的音频压缩系统的数据或ATRAC系统的数据的技术被应用到图12的实施例且通过输入端11进入的输入音频信号是模拟信号或线性PCM信号时,声音特性参数分析部分41产生符合MPEG标准或ATRAC系统的的数据。然后,记录部分42在记录介质13上记录该音频压缩系统的数据。
然后,检索关键码声音特性参数提取/存储部分45从来自声音特性参数分析部分41或声音特性参数重现部分43的该音频压缩系统的数据产生子带数据,进行诸如上述的确定音带水平分布和主带频率和检测谐波结构和主带频率随时间的改变的操作。然后,这些操作的结果被存储在检索关键码存储器32中作为检索关键码声音特性参数。
如同图1和图11的情况,声音特性参数分析部分在相似性确定部分22的上游,子带数据从来自开关电路SW1或声音特性参数重现部分43的音频压缩系统的数据产生。然后,在该子带数据上进行诸如确定音带水平分布和主带频率和检测谐波结构和主带频率随时间的改变的操作。用这种安排,声音特性参数分析部分可以具有简单结构。然后相似性确定部分22比较作为分析的结果而获得的声音特性参数和来自检索关键码声音特性参数读取部分38的检索关键码声音特性参数,并确定它们之间的相似性的程度。
尽管在上面的描述中通过输入端11进入的输入音频信号是模拟信号或线性PCM信号,但是如果通过符合IEEE(电气与电子工程师协会,Instituteof Electrical and Electronic Engineers,Inc.)1394标准的接口输入的串行数字数据或由数字广播接收器接收的数字音频压缩信号被输入时,也可以获得符合MPEG标准的音频压缩系统或ATRAC系统的数据,这样就不需要图12的声音特性参数分析部分41了。
上述的用于检索声音特性参数的分析音频压缩信号的方法,与在分析之前解码数字音频压缩系统的数据以获得线性PCM音频信号的情况相比,可以最小化检索操作的延迟以及算术运算量。
[第四个实施例]
在上面描述的第三个实施例中声音特性参数被记录在记录介质上以取代音频信号,而在本发明的第四个实施例中,音频信号和对应的声音特性参数被相互共存地记录在记录介质上。由于在该第四个实施例中,音频信号和声音特性参数都被记录,在该第四个实施例中可以被记录的声音特性参数不限于可以被用于合成地重现音频信号的那些声音特性参数。
在第四个实施例中,与音频信号共存地,声音特性参数被记录在记录介质上,诸如磁盘、磁光盘、光盘或存储卡。换言之,通过音频信号的记录单元(诸如包(pack)、小包(packet)或扇区(sector)),音频信号和声音特性参数被记录在记录介质上,音频信号的记录单元的数据和该单元对应的声音特性参数在记录介质的记录区域方面被联系,其方式使得它们的相互对应关系可以是清晰可见的。例如,它们可以被记录在记录介质的相邻记录区域。
图13是根据本发明的音频信号检索设备的第四个实施例的示意框图。在图13中,该实施例与前面的实施例相同的部件相应地用相同的参考符号表示,就不进一步描述了。
在该第四个实施例中,通过音频输入端11进入的输入音频信号经由开关电路SW7并供给到音频信号记录部分12。开关电路SW7由来自控制部分10的开关控制信号接通,用于记录操作。然后,提供到音频信号记录部分12的输入音频信号被进一步供给到第四个实施例的数据记录控制部分51。
通过音频输入端11进入的输入音频信号也被供给到声音特性参数分析部分41,并被分析,以获得声音特性参数。来自声音特性参数分析部分41的声音特性参数被供给到开关电路SW3的输入端,作为要检查的输入音频信号的声音特性参数,同时也被供给到开关电路SW4的输入端,用于从输入音频信号提取作为检索关键码的声音特性参数。另外,来自声音特性参数分析部分41的声音特性参数被供给到数据记录控制部分51。
在记录操作中,数据记录控制部分51以预定的记录格式记录音频信号和对应的声音特性参数,这样在控制部分10的控制下,它们的相互对应关系可以是清晰可见的。在该例子中,如上所述,数据记录控制部分51通过音频信号的记录单元在记录介质13上记录该音频信号,并在记录介质13上位于音频信号的相邻位置记录该单元的对应的声音特性参数。
以如上所述的记录格式在记录介质13上记录的输入音频信号和对应的声音特性参数,在控制部分10的控制下由数据读取控制部分52在随后重现。从记录介质13由数据读取控制部分52重现的音频信号然后被供给到音频信号重现部分14,然后再经由开关电路SW2的输入端PB和音频放大器15被供给到扬声器16,这样原始声音在扬声器16被重现。
另一方面,从记录介质13由数据读取控制部分52重现的声音特性参数然后被供给到开关电路SW3的输入端c作为要检查的重现的音频信号的声音特性参数,并被供给到开关电路SW4的输入端e,用于从重现的音频信号提取声音特性参数作为检索关键码。
另外,从记录介质13由数据读取控制部分52重现的对应的音频信号和声音特性参数可以通过外部输出端(未示出)被供给到外部,用于由一些其他设备对音频信号进行检索操作。换言之,其他设备不需要提供有声音特性参数分析部分以便准备声音特性参数。
因此,该第四个实施例不同于前面的实施例之处在于,当由数据记录控制部分51记录在记录介质上时,输入音频信号和对应的声音特性参数是联系的,音频信号和对应的声音特性参数都由数据读取控制部分52重现。然而,该实施例与第三个实施例的相似之处在于,声音特性参数被用于检索操作,检索关键码声音特性参数可以从输入音频信号和重现的音频信号中被提取。
因此,第四个实施例提供了上面参考第一个实施例描述的那些优势。另外,第四个实施例也可以以上面参考第一个实施例描述的方式以各种不同方式被修改。
另外,如同第三个实施例的情况,由于第四个实施例的同一声音特性参数分析部分公共地用于要检查的音频信号和要用于检索关键码的音频信号,这样第三个实施例可以被做成结构比第一和第二个实施例更简单。另外,声音特性参数可以被供给到一些其他地检索设备,这样其他设备不需要提供有声音特性参数分析部分以便准备声音特性参数。
应该注意,如果要记录的音频信号和对应的声音特性参数不被彼此相邻地记录,它们也可以被联系在一起,并记录在记录介质上。例如,记录介质可以提供有用于记录音频信号的记录区域和记录声音特性参数的记录区域,音频信号和对应的声音特性参数可以被记录在记录区域的对应的位置,这些位置以地址的方式被彼此联系。或者,联系音频信号和对应的声音特性参数的联系信息可以被另外地记录,这样它们可以使用联系信息被一起重现。
[第五个实施例]
如上所述,根据本发明,使用声音特性参数,通过确定要检查的音频信号和作为检索关键码的音频信号的相似性,可以对要检查的音频信号进行检索操作。因此,在通过使用特定检索关键码分析要检查的音频信号时,可以记录该音频信号。因此,使用检索关键码,对要检查的音频信号进行的检索操作的结果,在记录操作结束前就可用了。因此,可以在记录介质上与记录音频信号的区域隔开的区域中记录检索操作的结果。
通过给记录介质提供与记录音频信号的区域隔开的区域,对重现的音频信号进行的检索操作的结果也可以在以后的某时被记录在记录介质上。
考虑到上面的优势,用本发明的第五个实施例,对要检查的音频信号进行检索操作的结果也被记录在记录介质上。
更具体说,用本发明的第五个实施例,在记录音频信号的操作处理中,预先登记的一个或多于一个的检索关键码被用于分析要记录的输入音频信号。
例如,诸如磁盘、光盘或磁光盘或存储卡的盘形记录介质被用于记录介质13。然后音频信号被记录在记录介质中,而记录介质的地址被监视。用第五个实施例,被确定与作为检索关键码的音频信号类似的音频信号的每部分的地址(存储位置)被与检索关键码的识别信息一起被记录。开关电路SW6的开关控制信号(对应于检索关键码的存储区域,或检索关键码的号码)通常被用作检索关键码的识别信息。
图14是一个表格,示出了在第五个实施例中记录和检查音频信号的操作完成后获得的检索操作的结果。该表格被用于记录在记录介质上的音频信号,作为检索索引表格。
参考图14,在登记的时候,检索关键码的名字被预先给出,如果音频信号表示会议的发言或讨论,则它们通常是与会者/发言者的名字。时间段数据是音频信号的对应部分类似用于检索操作的特定检索关键码的每个时间段上的数据。每个时间段由开始地址ST和终点地址ED定义。在图14中,ADRi(i表示一整数)表示在记录介质上的地址值。
这样,用第五个实施例,检索索引表格的信息被记录在记录介质的与所记录的音频信号的区域隔开的预先选择的记录区域。
用第五个实施例,通过使用检索索引表格,类似特定检索关键码的音频信号的部分可以容易地被提取和重现(检索/重现操作)。
图15示意性地示出第五个实施例的检索/重现操作的处理流程。当用户经由关键码操作部分20发出用于检索/重现操作的指令时,图15的处理流程开始。
首先,要用于检索操作的索引数据被从记录介质中读取,以便准备检索索引表格(步骤S301)。控制部分10基于读出的数据,准备如图14中所示的检索索引表格,并将它显示在显示屏上(步骤S302)。
然后,用户参阅所显示的检索索引表格,经由关键码操作部分20,输入他或她希望用于检索/重现操作的检索关键码。控制部分10识别由用户指定的检索关键码(步骤S303)。然后它通过参考检索索引表格,识别被确定类似检索关键码的音频信号的每个部分的时间段的数据(步骤S304)。然后,控制部分10顺序地读取音频信号的部分和由所识别的时间段的数据所指示的地址(步骤S305)。
因此,用第五个实施例,类似指定的检索关键码的音频信号的部分可以被容易地提取和重现。应该理解,用第五个实施例,也可以从检索关键码存储器中指定未列在检索索引表格上的检索关键码,并使用该指定的检索关键码实现检索操作。
尽管检索索引表格包含检索关键码的识别信息和名字,检索关键码的音频信号也可以被列在检索索引表格上,取代或附加于检索关键码的名字。然后,通过重现他或她指定的检索关键码的音频信号的原始声音,用户可以容易地了解该音频信号。
尽管在上面的描述中,检索操作的结果被记录在记录介质上,它也可以被附加地记录在由控制部分控制的存储器中,其方式使得存储在该存储器中的数据和和存储在记录介质中的数据有清楚的对应关系。
[其它实施例]
尽管在上面的描述中,检索关键码被预先登记在一存储器中或被单独地准备,它也可以被安排为,当用户指定他或她正在记录的一部分音频信号时开始检索操作,在记录操作的处理中检索操作继续。用这种安排,则不必要预先登记任何检索关键码。
从输入音频信号或重现的音频信号提取要在检索关键码存储器中登记的检索关键码也不是必须的。例如,可以提供一声源以产生检索关键码,从该声源获得的音频信号可以被使用并登记为检索关键码。
通过互联网或通信网络,也可以获得要作为检索关键码登记的音频信号或声音特性参数。然后,该音频信号或声音特性参数将被登记为检索关键码。
或者也可以做这样的安排,当包含所记录的音频信号的记录介质被销售时,候选检索关键码也被记录在记录介质上。或者也可以做这样的安排,当包含所记录的音频信号的记录介质被销售时,它配有存储候选检索关键码的存储卡。
[音频/视频检索设备和音频/视频存储设备的第一个实施例]
上面描述的实施例仅处理作为要检查的输入信号的音频信号,而如果信号包含与视频信号相联系的音频信号时,则要被记录和重现的音频/视频信号可以被用作检索操作的对象。
图16是一记录/重现装置的示意框图,适用于记录和重现根据MPEG2标准压缩的音频/视频信号,音频/视频检索设备的实施例和音频/视频存储设备的实施例被应用到其中。
应该注意,图1的记录/重现设备适用于根据MPEG2标准压缩和编码视频信号和音频信号,多路复用所编码的信号,在硬盘驱动器(HDD)中的硬盘上记录该信号为MPEG系统的传送流(Transport Stream,TS),这样,所记录的信号可以从硬盘被重现。
在以下的描述中,模拟视频信号和模拟音频信号分别被称为视频信号和音频信号,而数字视频信号和数字音频信号分别被称为数字视频数据和数字音频数据或简单的视频数据和音频数据。
记录/重现装置70被连接到用于接收模拟电视广播的天线61,其包括模拟输入端71V、71A、71S,模拟输出端72V、72A、72S,数字输入/输出端73,数字接口74,输入处理部分80,输出处理部分90,多路复用器/解多路复用器100,缓冲控制器110,硬盘驱动器120,同步控制电路130,系统控制器140,音频检索部分150和操作输入部分160。
上述安排的硬盘驱动器120包含三个硬盘121、122、123,传送流被记录在它们中的任何一个中,并从它们中的任何一个中被重现。
系统控制器140包括连接到其系统总线142的CPU(中央处理单元)141和ROM(只读存储器)143和RAM(随机存储器)144。
ROM143预先存储要由CPU141执行的程序,CPU141因此从存储在ROM143中存储的程序中读出合适的一个,并控制记录/重现装置70的部件。RAM44被用于存储任何其它对于CPU141控制记录/重现装置70的部件必要的程序和数据。
操作输入部分160通常包括键盘、鼠标、按钮、开关和遥控器,经由输入/输出接口(未示出)被连接到系统控制器140的系统总线142。
音频检索部分150是通过使用上述第一到第五实施例的任何一个来实现的。然而,从该音频/视频检索设备的实施例适用于检索根据MPEG标准压缩和编码的数据的观点来看,第三个实施例最具优势。
应该注意,记录介质13是硬盘驱动器120的硬盘,因此,只要哪个合适,记录部分12或42和重现部分14或44是由缓冲控制器110形成的。换言之,音频检索部分150包括适于音频检索操作的上述实施例的任何一个的部件,而不包括适于记录/重现音频数据作为主数据的部件。
检索关键码存储器32可以被安排在音频检索部分150中,或者通过使用硬盘驱动器120的硬盘的存储区域的部分来实现。
也应该注意,帧数、场数(field numbers)、PTS(表示时戳,presentationtime stamps)和/或小包数(packet numbers)被用作联系地址信息,示出数字音频压缩信号和包含互相联系用于记录和重现的音频数据和视频数据的音频/视频数据的检索和登记操作的时间段。
(模拟输入和记录)
模拟电视广播的信号由天线61接收,在系统控制器140的控制下,根据操作输入部分160的操作由调谐器81选择。然后,所选择频道的复合视频信号和音频信号由调谐器81从接收的信号中产生,并供给到输入开关电路32的输入端之一。
另一方面,来自外部设备的复合视频信号和也来自外部设备的音频信号分别供给到输入端71V和输入端71A,而也来自外部设备的分离的视频信号(包括彼此隔开的亮度信号和色差信号)供给到输入端71S。
来自输入端71V的复合视频信号和来自输入端71A的音频信号被供给到输入开关电路82的其它输入端。然后,输入开关电路82由系统控制器140操作,从而复合视频信号或对应的音频信号被选择和从中取出。
来自输入开关电路82的复合视频信号被YC分离电路83分为亮度信号和色差信号,然后被供给到另一输入开关电路84的一个输入端。另一方面,来自输入端7lS的分离的视频信号(亮度信号和色差信号)供给到输入开关电路84的另一输入端。输入开关电路84的开关操作由系统控制器140控制,这样两组亮度信号和色差信号之一被选择和从输入开关电路84中取出。
从输入开关电路84中取出的亮度信号和色差信号经过NTSC(国家电视制式委员会)解码器85的A/D(模拟到数字)转换处理,然后经过色度编码处理,这样就从NTSC解码器85获得了复合视频数据。
NTSC解码器85也从从输入开关电路84中取出的亮度信号中分离垂直同步信号和水平同步信号,基于这些同步信号产生一时钟和场(field)鉴别信号。同步信号和时钟和场鉴别信号然后被供给到同步控制电路130,该同步控制电路130再通过参考这些信号来产生记录/重现设备70的各个部件部分所必需的时钟和定时信号,并将所产生的时钟和定时信号提供给各个部件部分。
来自NTSC解码器85的视频数据经过视频预处理电路86的包括预滤波操作的一系列包括预处理操作,随后被供给到MPEG视频编码器87和输出处理部分90的视频后处理电路92。
MPEG视频编码器87对来自视频预处理电路86的视频数据进行诸如块DCT(离散余弦变换)的编码操作,以产生视频基本流(elementary stream,ES),该视频基本流然后被供给到多路复用器/解多路复用器100。
另一方面,来自输入开关电路82的音频信号由A/D转换器88变换为数字音频数据,随后被供给到MPEG音频编码器89和输出处理部分90的输出开关电路95。
MPEG音频编码器89利用MPEG制式压缩和编码来自A/D转换器88的音频数据,以产生音频基本流,该音频基本流然后被供给到多路复用器/解多路复用器100。
多路复用器/解多路复用器100多路复用来自MPEG视频编码器87的视频基本流和来自MPEG音频编码器89的音频基本流以及各种控制信号,以便在其多路复用器中产生MPEG制式的传送流。所产生的传送流然后被送出到缓冲控制器110。
缓冲控制器110断续地送出从多路复用器/解多路复用器100连续输入的传送流到硬盘驱动器120。更具体说,由于硬盘驱动器120在进行寻道(seek)操作时不能做任何写操作,缓冲控制器110暂时在其缓冲区中存储输入它的传送流。然后,当硬盘驱动器可以写数据时,缓冲控制器110以比其输入的速率高的速率读出在缓冲区中存储的传送流,将其送出到硬盘驱动器120。结果是,连续输入到缓冲控制器110的传送流没有任何不连续地被记录在硬盘121到123中。
硬盘驱动器120适用于在系统控制器140的控制下将传送流写在硬盘121到123上。通常IDE(integrated drive electronics,集成电路设备)被用于缓冲控制器110和硬盘驱动器120之间的协议(接口)。
(重现和模拟输出)
对于重现操作,硬盘驱动器120在系统控制器140的控制下,从硬盘121到123读出传送流,将其送出到缓冲控制器110。相反于记录操作,缓冲控制器110将从硬盘驱动器120断续地输入的传送流变换成连续的传送流,并将它供给到多路复用器/解多路复用器100。
多路复用器/解多路复用器100在其解多路复用器中分析连续传送流的前端以便从传送流中隔离PES(packetized elementary stream,打包基本流),并把隔离的PES送到MPEG音频/视频解码器91。
MPEG音频/视频解码器91将来自多路复用器/解多路复用器100的PES分为视频基本流和音频基本流,其中视频基本流由MPEG视频解码器解码,并变换为基带的视频数据,而音频基本流由MPEG音频解码器解码,并变换为基带的音频数据。在变换之后,视频数据被供给到视频后处理电路92,而音频数据被供给到音频后处理电路95。
视频后处理电路92执行的操作是诸如将从MPEG音频/视频解码器91送的视频数据改变成从视频预处理电路86送的视频数据或者相反,合成地结合两个视频数据和/或后滤波。
视频后处理电路92也执行为GUI(graphical user interface,图形用户界面)产生多个代表图象(静止图象)的压缩静止图象显示操作,压缩代表图象,并将它们传到窗口。所处理的图象的视频数据然后被供给到OSD(onscreen display,屏上显示)处理电路93。
可以用于本发明的目的的代表图象可以包括节目的题目的感人的场景和节目的索引点(一个场景),它们方便用户/观看者能够快速地访问他或她想看的场景。
OSD处理电路93在系统控制器140的控制下,产生对应于给它的文本信息的视频数据,并将它叠加在从视频后处理电路92送来的窗口的视频数据上。然后,它送出所处理的图象数据到NTSC编码器34。图17示出通过压缩相应的原始图象产生的典型代表静止图象。在图17中,总共16个压缩的静止图象200被贴到窗口。
NTSC编码器94对来自OSD处理电路93的视频数据(复合视频数据)在将其或不将其变换成亮度数据和色差数据之后,执行D/A(数字到模拟)转换操作,以产生是模拟信号的分离视频信号和复合视频信号,其中分离视频信号被供给到输出端72S,而复合视频信号被供给到输出端72V。
另一方面,在系统控制器140的控制下,输出开关电路95选择性地取出来自MPEG音频/视频解码器91的音频数据或来自A/D转换器88的音频数据。所选择的音频数据然后被D/A转换器36转换为模拟音频信号,并被供给到输出端72A。
供给到输出端72S的分离视频信号、供给到输出端72V的复合视频信号和供给到输出端72A的音频信号然后被送到外部电视接收器的监视器2,这样用户/观看者可以收看在监视器2上显示的对应图象,收听也是从监视器2输出的声音。
(来自外部装置的音频/视频数据的记录/重现)
数字输入/输出端73和主体100由记录/重现装置70中的数字接口74彼此连接,这样通过连接数字输入/输出端73到外部装置63,从外部装置63输入的传送流可以被记录在硬盘121到123上,从硬盘121到123重现的传送流可以被输出到外部装置63。
外部装置63可以是IRD(integrated receiver decoder,集成接收器解码器)或个人计算机。IEEE(电气与电子工程师协会)1394数字接口通常被用于数字接口74,而IEEE 1394串行总线通常被用于连接外部装置63和数字输入/输出端73的串行总线64。
从外部装置63经由串行总线64到数字输入/输出端73的输入的传送流然后由数字接口74处理,并被送到多路复用器/解多路复用器100,然后再进一步从多路复用器/解多路复用器100到缓冲控制器110,这样它就由硬盘驱动器120记录在硬盘121到123上。
同时,要记录的传送流中的PES被多路复用器/解多路复用器100的解多路复用器从传送流中隔离,并被供给到MPEG音频/视频解码器91,这样被重现的模拟视频信号和模拟音频信号可以分别在输出端72V、72S和72A获得。
对于重现操作,传送流被硬盘驱动器120从硬盘121到123读出,所重现的传送流被送到缓冲控制器110,然后从缓冲控制器110被送到多路复用器/解多路复用器100。然后,它由数字接口74处理,并被输出到数字输入/输出端73,在进一步从数字输入/输出端73经由串行总线64输出到外部装置63,这样用户/观看者就可以收看在连接到外部装置63的监视器7上显示的对应的图象,收听也是从监视器7输出的声音。
同时,所重现的传送流的PES被多路复用器/解多路复用器100的解多路复用器从传送流中隔离,并被供给到MPEG音频/视频解码器91,这样被重现的模拟视频信号和模拟音频信号可以分别在输出端72V、72S和72A获得。
(音频检索)
如上所述,音频检索部分150的操作就象用于检索声音段的本发明的第一个到第五个实施例的任何一个一样。特别地,音频检索部分150不仅可以提取通过指定检索关键码声音特性参数获得的音频信号,也可以基于其连接关系提取对应于所检索的音频信号的视频信号的部分。例如,如果要检查的音频信号是音乐节目,则可以仅提取特定音乐响起处参数的场景。
如上所述,要检查的音频信号不限于记录在硬盘驱动器120上的信号,也可以从外部接收或输入的音频数据中选择。对于该实施例,由于有多个输入音频数据,用户也可以在他或她观看监视器62上的图象和收听监视器62上的一些其它输入音频信号的同时(可以使窗口一直出现或仅当该图象检索时出现),分析包含在输入音频/视频信号之一中的音频信号,随后在显示屏的窗口中显示所检索的图象。例如,喜爱的演员的声音印痕可以被用作检索关键码声音特性参数,只要发现该演员,就可以在窗口中显示对应的场景。
也可以为图17所示的每个压缩的静止图象200登记一个检索关键码声音特性参数,这样,当用户指定任何一个压缩的静止图象200时,使用对应于所指定的图象200的检索关键码声音特性参数的音频检索操作开始。
例如,假定由用户指定的压缩的静止图象示出一个人,该人的声音印痕被存储在检索关键码存储器中,作为检索关键码声音特性参数。然后,一旦在压缩的静止图象中指明该人的检索关键码,该实施例可以立即开始提取该人出现和发言的场景。因此,如果预先为每个压缩的静止图象登记检索关键码声音特性参数,则所压缩的静止图象可以被用作检索操作的索引。
相反地,也可以登记由特定检索关键码声音特性参数提取的场景,从而将它作为压缩的静止图象显示在显示屏上。例如,由作为语音印痕的一个人的特性声音伴随的场景,如果这个人不出现在该场景中,可以被作为压缩的静止图象登记以便显示在显示屏上。
也可以将作为检索关键码或检索关键码声音特性参数操作的音频信号放在广播信号上,用于多路复用。然后,用户可以选择和使用所希望的一个作为检索关键码或检索关键码声音特性参数操作的音频信号,或者在检索关键码存储器32中登记和存储合适的作为检索关键码或检索关键码声音特性参数操作的音频信号。
[音频/视频检索设备和音频/视频存储设备的第二个实施例]
上述的第一个实施例适用于使用仅用于检索音频信号的检索关键码,而该第二个实施例适用于使用不仅用于检索音频信号而且用于检索视频信号的检索关键码。
用该第二个实施例,可以被用于检索关键码用于检索特性图象的视频信号的检索关键码图象特性参数被预先登记。可以被用于本发明的目的检索关键码图象特性参数可以包括亮度及其变化、色调及其变化和示出一个人或对象的场景及其变化。
象检索关键码声音特性参数一样,检索关键码图象特性参数也可以通过分析由用户从输入音频/视频信号中指定的视频信号的时间段或者通过分析特定输入到该实施例的视频信号来获得以便作为检索关键码来操作。也可以预先通常通过个人计算机获得检索关键码,并将它们登记在实施例中。
然后,通过比较通过分析要检查的视频信号而获得的图象特性参数和检索关键码图象特性参数和通过计算确定它们之间的相似性,类似检索关键码的图象的图象可以从要检查的视频信号中被检索。然后,基于对音频信号进行的检索操作的结果和对视频信号进行的检索操作的结果,可以检索输入音频/视频信号的希望部分。
为了本发明的目的,检索关键码图象特性参数和对应的检索关键码声音特性参数可以被独立地登记为许多检索关键码,或者被彼此联系地登记。例如,一个人的图象的检索关键码图象特性参数和该人的语音印痕的检索关键码声音特性参数可以被联系地登记。
用该第二个实施例,可以独立地指定检索关键码图象特性参数和检索关键码声音特性参数,进行各自地检索操作。也可以指定一个检索关键码,从而使用彼此联系的检索关键码图象特性参数和检索关键码声音特性参数。
当使用检索关键码声音特性参数和检索关键码图象特性参数进行检索操作时,所有类似检索关键码并通过使用任何一个参数检索的音频/视频信号的部分可以被输出,或者类似检索关键码并通过使用两个参数检索的音频/视频信号的部分可以被输出,这样它们至少具有一些是共同的。
作为检索操作的结果,被检索的部分可以通过使用其地址信息被显示。对于涉及的图象,被检索的部分的前导场景可以以前面描述的方式被显示为压缩的静止图象。也可以如上述的音频检索的实施例的情况,顺序地重放信号的所检索的部分。另外,也可以将检索操作的结果和用作该操作的检索关键码联系起来,并将它们存储在存储器中,这样该结果可以通过使用该检索关键码被重现。
用该第二个实施例,其中通过使用图象特性参数检测一时间段的视频信号,通过使用声音特性参数检测一时间段的音频信号,检索操作可以非常有意义。例如,也可以检索一部分音频/视频信号,其中不同的场景可以出现,但叙述继续。
如果检索关键码被指定以便使用彼此联系的检索关键码声音特性参数和检索关键码图象特性参数,且通过使用检索关键码检索的音频/视频信号的部分被显示为许多压缩的静止图象,则所显示的图象不仅在图象方面而且在声音方面是有意义的。
如上面所详细描述的,根据本发明,提供了一种方法和一种装置,可以从记录的音频信号检索特定发言者的发言的部分或一乐器的调子,而不需要在记录音频信号时放置标记(marker)或记录计数器读数或时刻。更具体说,要检查的音频信号和被用作检索关键码的音频信号被分析,以获得相应的声音特性参数,所获得的声音特性参数被比较以确定两个信号的相似性。
根据本发明,检索关键码可以被预先登记,这样通过选择性地使用任何登记的检索关键码,检索操作可以容易地进行。
另外,不象使用标记的情况,通过使用预先准备的检索关键码而不必记录音频信号,要检查的音频信号的任何部分都可以被检索。
最后,当从音频/视频信号检索希望的场景时,检索操作的可靠性可以通过使用声音特性参数和图象特性参数来提高。这样,所检索的场景在图象和声音方面都是有意义的。

Claims (47)

1.一种声音检索方法,用于通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的音频信号而获得的声音特性参数,并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号。
2.如权利要求1所述的声音检索方法,其中所述一个或多于一个的音频信号被预先准备,从所准备的音频信号中,通过分析作为检索关键码操作的及从所述声源产生的音频信号而获得的声音特性参数被所述通过计算确定相似性的操作用作检索关键码声音特性参数。
3.如权利要求2所述的声音检索方法,其中作为检索关键码操作的所述音频信号从要分析的音频信号中提取并存储。
4.如权利要求1所述的声音检索方法,其中所述检索关键码声音特性参数由用户通过分析由用户指定的要分析的音频信号的部分而获得,所述要分析的音频信号通过使用检索关键码声音特性参数被分析。
5.如权利要求1所述的声音检索方法,其中所述一个或多于一个的检索关键码声音特性参数被预先存储,那些在检索操作处理中从所存储的检索关键码声音特性参数中读出的检索关键码声音特性参数,被用于所述通过计算确定相似性的操作。
6.如权利要求5所述的声音检索方法,其中所述检索关键码声音特性参数是那些通过分析从所述要分析的音频信号中提取的作为检索关键码操作的所述音频信号而获得的检索关键码声音特性参数。
7.如权利要求1到5中任何一个所述的声音检索方法,其中对于通过计算确定相似性的处理,多于一个的检索关键码按预定时间单元被顺序地逐一使用。
8.如权利要求1到6中任何一个所述的声音检索方法,其中对于要分析的音频信号,使用检索关键码的每个检索处理的结果以时间顺序显示。
9.如权利要求7所述的声音检索方法,其中对于要分析的音频信号,使用检索关键码的每个检索处理的结果以时间顺序显示。
10.如权利要求1到6中任何一个所述的声音检索方法,其中仅有类似检索关键码的要分析的音频信号部分被提取和作为检索处理的结果被重现。
11.如权利要求7所述的声音检索方法,其中仅有类似检索关键码的要分析的音频信号的部分被提取和作为检索操作的结果被重现。
12.一种声音信息存储方法,用于在记录介质上记录输入音频信号,和通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源结构因素的每个检索关键码声音特性参数和通过分析要分析的音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,从而记录与所述检索关键码联系的检索处理的结果和在所述记录介质上用于记录所述输入音频信号的位置。
13.如权利要求12所述的声音信息存储方法,其中检索处理的所述结果与在所述记录介质上的所述音频信号一起被记录。
14.如权利要求12或13所述的声音信息存储方法,其中从作为检索关键码操作的各个音频信号获得的每个所述检索关键码声音特性参数是作为对于根据用户的指令选择和提取的一部分所述输入音频信号进行的分析处理的结果而获得的。
15.如权利要求14所述的声音信息存储方法,其中作为对于根据用户的指令选择和提取的一部分所述输入音频信号进行的分析处理的结果而获得的作为检索关键码操作的所述一个或多于一个的音频信号的所述检索关键码声音特性参数被存储在缓冲存储器的不同的各个存储器区域,且随后被读出和用于通过计算确定相似性检索输入音频信号的一部分的处理。
16.如权利要求14所述的声音信息存储方法,其中根据用户的各个指令选择和提取的一个或多于一个部分的所述输入音频信号被存储在缓冲存储器的不同的各个存储器区域当成作为检索关键码操作的音频信号,并且所述作为检索关键码操作的一个或多于一个的音频信号被从所述缓中存储器读出、分析以产生各个检索关键码声音特性参数,这样所述通过计算确定相似性来检索一部分输入音频信号的处理,就通过使用作为检索关键码操作的所述音频信号来进行。
17.如权利要求12或13所述的声音信息存储方法,其中作为检索关键码操作的所述音频信号的所述声音特性参数或作为检索关键码操作的所述音频信号与在所述记录介质上的检索处理的所述结果一起被记录。
18.如权利要求14所述的声音信息存储方法,其中作为检索关键码操作的所述音频信号的所述声音特性参数或作为检索关键码操作的所述音频信号与在所述记录介质上的检索处理的所述结果一起被记录。
19.一种声音信息检索设备,包括声音特性参数分析装置,用于分析要分析的音频信号和获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和结果显示装置,用于显示所述检索处理的结果。
20.如权利要求19所述的声音信息检索设备,其中所述结果显示装置,在所述要分析的音频信号的时间经过的同时,显示由所述检索装置确定的所述类似部分。
21.如权利要求19所述的声音信息检索设备,还包括保持装置,用于保持作为检索关键码操作的所述一个或多于一个的音频信号;读取装置,用于在检索处理时,从所述保持装置,读取所选择的作为检索关键码操作的音频信号;和检索关键码声音特性参数分析装置,用于分析由所述读取装置读出的作为检索关键码操作的音频信号,和获得要提供给所述相似性确定装置的检索关键码声音特性参数。
22.如权利要求19所述的声音信息检索设备,还包括保持装置,用于保持所述一个或多于一个的检索关键码声音特性参数;和读取装置,用于从所述保持装置,读取所选择的检索关键码声音特性参数,并将它们提供到所述相似性确定装置。
23.如权利要求22所述的声音信息检索设备,还包括检索关键码登记装置,用于通过根据用户的指令分析所述要分析的音频信号,从所述音频信号提取作为检索关键码的声音特性参数,并将它们保持在所述保持装置中。
24.如权利要求19所述的声音信息检索设备,其中对于通过计算确定相似性的处理,多于一个的检索关键码按预定时间单元被顺序地逐一使用。
25.一种声音信息检索设备,包括声音特性参数分析装置,用于分析要分析的音频信号和获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和重现装置,用于根据所述检索装置的检索处理的结果,提取和仅重现所述类似部分。
26.如权利要求25所述的声音信息检索设备,还包括保持装置,用于保持作为检索关键码操作的所述一个或多于一个的音频信号;读取装置,用于在检索处理时,从所述保持装置,读取所选择的作为检索关键码操作的音频信号;和检索关键码声音特性参数分析装置,用于分析由所述读取装置读出的作为检索关键码操作的音频信号,和获得要提供给所述相似性确定装置的检索关键码声音特性参数。
27.如权利要求26所述的声音信息检索设备,还包括检索关键码登记装置,用于根据用户的指令,从所述要分析的音频信号提取作为检索关键码操作的所述音频信号,并将它们保持在所述保持装置中。
28.如权利要求25所述的声音信息检索设备,还包括保持装置,用于保持所述一个或多于一个的检索关键码声音特性参数;和读取装置,用于从所述保持装置,读取所选择的检索关键码声音特性参数,并将它们提供到所述相似性确定装置。
29.如权利要求28所述的声音信息检索设备,还包括检索关键码登记装置,用于通过根据用户的指令分析所述要分析的音频信号,从所述音频信号提取作为检索关键码的声音特性参数,并将它们保持在所述保持装置中。
30.如权利要求25所述的声音信息检索设备,其中对于通过计算确定相似性的处理,多于一个的检索关键码按预定时间单元被顺序地逐一使用。
31.一种声音信息存储设备,包括记录装置,用于在记录介质上记录输入音频信号;声音特性参数分析装置,用于分析要分析的所述输入音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;和检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和输入音频信号的所述声音特性参数,和检索要分析的输入音频信号的一部分,其类似于作为检索关键码操作的和从检索关键码的声源获得的音频信号,所述检索装置的检索处理的结果被记录,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
32.如权利要求31所述的声音信息存储设备,其中所述检索处理的结果与在所述记录介质上的所述音频信号一起被记录。
33.如权利要求31或32所述的声音信息存储设备,还包括检索关键码声音特性参数分析装置,用于分析根据用户的指令提取的一部分所述输入音频信号,以获得所述作为检索关键码操作的一个或多于一个音频信号的所述检索关键码声音特性参数;和检索关键码声音特性参数保持装置,用于保持由所述检索关键码声音特性参数分析装置作为检索关键码获得的所述检索关键码声音特性参数。
34.如权利要求31或32所述的声音信息存储设备,还包括检索关键码提取装置,用于根据用户的指令提取一部分所述输入音频信号当成作为检索关键码操作的音频信号;检索关键码声音信号保持装置,用于存储由所述检索关键码提取装置提取的所述检索关键码音频信号;和检索关键码声音特性参数分析装置,用于根据从所述检索关键码音频信号保持装置读出的检索关键码音频信号获得检索关键码声音特性参数,所述检索装置适用于比较由所述检索关键码声音特性参数分析装置获得的检索关键码声音特性参数和所述输入音频信号的所述声音特性参数。
35.如权利要求34所述的声音信息存储设备,还包括检索关键码登记装置,通过根据用户的指令提取一部分所述要分析的音频信号获得作为检索关键码的声音特性参数,并将它们保持在所述保持装置。
36.如权利要求31或32所述的声音信息存储设备,其中对于通过计算确定相似性的处理,多于一个的检索关键码按预定时间单元被顺序地逐一使用。
37.一种声音/图象信息检索方法,用于检索包括视频信号和与所述视频信号相联系的音频信号的输入信号的一部分,所述方法包括通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,并且产生所检索的部分作为对所述输入信号进行的检索操作的结果。
38.一种声音/图象信息检索方法,用于检索包括视频信号和与所述视频信号相联系的音频信号的输入信号的一部分,所述方法包括通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,也通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,所述输入信号的一部分基于对所述音频信号进行的检索处理的结果和对所述视频信号进行的检索处理的结果被检索。
39.一种声音/图象信息存储方法,用于记录包括视频信号和与所述视频信号相联系的音频信号的输入信号,通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,并且记录所述检索处理的结果,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
40.一种声音/图象信息存储方法,用于记录包括视频信号和与所述视频信号相联系的音频信号的输入信号,通过比较从作为检索关键码操作的各个音频信号获得的及依赖于该音频信号的声源的结构因素的每个检索关键码声音特性参数和通过分析要分析的所述音频信号而获得的声音特性参数并通过计算确定它们之间的相似性,来检索所述要分析的音频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的音频信号,也通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,并且记录对所述音频信号和所述视频信号进行的检索处理的结果,以便与所述检索关键码和在所述记录介质上用于记录所述输入音频信号的位置相联系。
41.一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,并检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和结果显示装置,用于显示所述检索处理的结果。
42.如权利要求41所述的声音/图象信息检索设备,其中所述结果显示装置显示对应于由所述检索装置检索的部分的视频信号部分的图象。
43.一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,并获得依赖于该音频信号的声源的结构因素的声音特性参数;检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,并检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;和重现装置,用于提取和重现对应于所述类似部分的所述输入信号的部分。
44.一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,和获得依赖于该音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,和检索要分析的音频信号的一部分,其类似作为检索关键码操作的和从检索关键码的声源获得的音频信号;图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述要分析的所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象;和结果显示装置,用于显示所述声音部分检索装置的检索处理的结果和所述图象部分检索装置的检索处理的结果。
45.一种声音/图象信息检索设备,包括声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号,及获得依赖于该音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的音频信号的声音特性参数和从所述声音特性参数分析装置获得的要分析的音频信号的所述声音特性参数,和检索要分析的音频信号的一部分,其类似于作为检索关键码操作的和从检索关键码的声源获得的音频信号;图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象;和重现装置,用于提取和重现基于所述声音部分检索装置的检索处理的结果和所述图象部分检索装置的检索处理的结果确定的所述输入信号的部分。
46.一种声音/图象信息存储设备,包括记录装置,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号;声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;和声音部分检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和所述输入信号的音频信号的所述声音特性参数,和检索所述输入信号的音频信号的一部分,其类似于作为检索关键码操作的音频信号,所述声音部分检索装置的检索处理的结果被记录,以便与所述检索关键码和在所述记录介质上用来记录所述输入信号的位置相联系。
47.一种声音/图象信息存储设备,包括记录装置,用于在记录介质上记录包括视频信号和与所述视频信号相联系的音频信号的输入信号;声音特性参数分析装置,用于分析包括视频信号和与所述视频信号相联系的音频信号的输入信号的音频信号和获得依赖于音频信号的声源的结构因素的声音特性参数;声音部分检索装置,用于比较作为检索关键码操作的一个或多于一个的音频信号的声音特性参数和所述输入信号的音频信号的所述声音特性参数,并检索所述输入信号的音频信号的一部分,其类似于作为检索关键码操作的音频信号;和图象部分检索装置,用于通过比较作为检索关键码操作及示出该视频信号的图象的特性的每个检索关键码图象特性参数和通过分析要分析的所述输入的视频获得的图象特性参数,来检索所述输入信号的视频信号的一部分,其类似于一个或多于一个的作为许多检索关键码操作的图象,所述声音部分检索装置和所述图象部分检索装置的检索处理的结果被记录,以与所述检索关键码和在所述记录介质上记录所述输入信号的位置相联系。
CNB008022186A 1999-08-26 2000-08-25 信息检索方法及设备、信息存储方法及设备 Expired - Fee Related CN1178201C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP239145/1999 1999-08-26
JP23914599 1999-08-26

Publications (2)

Publication Number Publication Date
CN1327573A true CN1327573A (zh) 2001-12-19
CN1178201C CN1178201C (zh) 2004-12-01

Family

ID=17040435

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008022186A Expired - Fee Related CN1178201C (zh) 1999-08-26 2000-08-25 信息检索方法及设备、信息存储方法及设备

Country Status (6)

Country Link
US (2) US7260226B1 (zh)
EP (2) EP1887561A3 (zh)
KR (1) KR100782286B1 (zh)
CN (1) CN1178201C (zh)
DE (1) DE60038535T2 (zh)
WO (1) WO2001016935A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042870B (zh) * 2006-03-24 2010-12-29 雅马哈株式会社 用于评估声音间相似度的方法和设备
CN102522084A (zh) * 2011-12-22 2012-06-27 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
WO2014114103A1 (zh) * 2013-01-25 2014-07-31 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
CN113646756A (zh) * 2019-04-26 2021-11-12 索尼集团公司 信息处理装置、方法以及程序

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100782286B1 (ko) * 1999-08-26 2007-12-07 소니 가부시끼 가이샤 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
JP3876855B2 (ja) * 2003-07-10 2007-02-07 ヤマハ株式会社 オートミックスシステム
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
GB0502844D0 (en) 2005-02-11 2005-03-16 Univ Edinburgh Storing digital content for access using a captured image
JPWO2006100980A1 (ja) * 2005-03-18 2008-09-04 パイオニア株式会社 音声信号処理装置及びそのためのコンピュータプログラム
EP1881489B1 (en) * 2005-05-13 2010-11-17 Panasonic Corporation Mixed audio separation apparatus
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
KR100782825B1 (ko) * 2005-12-01 2007-12-06 삼성전자주식회사 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
JP2008154143A (ja) * 2006-12-20 2008-07-03 Sony Corp 受信データ記録システム、受信機、受信機の制御方法、レコーダ、データ記録方法およびプログラム
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
WO2011041008A1 (en) * 2009-10-01 2011-04-07 Richard Anthony Remington Method for removing advertising content
JP5568953B2 (ja) * 2009-10-29 2014-08-13 ソニー株式会社 情報処理装置、シーン検索方法及びプログラム
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
KR102184987B1 (ko) * 2013-11-15 2020-12-01 엘지전자 주식회사 영상 표시 장치 및 그 동작 방법
KR102255152B1 (ko) * 2014-11-18 2021-05-24 삼성전자주식회사 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
CN105893431A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 媒体检索方法及设备
CN106682505B (zh) * 2016-05-04 2020-06-12 腾讯科技(深圳)有限公司 一种病毒检测方法、终端、服务器及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2791036B2 (ja) * 1988-04-23 1998-08-27 キヤノン株式会社 音声処理装置
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JP3021252B2 (ja) * 1993-10-08 2000-03-15 シャープ株式会社 データ検索方法及びデータ検索装置
JP3171744B2 (ja) 1994-03-15 2001-06-04 シャープ株式会社 音声及び動画の検索装置
JP3664499B2 (ja) 1994-08-16 2005-06-29 富士通株式会社 音声情報の処理方法及びその装置
JPH08265660A (ja) * 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH09106339A (ja) 1995-10-11 1997-04-22 Toshiba Corp 情報処理装置およびデータ格納方法
JP3569104B2 (ja) * 1997-05-06 2004-09-22 日本電信電話株式会社 音情報処理方法および装置
JP3508978B2 (ja) 1997-05-15 2004-03-22 日本電信電話株式会社 音楽演奏に含まれる楽器音の音源種類判別方法
KR100782286B1 (ko) * 1999-08-26 2007-12-07 소니 가부시끼 가이샤 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US7373209B2 (en) * 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
US20060195322A1 (en) * 2005-02-17 2006-08-31 Broussard Scott J System and method for detecting and storing important information

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042870B (zh) * 2006-03-24 2010-12-29 雅马哈株式会社 用于评估声音间相似度的方法和设备
CN102522084A (zh) * 2011-12-22 2012-06-27 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
WO2014114103A1 (zh) * 2013-01-25 2014-07-31 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
CN113646756A (zh) * 2019-04-26 2021-11-12 索尼集团公司 信息处理装置、方法以及程序

Also Published As

Publication number Publication date
WO2001016935A1 (fr) 2001-03-08
CN1178201C (zh) 2004-12-01
US20070127735A1 (en) 2007-06-07
EP1887561A3 (en) 2008-07-02
DE60038535D1 (de) 2008-05-21
KR20010089358A (ko) 2001-10-06
EP1132890A1 (en) 2001-09-12
US7260226B1 (en) 2007-08-21
EP1132890B1 (en) 2008-04-09
EP1887561A2 (en) 2008-02-13
US8165306B2 (en) 2012-04-24
KR100782286B1 (ko) 2007-12-07
EP1132890A4 (en) 2005-08-17
DE60038535T2 (de) 2009-07-02

Similar Documents

Publication Publication Date Title
CN1178201C (zh) 信息检索方法及设备、信息存储方法及设备
CN1209744C (zh) 编码装置和解码装置
CN1223983C (zh) 乐音语音再现装置及其控制方法、及服务器装置
CN1162857C (zh) 存储音频数据的数字多用途盘音频盘及再现设备
CN1196063C (zh) 内容检索发布装置和内容检索发布方法
CN1245022C (zh) 数据处理方法/设备和数据再生方法/设备
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
CN1910580A (zh) 概要再现装置和概要再现方法
CN1908965A (zh) 信息处理装置及其方法和程序
CN101038739A (zh) 用于附加元数据的方法和设备
CN1801135A (zh) 音乐内容再现装置、其方法和记录装置
CN1666527A (zh) 对嵌于媒介流中的重复对象提供用户控制的系统和方法
CN1135071A (zh) 存储媒体再现方法及装置
CN1738440A (zh) 用于处理信息的设备,方法和计算机程序
CN101051514A (zh) 记录和复现装置与记录和复现方法
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
CN1866169A (zh) 再现装置、程序及再现控制方法
CN1381055A (zh) 标识和处理音频和/或视频材料
CN1817038A (zh) 内容存储系统、家用服务器装置、信息供应装置、集成电路、以及程序
CN1801908A (zh) 信息处理装置、信息处理方法、及程序
CN1783324A (zh) 内容使用装置及方法、分配服务器装置、信息分配法、记录媒体
CN100343850C (zh) 数据处理方法及其系统
CN1703083A (zh) 移动图像处理装置和方法
JP2001309282A (ja) 放送番組記録方法及び放送番組記録装置及び放送番組記録再生装置
KR101469021B1 (ko) 카테고리 생성 프로그램, 카테고리 생성 장치 및 카테고리 생성 방법

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1062859

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20041201

Termination date: 20150825

EXPY Termination of patent right or utility model