[go: up one dir, main page]

KR20010108308A - 데이터베이스 주석 및 검색 - Google Patents

데이터베이스 주석 및 검색 Download PDF

Info

Publication number
KR20010108308A
KR20010108308A KR1020017011250A KR20017011250A KR20010108308A KR 20010108308 A KR20010108308 A KR 20010108308A KR 1020017011250 A KR1020017011250 A KR 1020017011250A KR 20017011250 A KR20017011250 A KR 20017011250A KR 20010108308 A KR20010108308 A KR 20010108308A
Authority
KR
South Korea
Prior art keywords
data
phoneme
word
generating
annotation
Prior art date
Application number
KR1020017011250A
Other languages
English (en)
Other versions
KR100828884B1 (ko
Inventor
제이슨 피터 앤드류 찰스워쓰
지뷰 제이콥 라잔
필립 닐 가너
Original Assignee
미다라이 후지오
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9905160.9A external-priority patent/GB9905160D0/en
Priority claimed from GBGB9905199.7A external-priority patent/GB9905199D0/en
Priority claimed from GBGB9905201.1A external-priority patent/GB9905201D0/en
Priority claimed from GBGB9905187.2A external-priority patent/GB9905187D0/en
Priority claimed from GBGB9905186.4A external-priority patent/GB9905186D0/en
Application filed by 미다라이 후지오, 캐논 가부시끼가이샤 filed Critical 미다라이 후지오
Publication of KR20010108308A publication Critical patent/KR20010108308A/ko
Application granted granted Critical
Publication of KR100828884B1 publication Critical patent/KR100828884B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

데이터베이스내에서 데이터 파일을 주석 처리하기 위한 데이터 구조가 제공된다. 주석 데이터(annotation data)는 사용자의 입력 문의에 응답하여 데이터베이스내의 데이터 파일을 신속하고 효과적으로 검색하도록 허용하는 음소 및 단어 격자(phoneme and word lattice)를 구비한다. 주석 데이터의 구조는 입력 문의가 목소리로 이루어지게 허용하고, 오디오 데이터 파일, 비디오 데이터 파일, 멀티미디어 데이터 파일 등과 같이 다양한 종류의 데이터 파일을 주석 처리하는데 사용될 수 있게 이루어진다. 주석 데이터는 데이터 파일 자체로부터 발생되거나, 목소리 입력 또는 타이프된 입력으로부터 사용자에 의해 입력될 수 있다.

Description

데이터베이스 주석 및 검색{DATABASE ANNOTATION AND RETRIEVAL}
정보의 데이터베이스는 원하는 정보의 위치를 정하고 데이터베이스로부터 신속하고 효과적으로 검색하는 방법에 대한 문제점을 겪고 있는 것으로 공지되어 있다. 기존의 데이터베이스 검색 툴(tool)은 사용자가 타이프한 키워드(keyword)를 사용하여 데이터베이스를 검색하도록 허용한다. 이는 신속하고 효과적이지만, 이러한 종류의 검색은 비디오 또는 오디오 데이터베이스와 같이, 다양한 종류의 데이터베이스에 적절하지 않다.
한 특성에 따라, 본 발명은 사용자의 입력 문의에 응답하여 신속하고 효과적인 검색이 실행될 수 있도록 하는 데이터베이스내에서 데이터 파일의 주석(annotation)을 허용하는 데이터 구조를 제공하는 것을 목적으로 한다.
한 특성에 따라, 본 발명은 데이터베이스내에 저장되는 데이터 파일에 주석을 달기 위한 주석 데이터로 사용되는 단어 격자(word lattice) 및 음소(phoneme)를 정의하는 데이터를 제공한다. 바람직하게, 그 데이터는 격자내의 다수의 노드(node) 및 격자내에서 노드를 연결시키는 다수의 링크(link)를 정의하고, 또한 다수의 음소를 다수의 링크 각각과 연관시키고, 적어도 하나의 단어를 상기 링크 중 적어도 하나와 연관시킨다.
또 다른 특성에 따라, 본 발명은 사용자에 의한 입력 문의에 응답하여 상기에 논의된 주석 데이터를 구비하는 데이터베이스를 검색하는 방법을 제공한다. 그 방법은 바람직하게 사용자의 입력 문의에 대응하는 음소 데이터 및 단어 데이터를 발생하는 단계; 사용자의 문의에 대응하는 단어 데이터를 사용하여 데이터베이스를 검색하는 단계; 단어 검색의 결과에 응답하여 더 검색하도록 데이터베이스에서 음소 및 단어 격자를 정의하는 데이터 일부를 선택하는 단계; 사용자의 입력 문의에 대응하는 상기 음소 데이터를 사용하여 상기 선택된 데이터베이스 일부를 검색하는 단계; 및 검색 결과를 출력하는 단계를 구비한다.
이 특성에 따라, 본 발명은 또한 데이터 파일에 주석을 달도록 상기에 논의된 주석 데이터를 사용하는 데이터베이스를 검색하는 장치를 제공한다. 그 장치를 바람직하게 사용자의 입력 문의에 대응하는 음소 데이터 및 단어 데이터를 발생하는 수단; 데이터베이스내에서 유사한 단어를 식별하도록 사용자의 입력 문의에 대응하는 단어 데이터를 사용하여 데이터베이스를 검색하는 수단; 단어 검색의 결과에 응답하여 더 검색하도록 데이터베이스에서 주석 데이터 일부를 선택하는 수단; 사용자의 입력 문의에 대응하는 음소 데이터를 사용하여 선택된 부분을 검색하는수단; 및 검색 결과를 출력하는 수단을 구비한다.
데이터 파일에 대한 음소 및 주석 데이터는 데이터 파일 자체로부터, 또는 사용자에 의해 타이프 또는 발성된 주석 입력으로부터 발생될 수 있다.
본 발명은 뒤이어 행해지는 검색을 용이하게 하기 위한 데이터베이스에 저장되는 데이터 파일의 주석(annotation)에 관한 것이다. 본 발명은 또한 데이터 파일에 부가되는 주석 데이터를 발생하기 위한 시스템 및 사용자의 입력 문의에 응답하여 원하는 데이터 파일을 검색하도록 데이터베이스에서 주석 데이터를 검색하기 위한 시스템에 관련된다.
도 1은 본 발명의 실시예를 동작시키도록 프로그램된 컴퓨터를 도시하는 도면.
도 2는 데이터 파일에 첨부되는 음소(phoneme) 및 단어 주석 데이터(word annotation data)를 발생하도록 동작가능한 음소 및 단어 주석기 유닛을 도시하는 블록도.
도 3은 음소 및 단어 주석기가 입력 비디오 데이터 파일로부터 주석 데이터를 발생할 수 있는 하나의 방법을 설명하는 블록도.
도 4a는 입력 비디오 데이터 파일로부터 한 예로 오디오 스트링에 대한 음소 격자를 도시하는 도면.
도 4b는 입력 비디오 데이터 파일로부터 한 예로 오디오 스트링에 대해 본 발명의 한 특성을 실현하는 단어 및 음소 격자를 도시하는 도면.
도 5는 사용자가 음성 문의에 의해 데이터베이스로부터 정보를 검색하도록 허용하는 사용자 단말기의 블록도.
도 6a는 도 5에 도시된 사용자 단자의 흐름 제어 중 일부를 설명하는 흐름도.
도 6b는 도 5에 도시된 사용자 단말기의 제어 흐름 중 나머지 일부를 설명하는 흐름도.
도 7은 사용자 단말기 중 일부를 형성하는 검색 엔진이 데이터베이스내에서 음소 검색을 실행하는 방법을 설명하는 흐름도.
도 8은 음소 스트링 및 그 음소 스트링으로부터 발생된 4개의 M-GRAMS의 형태를 설명하는 도면.
도 9는 두 벡터와 두 벡터 사이의 각도를 도시하는 그래프.
도 10은 두 발성자로부터 한 예로 오디오 스트링에 대한 한쌍의 단어 및 음소 격자를 도시하는 도면.
도 11은 사용자에 의해 입력된 오디오 신호로부터 발생된 주석 데이터로 데이터 파일을 주석 처리하도록 허용하는 사용자 단말기를 도시하는 블록도.
도 12는 데이터 파일을 주석 처리하도록 한 예로 사용자에 의해 입력된 발성에 대해 발생된 음소 및 단어 격자 주석 데이터를 도시하는 도면.
도 13은 사용자에 의해 타이프된 입력으로부터 발생된 주석 데이터로 데이터 파일을 주석 처리하도록 허용하는 사용자 단말기를 도시하는 블록도.
도 14는 데이터 파일을 주석 처리하도록 사용자에 의해 타이프된 입력에 대해 발생된 음소 및 단어 격자 주석 데이터를 도시하는 도면.
도 15는 문서 주석 시스템의 형태를 도시하는 블록도.
도 16은 다른 방법의 문서 주석 시스템을 도시하는 블록도.
도 17은 또 다른 문서 주석 시스템을 도시하는 블록도.
도 18은 사용자에 의해 입력된 발성에 응답하여 데이터 네트워크를 통해 원격 서버에 위치하는 데이터베이스를 억세스하도록 동작할 수 있는 사용자 단말기를 도시하는 블록도.
도 19는 사용자에 의해 입력된 발성에 응답하여 사용자가 원격 서버에 위치하는 데이터베이스를 억세스하도록 허용하는 사용자 단말기를 도시하는 블록도.
도 20은 사용자가 타이프된 입력 문의에 의해 데이터베이스를 억세스하도록 허용하는 사용자 단말기를 도시하는 블록도.
도 21은 비디오 데이터 파일내에 포함된 스크립(script) 데이터로부터 음소 및 단어 격자가 발생될 수 있는 방법을 설명하는 블록도.
본 발명의 실시예는 전용 하드웨어 회로를 사용하여 실시될 수 있지만, 설명되는 실시예는 컴퓨터 소프트웨어나 코드로 실시되어, 개인용 컴퓨터, 워크 스테이션, 복사기, 팩시밀리 기기, PDA(personal digital assistant) 등과 같은 프로세싱 하드웨어와 연관되어 실행된다.
도 1은 본 발명의 한 실시예를 동작시키도록 프로그램된 개인용 컴퓨터(PC)(1)를 도시한다. PC(1)에는 인터페이스(11)를 통해 키보드(3), 포인팅 디바이스(5), 마이크로폰(7), 및 전화선(9)이 연결된다. 키보드(3) 및 포인팅 디바이스(5)는 시스템이 사용자에 의해 제어될 수 있게 한다. 마이크로폰(7)은 사용자로부터의 음향적 음성 신호를 동일한 전기 신호로 변환하고, 이들을 처리용 PC(1)로 공급한다. 내부 모뎀 및 음성 수신 회로(도시되지 않은)는 PC(1)가 예를 들어 원격 컴퓨터 또는 원격 사용자와 통신할 수 있도록 전화선(9)에 연결된다.
본 발명에 따라 PC(1)를 동작하게 하는 프로그램 명령은 자기 디스크(13)와 같은 저장 디바이스에서 현존하는 PC(1)와 사용되도록 공급되거나, 내부 모뎀 및 전화선(9)을 통해 인터넷(도시되지 않은)으로부터 소프트웨어를 다운로드(download)함으로서 공급될 수 있다.
데이터 파일 주석(data file annotation)
도 2는 본 실시예에서 입력 데이터 파일(23)에 대한 주석 데이터(21)가 음소 및 단어(phoneme and word) 주석 유닛(25)에 의해 발생되는 방법을 설명하는 블록도이다. 도시된 바와 같이, 발생된 음소 및 단어 주석 데이터(21)는 이어서 데이터 조합 유닛(27)에서 데이터 파일(23)과 조합되고, 그에 의해 출력되는 조합된 데이터 파일은 데이터베이스(29)에 입력된다. 본 실시예에서, 주석 데이터(21)는 사용자가 음성 문의에 의해 데이터베이스로부터 정보를 검색하도록 허용하는 조합된 음소(또는 음소와 유사한) 및 단어 격자(lattice)를 구비한다. 종래 기술에 숙련된 자가 이해하게 될 바와 같이, 데이터 파일(23)은 비디오 파일, 오디오 파일, 멀티미디어 파일 등과 같은 임의의 종류의 데이터 파일이 될 수 있다.
시스템은 비디오 데이터 파일로부터의 오디오 데이터를 자동 음성 인식 유닛을 통과시킴으로서 주석 데이터로서 오디오 스트림(stream)에 대한 N-최상 단어 리스트를 발생하도록 제안된다. 그러나, 이러한 단어-근거의 시스템은 많은 문제점을 겪게 된다. 이들은(i) 종래 음성 인식 시스템의 상태가 아직까지 인식하는데 있어서 기본적인 실수를 하는 것;(ii) 종래 자동 음성 인식 시스템의 상태가 아마도 20,000 내지 100,000 단어의 사전을 사용하여 그 어휘 이외의 단어를 만들 수없다는 것; 또한(iii) N-최상 리스트의 제작이 각 스테이지에서 가정의 수를 지수적으로 증가시키므로, 긴 발성에 대해서는 주석 데이터에서의 결과가 엄청나게 커진다는 것을 포함한다.
이러한 문제점 중 첫번째 것은 똑같은 복호화 에러가 발생될 수 있으므로, 주석 데이터를 발생하고 이어서 대응하는 데이터 파일을 검색하는데 똑같은 자동 음성 인식 시스템이 사용되는 경우 그렇게 심각하지 않다. 그러나, 자동 음성 인식 시스템이 매년 진보되고 있으므로, 미래에는 똑같은 종류의 에러가 발생되지 않아, 나중에 대응하는 데이터 파일을 검색할 수 없게 될 수 있다. 두번째 문제점에 대해서는 사용자가 입력 문의 항목으로 이름 및 위치(음성 인식 사전에 없을 수 있는)를 사용할 가능성이 있으므로, 비디오 데이터 응용에서 특히 심각하다. 이러한 이름 대신, 자동 음성 인식 시스템은 전형적으로 사전 단어에서 벗어나는 것을 사전내에서 음성학적으로 유사한 단어 또는 단어들로 대치하여, 때로 가까운 복호화를 망치게 된다. 이는 또한 이어지는 요구에 따라 요구되는 데이터 파일을 검색하지 못하게 될 수 있다.
대조적으로, 제안된 음소 및 단어 격자 주석 데이터로는 데이터베이스(29)내의 단어 데이터를 사용하여 신속하고 효과적인 검색이 실행될 수 있고, 요구되는 데이터 파일을 제공하는 것이 실패하면, 더 확실한 음소 데이터를 사용하여 더 검색될 수 있다. 음소 및 단어 격자는 단일 입구점과 단일 출구점을 갖는 비순환 지향적 그래프이다. 이는 데이터 파일내에서 오디오 스트림의 다른 문법적 관계를 나타낸다. 각 단어가 단일 대안으로 대치되어야 하지 않고, 한 단어가 3개 이상의단어나 음소를 대신할 수 있고, 또한 전체 구조가 하나 이상의 단어 또는 음소에 대한 대리를 형성할 수 있으므로, 이는 단순하게 대안되는 단어의 시퀀스가 아니다. 그러므로, 음소 및 단어 격자내에서 데이터의 밀도는 상기에 논의된 N-최상 기술의 경우에서와 같이 지수적으로 증가되기 보다는, 기본적으로 오디오 데이터를 통해 선형으로 유지된다. 음성 인식의 종래 기술에 숙련된 자가 실현하게 될 바와 같이, 음소는 사전에 독립적이고 시스템이 어휘 단어 이외에 이름, 장소, 외국어 등과 같은 것을 처리하게 허용하기 때문에, 음소 데이터의 사용은 보다 확실하다. 음소 데이터의 사용은 또한 단어가 원래의 자동 음성 인식 시스템에 의해 이해되지 않았을 때에도 데이터베이스에 배치되는 데이터 파일이 검색되도록 허용하므로, 시스템 미래를 증명할 수 있다.
이제는 도 3을 참고로 이러한 음소 및 단어 격자 주석 데이터가 비디오 데이터 파일에 대해 발생될 수 있는 방법이 설명된다. 도시된 바와 같이, 비디오 데이터 파일(31)은 비디오 시퀀스를 형성하는 영상의 시퀀스를 정의하는 비디오 데이터(31-1), 및 비디오 시퀀스와 연관된 오디오를 정의하는 오디오 데이터(31-2)를 구비한다. 이미 공지된 바와 같이, 오디오 데이터(31-2)는 사용시 비디오 및 오디오 데이터가 동시에 사용자에게 공급되도록 비디오 데이터(31-1)와 시간동기화된다.
도 3에 도시된 바와 같이, 본 실시예에서는 오디오 데이터(31-2)가 오디오 데이터(31-2)의 스트림에 대응하는 음소 격자를 발생하도록 동작할 수 있는 자동 음성 인식 유닛(33)에 입력된다. 이러한 자동 음성 인식 유닛(33)은 종래 기술에서 일반적으로 이용가능하므로, 더 상세히 설명되지 않는다. 독자는 이 종류의 음성 인식 시스템에 대해 더 상세한 정보를 위해 예를 들면, Lawrence Rabiner 및 Biing-Hwang Juang의 "음성 인식의 원리(Fundamentals of Speech Recognition)", 특히 페이지 42 내지 50을 참고한다.
도 4a는 '... tell me about Jason ...' 어구에 대응하는 입력 오디오에 대해 음성 인식 유닛(33)으로 출력된 음소 격자 데이터의 형태를 설명한다. 도시된 바와 같이, 자동 음성 인식 유닛(33)은 이 입력 오디오 발성에 대응하여 다수의 다른 가능한 음소 스트링을 식별한다. 예를 들면, 음성 인식 시스템은 오디오 스트링의 제1 음소가 /t/ 또는 /d/인 것으로 생각한다. 음성 인식의 종래 기술에서 공지된 바와 같이, 이러한 다른 가능성들은 음성 인식 유닛(33)에 의해 발생되고 음성 인식 유닛의 출력에 대한 신뢰도를 나타내는 자체 가중치(weighting)를 가질 수 있다. 예를 들어, 음소 /t/에는 0.9의 가중치가 주어지고, 음소 /d/에는 0.1의 가중치가 주어질 수 있어, 음성 인식 시스템은 오디오의 대응하는 부분이 음소 /t/를 나타내지만 아직까지 음소 /d/일 수 있음을 매우 확신하는 것으로 나타난다. 그러나, 본 실시예에서는 이러한 음소의 가중화가 실행되지 않는다.
도 3에 도시된 바와 같이, 자동 음성 인식 유닛(33)에 의해 출력된 음소 격자 데이터(35)는 음소 격자 데이터(35)내에서 가능한 단어를 식별하도록 동작할 수 있는 단어 디코더(37)에 입력된다. 본 실시예에서는 단어 디코더(37)에 의해 식별되는 단어가 음소 격자 데이터 구조에 포함된다. 예를 들어, 도 4a에 도시된 음소 격자에 대해, 단어 디코더(37)는 단어 'tell', 'dell', 'term', 'me', 'a','boat','about', 'chase', 및 'sun'을 식별한다. 도 4b에 도시된 바와 같이, 식별된 이들 단어는 음성 인식 유닛(33)에 의해 출력된 음소 격자 데이터 구조에 부가되어, 주석 데이터(3103)를 형성하는 음소 및 단어 격자 데이터 구조를 발생한다. 이 주석 데이터(31-3)는 이어서 비디오 데이터 파일(31)과 조합되어, 데이터베이스(29)에 저장되는 증대된 비디오 데이터 파일(31')을 발생한다. 종래 기술에 숙련된 자가 생각할 수 있는 바와 같이, 오디오 데이터(31-2)가 비디오 데이터(31-1)와 시간 동기화되는 방식과 유사한 방식으로, 주석 데이터(31-1)는 또한 대응하는 비디오 데이터(31-1) 및 오디오 데이터(31-2)와 연관되어 시간 동기화되므로, 비디오 및 오디오 데이터 중 원하는 부분은 주석 데이터(31-3) 중 대응하는 부분을 검색하여 그 위치를 지정함으로서 검색될 수 있다.
본 실시예에서는 데이터베이스(29)에 저장된 주석 데이터(31-3)가 다음의 일반적인 형태를 갖는다:
헤더
- 시작 시간
- 단어인가, 음소인가, 그들의 혼합인가에 대한 플래그
- 메모리내에서 주석 데이터의 블록 위치를 소정의 시간점에 연관시키는 시간 인덱스
- 사용되는 단어 세트(즉, 사전)
- 사용되는 음소 세트
- 어휘가 속하는 언어
블록(i) i = 0, 1, 2, ...
노드 Njj = 0, 1, 2, ...
- 블록의 시작으로부터의 노드의 시간 오프셋(offset)
- 음소 링크(k) k = 0, 1, 2, ...
노드로의 오프셋 Nj= Nk-Nj(Nk는 링크 k가 확장되는 노드) 또는 Nk가 블록(i+1)에 있으면, 노드로의 오프셋 Nj= Nk+Nb-Nj(여기서, Nb는 블록(i)에서의 노드수)
링크(k)와 연관된 음소
- 단어 링크(l) l = 0, 1, 2, ...
노드로의 오프셋 Nj= Ni-Nj(Nj는 링크 l이 확장되는 노드) 또는 Nk가 블록(i+1)에 있으면, 노드로의 오프셋 Nj= Nk+Nb-Nj(여기서, Nb는 블록(i)에서의 노드수)
링크(l)와 연관된 단어.
헤더에서의 데이터 시작 시간은 데이터의 전송 시간 및 날짜를 식별할 수 있다. 예를 들어, 비디오 파일이 뉴스 방송이면, 시작 시간은 이것이 방송된 정확한 방송 시간 및 날짜를 포함할 수 있다.
데이터베이스내의 모든 데이터 파일이 상기에 논의된 조합 음소 및 단어 격자 주석 데이터를 포함하는 것은 아니므로, 주석 데이터가 단어 주석 데이터인가,음소 주석 데이터인가, 또는 혼합된 것인가를 식별하는 플래그가 제공되고, 이 경우에는 이 주석 데이터를 검색하는데 다른 검색 전략이 사용된다.
본 실시예에서는 소정의 오디오 데이터 스트림에 대해 검색이 주석 데이터 중간으로 점프되도록 허용하기 위해 주석 데이터가 블록으로 나뉜다. 그러므로, 헤더는 메모리내의 주석 데이터 블록의 위치를 시작 시간 및 블록의 시작에 대응하는 시간 사이의 소정의 시간 오프셋에 연관시키는 시간 인덱스를 포함한다.
헤더는 또한 사용되는 단어 세트(즉, 사전), 사용되는 음소 세트, 및 어휘가 속하는 언어를 정의하는 데이터를 포함한다. 헤더는 또한 주석 데이터를 발생하는 동안 사용된 적절한 설정 및 주석 데이터를 발생하는데 사용된 자동 음성 인식 시스템의 상세한 내용을 포함할 수 있다.
주석 데이터의 블록은 헤더에 이어서 블록내의 각 노드에 대해, 블록 시작으로부터의 노드의 시간 오프셋, 음소에 의해 그 노드를 다른 노드에 연결시키는 음소 링크, 및 단어에 의해 그 노드를 다른 노드에 연결시키는 단어 링크를 식별한다. 각 음소 링크 및 단어 링크는 링크와 연관된 음소 또는 단어를 식별한다. 이들은 또한 현재 노드에 대한 오프셋을 식별한다. 예를 들어, 노드 N50이 음소 링크에 의해 노드 N55에 연결되면, 노드 N50에 대한 오프셋은 5이다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 이와 같은 오프셋 표시를 사용하면, 연속적인 주석 데이터가 분리된 블록으로 나뉘도록 허용된다.
자동 음성 인식 유닛이 음성 인식 유닛 출력에 대한 신뢰도를 나타내는 가중치를 출력하는 실시예에서는 이러한 가중치 또는 신뢰도 스코어가 또한 데이터 구조내에 포함된다. 특별히, 각 노드에 대해 노드에 도착되는 신뢰도를 나타내는 신뢰도 스코어가 제공되고, 음소 및 단어 링크 각각은 대응하는 음소 또는 단어에 주어진 가중치에 따라 전이 스코어를 포함하게 된다. 이러한 가중치는 낮은 신뢰도 스코어를 갖는 정합을 없애버림으로서 데이터 파일의 검색 및 검색을 제어하는데 사용된다.
데이터 파일 검색
도 5는 데이터베이스(29)로부터 주석 처리된 데이터 파일을 검색하는데 사용될 수 있는 사용자 단말기(59)의 형태를 설명하는 블록도이다. 이 사용자 단말기(59)는 예를 들어, 개인용 컴퓨터, 휴대용 디바이스 등이 될 수 있다. 도시된 바와 같이, 본 실시예에서는 사용자 단말기(59)가 주석 처리된 데이터 파일의 데이터베이스(29), 자동 음성 인식 유닛(51), 검색 엔진(53), 제어 유닛(55), 및 디스플레이를 구비한다. 동작시, 자동 음성 인식 유닛(51)은 마이크로폰(7) 및 입력선(61)을 통해 수신되는 사용자(39)로부터 입력된 음성 문의를 처리하고, 그로부터 대응하는 음소 및 단어 데이터를 발생하도록 동작될 수 있다. 이 데이터는 또한 음소 및 단어 격자의 형태를 취할 수 있지만, 이것이 필수적인 것은 아니다. 이 음소 및 단어 데이터는 이어서 검색 엔진(53)을 사용하여 데이터베이스(29)의 적절한 검색을 초기화하도록 동작가능한 제어 유닛(55)에 입력된다. 검색 엔진(53)에 의해 발생되는 검색의 결과는 이어서 검색 결과를 분석하고 적절한 디스플레이 데이터를 발생하여 디스플레이(57)를 통해 사용자에게 디스플레이하도록제어 유닛(55)으로 다시 전송된다.
도 6a 및 도 6b는 본 실시예에서 사용자 단말기(59)가 동작하는 방법을 설명하는 흐름도이다. 단계(s1)에서, 사용자 단말기(59)는 아이들(idle) 상태로, 사용자(39)로부터의 입력 문의를 대기한다. 입력 문의를 수신하면, 단계(s3)에서는 자동 음성 인식 유닛(51)으로 입력 문의에 대한 음소 및 단어 데이터가 발생된다. 이어서, 제어 유닛(55)은 단계(s5)에서 입력 문의에 대해 발생된 단어 데이터를 사용하여 데이터베이스(29)에서 검색을 실행하도록 검색 엔진(53)에 명령한다. 본 실시예에서 사용되는 단어 검색은 타이프된 키워드(keyword) 검색으로 종래 기술에서 기존에 사용되고 있는 것과 똑같으므로, 여기서는 더 상세히 설명되지 않는다. 단계(s7)에서, 검색 결과로부터 사용자의 입력 문의에 대한 정합이 발견되는 것으로 제어 유닛(55)이 식별하면, 제어 유닛(55)은 디스플레이(57)를 통해 사용자에게 검색 결과를 출력한다.
본 실시예에서, 사용자 단말기(59)는 이어서 사용자가 검색 결과를 고려하도록 허용하고, 그 결과가 사용자에 의해 요구된 정보에 대응하는가 여부에 대한 사용자의 확답을 대기한다. 그러한 경우, 처리는 단계(s11)에서 처리 종료로 진행되고, 사용자 단말기(59)는 아이들 상태로 복귀되어 다음 입력 문의를 대기한다. 그러나, 검색 결과가 원하는 정보에 대응하지 않는 것으로 사용자가 나타내면(예를 들어, 적절한 음성 명령을 입력함으로서), 처리는 단계(s11)에서 단계(s13)로 진행되어, 검색 엔진(53)이 데이터베이스(29)의 음소 검색을 실행한다. 그러나, 본 실시예에서는 단계(s13)에서 실행되는 음소 검색이 데이터베이스(29)의 크기에 따라수 시간이 걸리므로, 전체 데이터베이스(29)를 검색하지는 않는다.
대신에, 단계(s13)에서 실행되는 음소 검색은 단계(s5)에서 실행된 단어 검색의 결과를 사용하여, 사용자의 입력 문의에 대응하는 데이터베이스내의 하나 이상의 일부분을 식별한다. 단계(s13)에서 실행되는 음소 검색이 본 실시예에서 실행되는 방법은 추후 보다 상세히 설명된다. 음소 검색이 실행된 이후에, 제어 유닛(55)은 단계(s15)에서 정합이 발견되었나를 식별한다. 정합이 발견되었으면, 처리 과정은 단계(s17)로 진행되고, 제어 유닛(55)은 검색 결과가 디스플레이(57)를 통해 사용자에게 디스플레이되게 한다. 다시, 시스템은 검색 결과가 원하는 정보에 대응하는가 여부에 대한 사용자의 확답을 대기한다. 결과가 정확하면, 처리는 단계(s19)에서 종료로 전해지고, 사용자 단말기(59)는 아이들 상태로 복귀되어 다음 입력 문의를 대기한다. 그러나, 검색 결과가 원하는 정보에 대응하지 않는 것으로 사용자가 나타내면, 처리는 단계(s19)에서 단계(s21)로 진행되고, 제어 유닛(55)은 디스플레이(57)를 통해 음소 검색이 전체 데이터베이스(29)에 실행되어야 하는가 여부를 사용자에게 묻도록 동작될 수 있다. 이 문의에 응답하여, 이러한 검색이 실행되어야 하는 것으로 사용자가 나타내면, 처리는 단계(s23)로 진행되어, 검색 엔진이 전체 데이터베이스(29)의 음소 검색을 실행한다.
이 검색이 완료되면, 제어 유닛(55)은 단계(s25)에서 사용자의 입력 문의에 대한 정합이 발견되었나 여부를 식별한다. 정합이 발견되면, 처리는 단계(s27)로 진행되고, 제어 유닛(55)은 검색 결과가 디스플레이(57)를 통해 사용자에게 디스플레이되게 한다. 검색 결과가 정확하면, 처리는 단계(s29)에서 처리 종료로 진행되고, 사용자 단말기(59)는 아이들 상태로 복귀되어 다음 입력 문의를 대기한다. 한편, 검색 결과가 아직까지 원하는 정보에 대응하지 않는 것으로 사용자가 나타내면, 처리는 단계(s31)로 진행되고, 제어기 유닛(55)은 디스플레이(57)를 통해 사용자가 검색 문의를 재정의하거나 수정하길 원하는가 여부를 사용자에게 문의한다. 사용자가 검색 문의를 재정의하거나 수정하길 원하면, 처리는 단계(s3)로 복귀되어, 사용자의 이어지는 입력 문의가 유사한 방식으로 처리된다. 검색이 재정의되거나 수정되지 않으면, 검색 결과 및 사용자의 초기 입력 문의는 없어지고, 사용자 단말기(59)는 아이들 상태로 복귀되어 다음 입력 문의를 대기한다.
음소 검색
상기에 기술된 바와 같이, 단계(s13, s23)에서, 검색 엔진(53)은 입력 문의의 음소 데이터를 데이터베이스(29)에 저장된 음소 및 단어 격자 주석 데이터의 음소 데이터와 비교한다. 이러한 비교를 실행하는데는 동적 프로그래밍과 같은 표준적인 패턴 정합 기술을 포함하여 다양한 기술이 사용될 수 있다. 본 실시예에서는 M-GRAMS를 참고하는 기술이 사용된다. 이 기술은 Ng, K. 및 Zue, V.M.에 의해 제안되었고, 예를 들어 Eurospeech 1997 진행시 발표된 "발성된 문서 검색에 대한 서브워드 유닛 표시(Subword unit representations for spoken document retrieval)"명의 논문에서 논의된다.
각 음소를 검색하는데 있어서의 문제점은 데이터베이스내에 각 음소의 발생이 많다는 점이다. 그러므로, 자체의 각 음소는 입력 문의의 음소 스트링을 데이터베이스내의 음소 스트링과 정합시키기에 충분한 판별력을 제공하지 못한다. 그러나, 음절(syllable) 크기의 유닛은 비록 식별하는데 쉽지는 않지만 더 나은 판별력을 제공할 수 있다. M-GRAM 기술은 이들 두 가능성 사이에 적절한 절충안을 제시하여, 특성 세트를 제시하도록 음소 스트링의 오버랩되는 고정 크기의 일부분 또는 M-GRAMS를 취한다. 이는 4개의 M-GRAMS(a, b, c),(b, c, d),(c, d, e), 및(d, e, f)로 분할되는 음소 a, b, c, d, e, 및 f를 갖는 입력 음소 스트링 일부를 도시하는 도 8에서 설명된다. 이 도면에서, 4개의 M-GRAMS 각각은 유일한 3개의 음소 시퀀스를 구비하고, 입력 음소 스트링내에서 발견될 수 있는 유일한 특성(fi)을 나타낸다.
그러므로, 도 7을 참고로, 도 6에 도시된 단계(s13)에서 음소 검색을 실행할 때의 제1 단계(s51)는 입력 음소 데이터에 있는 다른 M-GRAMS 모두와 그들의 발생 빈도를 식별하는 것이다. 단계(s53)에서는 검색 엔진(53)이 데이터베이스 중 선택된 부분에서(도 6의 단계(s5)에서 실행되는 단어 검색으로부터 식별되는) 식별된 M-GRAMS의 발생 빈도를 결정한다. 이를 설명하기 위해, 데이터베이스 중 소정의 일부와 도 8에서 설명되는 M-GRAMS의 예에 대해, 이는 다음의 정보 도표 1을 산출한다.
M-GRAM(특성(fi)) 입력 음소 스트링의 발생 빈도 데이터베이스 중 선택된 일부분의 음소 스트링
M1 1 0
M2 2 2
M3 3 2
M4 1 1
다음 단계(s55)에서, 검색 엔진(53)은 입력 문의의 음소 스트링과 데이터베이스로부터 선택된 일부분의 음소 스트링 사이의 유사성을 나타내는 유사성 스코어를 계산한다. 본 실시예에서, 이 유사성 스코어는 입력 문의 및 데이터베이스 중 선택된 일부분에서 식별된 M-GRAMS의 발생 빈도를 사용하는 코싸인 측정을 사용하여 벡터로 결정된다. 이 기술에 대한 원리는 입력 음소 스트링이 데이터베이스 음소 스트링 중 선택된 일부와 유사하면, M-GRAM 특성의 발생 빈도는 두 음소 스트링에 대해 유사해진다는 것이다. 그러므로, M-GRAMS의 발생 빈도가 벡터인 것으로 생각되고(즉, 상기 도표에서 두번째 및 세번째 열(column)이 벡터로 생각되고), 입력 음소 스트링과 데이터베이스 중 선택된 일부 사이에 유사성이 있으면, 이들 벡터 사이의 각도는 작아야 한다. 이는 도 9에서 2차원 벡터ag에 대해 설명되고, 그 벡터들 사이의 각도는 θ로 주어진다. 도 8에 도시된 예에서, 벡터ag는 4차원 벡터가 되고, 유사성 스코어는 다음 수학식 1로부터 계산될 수 있다:
이 스코어는 이어서 검색이 종료될 때까지 데이터베이스 중 현재 선택된 일부와 연관되어 저장된다. 일부 응용에서는 코싸인 특정의 계산에서 사용된 벡터가 발생 빈도 자체 보다는 발생 빈도의 로그값이 된다.
처리는 이어서 단계(s57)로 진행되어, 검색 엔진(53)이 데이터베이스(29)로부터 선택된 음소 스트링의 일부분이 더 있는가 여부를 식별한다. 있는 경우, 처리는 단계(s53)로 복귀되어, 이 부분의 데이터베이스에 대해 스코어를 식별하도록유사한 처리가 이어진다. 선택된 일부분이 더 없는 경우, 검색은 종료되고, 처리는 도 6에 도시된 단계(s15)로 복귀되어, 제어 유닛이 검색 엔진(53)에 의해 발생된 스코어를 고려하고, 예를 들어 계산된 스코어를 소정의 한계값과 비교함으로서 정합이 있는가 여부를 식별한다.
종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 도 6의 단계(s23)에서는 유사한 정합 동작이 실행된다. 그러나, 전체 데이터베이스가 검색되고 있으므로, 이러한 검색은 차례로 상기에 논의된 블록 각각을 검색함으로서 실행된다.
다른 방법의 실시예
종래 기술에 숙련된 자가 이해할 바와 같이, 데이터베이스에서 데이터 파일의 이러한 종류의 음소 및 단어 주석은 사용자가 음성으로 데이터베이스를 검색하도록 허용하는데 편리하고 강력한 방법을 제공한다. 설명되는 실시예에서는 단일 오디오 데이터 스트림에 주석이 부여되고, 사용자에 의해 다음에 검색되도록 데이터베이스에 저장된다. 종래 기술에 숙련된 자가 이해할 바와 같이, 입력 데이터 파일이 비디오 데이터 파일에 대응할 때, 데이터 파일내의 오디오 데이터는 통상적으로 다른 발성자의 오디오 데이터를 포함하게 된다. 오디오 데이터에 대해 단일 스트림의 주석 데이터를 발생하는 대신에, 각 발성자의 오디오 데이터에 대해 분리된 음소 및 단어 격자 주석 데이터가 발생될 수 있다. 이는 피치(pitch)로부터 또는 음성 신호의 또 다른 구별 특성으로부터 각 음성자에 대응하는 오디오 데이터를 식별하고, 이어서 다른 발성자의 오디오에 분리하여 주석 처리를 함으로서 이루어질 수 있다. 이는 또한 오디오 데이터를 처리하여 각 발성자에 대해 데이터를 추출하는 것이 가능하므로, 오디오 데이터가 스테레오에 기록된 경우 또는 마이크로폰의 어레이가 오디오 데이터를 발생하는데 사용된 경우 이루어질 수 있다.
도 10은 이러한 실시예에서 주석 데이터의 형태를 설명하고, 여기서 제1 발성자는 "... this so"라 말하고, 제2 발성자는 "yes"라 응답한다. 설명된 바와 같이, 다른 발성자의 오디오 데이터에 대한 주석 데이터는 서로에 대해 시간 동기화되므로, 주석 데이터도 데이터 파일내에서 비디오 및 오디오 데이터에 시간 동기화된다. 이러한 실시예에서, 데이터 구조의 헤더 정보는 바람직하게 주석 데이터내에서 다른 발성자의 리스트를 포함하고, 각 발성자에 대해 발성자의 언어, 엑센트, 사투리, 및 발음 설정을 정의하는 데이터와 각 블록이 블록에서 활성중인 발성자를 식별하여야 한다.
상기 실시예에서는 음성 인식 시스템이 데이터베이스에서 데이터 파일에 주석을 달기 위한 주석 데이터를 발생하는데 사용되었다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 이 주석 데이터를 발생하는데는 다른 기술이 사용될 수 있다. 예를 들면, 사람이 오디오 데이터를 듣고 음성 및 단어 사본을 발생하여, 그에 의해 수동적으로 주석 데이터를 발생할 수 있다.
상기 실시예에서, 주석 데이터는 데이터 파일 자체에 저장된 오디오로부터 발생되었다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 주석 데이터를 입력하는데는 다른 기술이 사용될 수 있다. 도 11은 데이터베이스(29)에 저장된 데이터 파일(91)에 주석 처리하기 위해 마이크로폰(7)을 통해 사용자가 음성 주석 데이터를 입력하도록 허용하는 사용자 단말기(59)의 형태를 설명한다. 본 실시예에서, 데이터 파일(91)은 예를 들어, 카메라에 의해 발생된 2차원 영상을 구비한다. 사용자 단말기(59)는 사용자(39)가 이후에 데이터베이스(29)로부터 2D 영상을 검색하는데 사용될 수 있는 적절한 주석으로 2D 영상에 주석 처리하도록 허용한다. 본 실시예에서는 입력 음성 주석 신호가 자동 음성 인식 유닛(51)에 의해 음소 및 단어 격자 주석 데이터로 변환되어, 제어 유닛(55)에 전해진다. 사용자 입력에 응답하여, 제어 유닛(55)은 데이터베이스(29)로부터 적절한 2D 파일을 검색하고, 데이터 파일(91)에 음소 및 단어 주석 데이터를 첨부한다. 증대된 데이터 파일은 이어서 데이터베이스(29)에 복귀된다. 이 주석 처리 단계 동안, 제어 유닛(55)은 주석 데이터가 정확한 데이터 파일(91)과 연관됨을 사용자가 확실할 수 있도록 디스플레이(57)상에 2D 영상을 디스플레이하게 동작할 수 있다.
자동 음성 인식 유닛(51)은(i) 입력된 발성에 대해 음소 격자를 발생시키고;(ii) 음소 격자내에서 단어를 식별하고; 또한(iii) 마지막으로 이들 둘을 조합함으로서 음소 및 단어 격자 주석 데이터를 발생한다. 도 12는 입력 발성 "picture of the Taj-Mahal"에 대해 발생된 음소 및 단어 격자 주석 데이터의 형태를 설명한다. 도시된 바와 같이, 자동 음성 인식 유닛은 이 입력 발성에 대응하는 다수의 다른 가능한 음소 스트링을 식별한다. 도 12에 도시된 바와 같이, 자동 음성 인식 유닛(51)이 음소 격자내에서 식별하는 단어는 음소 격자 데이터 구조에 포함된다. 도시된 바와 같이, 예로 주어진 문구에서, 자동 음성 인식 유닛(51)은 단어 "picture", "of", "off", "the", "other", "ta", "tar", "jam", "ah", "hal", "ha", 및 "al"을 식별한다. 제어 유닛(55)은 이어서 데이터베이스에 저장된 2D 영상 데이터 파일(91)에 이 주석 데이터를 부가하도록 동작가능하다.
종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 본 실시예는 환자의 x-레이, 예를 들어 NMR 주사, 초음파 주사의 3D 비디오와 같은 임의의 종류의 영상에 주석을 다는데 사용될 수 있다. 또한, 이는 오디오 데이터나 지진 데이터와 같은 1차원 데이터에 주석을 다는데 사용될 수 있다.
상기 실시예에서는 데이터 파일이 말로 주어지는 주석으로부터 주석 처리되었다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 주석을 입력하는데는 다른 기술이 사용될 수 있다. 예를 들어, 도 13은 데이터베이스(29)에 저장된 데이터 파일(91)에 주석 처리하기 위해 사용자가 키보드(3)를 통해 타이프된 주석 데이터를 입력하도록 허용하는 사용자 단말기(59)의 형태를 설명한다. 본 실시예에서는 타이프된 입력이 음성 사본 유닛(75)에 의해 음소 및 단어 격자 주석 데이터(내부 음성 사전(도시되지 않은)을 사용하여)로 변환되어, 제어 유닛(55)에 전해진다. 사용자의 입력에 응답하여, 제어 유닛(55)은 데이터베이스(29)로부터 적절한 2D 파일을 검색하고, 데이터 파일(91)에 음소 및 단어 주석 데이터를 첨부한다. 증대된 데이터 파일은 이어서 데이터베이스(29)로 복귀된다. 이 주석 처리 단계 동안, 제어 유닛(55)은 주석 데이터가 정확한 데이터 파일(91)과 연관됨을 사용자가 확실할 수 있도록 디스플레이(57)상에 2D 영상을 디스플레이하도록 동작할 수 있다.
도 14는 입력 발성 "picture of the Taj-Mahal"에 대해 발생된 음소 및 단어 격자 주석 데이터의 형태를 설명한다. 도 2에 도시된 바와 같이, 음소 및 단어 격자는 단일 입구점 및 단일 출구점을 갖는 비순환 지향적 그래프이다. 이는 사용자 입력의 다른 해석을 나타낸다. 도시된 바와 같이, 음성 사본 유닛(75)은 타이프된 입력에 대응하는 다수의 다른 가능한 음소 스트링을 식별한다.
도 15는 문서 주석 시스템을 설명하는 블록도이다. 특히, 도 15에 도시된 바와 같이, 텍스트 문서(101)는 문서 스캐너(scanner)(103)에 의해 영상 데이터 파일로 변환된다. 영상 데이터 파일은 이어서 문서(101)의 영상 데이터를 전자 텍스트로 변환하는 광학 문자 인식(optical character recognition, OCR) 유닛(105)에 전달된다. 이 전자 텍스트는 데이터 파일(111)을 형성하도록 스캐너(103)에 의해 출력된 영상 데이터에 첨부되는 음소 및 단어 주석 데이터(109)를 발생하게 동작할 수 있는 음성 사본 유닛(107)에 공급된다. 도시된 바와 같이, 데이터 파일(111)은 다음에 이어서 검색되도록 데이터베이스(29)에 저장된다. 본 실시예에서, 주석 데이터(109)는 사용자가 음성 문의에 의해 데이터베이스(29)로부터 데이터 파일(111)을 다음에 이어서 검색하도록 허용하는 상기의 조합된 음소 및 단어 격자를 구비한다.
도 16은 도 15에 도시된 문서 주석 시스템에 대한 수정을 설명한다. 도 16에 도시된 시스템과 도 15에 도시된 시스템 사이의 차이는 스캐너(103)에 의해 출력되는 영상 데이터 보다, 광학 문자 인식 유닛(105)의 출력이 데이터 파일(1113)을 발생하는데 사용된다는 점이다. 도 16에 도시된 시스템의 나머지는 도 15에 도시된 것과 똑같으므로, 더 이상 설명되지 않는다.
도 17은 도 15에 도시된 문서 주석 시스템에 대한 또 다른 수정을 도시한다.도 17에 도시된 시스템에서는 입력 문서가 스캐너(103) 보다는 팩시밀리 유닛(115)에 의해 수신된다. 팩시밀리 유닛에 의해 출력되는 영상 데이터는 이어서 도 15에 도시된 스캐너(103)에 의해 출력되는 영상 데이터와 똑같은 방식으로 처리되므로, 다시 설명되지 않는다.
상기의 실시예에서는 음성 사본 유닛(107)이 영상 또는 텍스트 데이터에 주석 처리를 하기 위한 주석 데이터를 발생하는데 사용되었다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 다른 기술이 사용될 수 있다. 예를 들면, 사람이 문서 자체의 영상으로부터 이 주석 데이터를 수동적으로 발생시킬 수 있다.
상기 실시예에서는 데이터베이스(29) 및 자동 음성 인식 유닛이 모두 사용자 단말기(59)내에 위치하였다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 이는 필수적인 것이 아니다. 도 18은 데이터베이스(29) 및 검색 엔진(53)이 원격 서버(60)에 위치하고, 사용자 단말기(59)가 네트워크 인터페이스 유닛(67, 69) 및 데이터 네트워크(68)(인터넷과 같은)를 통해 데이터베이스(29)내의 데이터 파일을 억세스 및 제어하는 실시예를 설명한다. 동작시, 사용자는 마이크로폰(7)을 통해 음성 문의를 입력하고, 이는 자동 음성 인식 유닛(51)에 의해 음소 및 단어 데이터로 변환된다. 이 데이터는 데이터 네트워크(68)를 통해 원격 서버(60)내에 위치하는 검색 엔진(53)으로 이 음소 및 단어 데이터를 전송하는 것을 제어하는 제어 유닛에 전달된다. 검색 엔진(53)은 이어서 수신된 음소 및 단어 데이터에 따라 검색을 실행하거나, 수신된 음소 및 단어 데이터에 따라 데이터 파일의 조작을 제어한다(예를 들면, 비디오 파일의 재생, 빨리감기, 또는 되감기를 제어하기 위해). 데이터베이스(29)로부터 검색된 데이터 또는 검색에 관련된 다른 데이터는 데이터 네트워크(68)를 통해 제어 유닛(55)에 다시 전송되고, 제어 유닛(55)은 사용자(39)가 볼 수 있도록 디스플레이(57)상에서 적절한 데이터의 디스플레이를 제어한다. 이 방법으로, 서버에서 주요 컴퓨터 자원을 사용하지 않고 원격 서버(60)에서 데이터 파일을 검색 및 제어하는 것이 가능하다(입력 음성을 음소 및 단어 데이터로 변환하는 것이 바로 사용자 단말기(59)이므로).
데이터베이스(29) 및 탐색 엔진(53)을 원격 서버(60)에 위치시키는 것에 부가하여, 자동 음성 인식 유닛(51)을 원격 서버(60)에 위치시키는 것이 또한 가능하다. 이러한 실시예는 도 19에 도시된다. 본 실시예에 도시된 바와 같이, 사용자로부터 입력된 음성 문의는 데이터 네트워크(68)를 통해 효과적으로 전달되도록 음성을 부호화하게 동작할 수 있는 음성 부호화 유닛(73)에 입력선(61)을 통해 전해진다. 부호화된 데이터는 이어서 네트워크(68)를 통해 원격 서버(60)에 데이터를 전송하는 제어 유닛(55)에 전해지고, 여기서 자동 음성 인식 유닛(51)에 의해 처리된다. 입력 문의에 대해 음성 인식 유닛(51)으로 발생된 음소 및 단어 데이터는 데이터베이스(29)에서 데이터 파일을 검색하고 제어하는데 사용되도록 검색 엔진(53)에 전해진다. 검색 엔진(53)에 의해 검색된 적절한 데이터는 이어서 네트워크 인터페이스(69) 및 네트워크(68)를 통해 다시 사용자 단자(59)에 전해진다. 원격 서버로부터 다시 수신된 이 데이터는 네트워크 인터페이스 유닛(67)을 통해 제어 유닛(55)에 전해지고, 제어 유닛(55)은 사용자가 볼 수 있도록 디스플레이(57)상에 적절한 데이터를 발생하여 디스플레이한다.
상기 실시예에서는 사용자가 그 문의를 음성으로 입력한다. 도 20은 사용자가 문의를 키보드(3)를 통해 입력하는 다른 실시예를 도시한다. 도시된 바와 같이, 키보드(3)를 통해 입력된 텍스트는 입력 텍스트로부터 대응하는 음소 스트링을 발생하도록 동작할 수 있는 음성 사본 유닛(75)에 전해진다. 키보드(3)를 통해 입력된 단어와 함께 이 음소 스트링은 이어서 제어 유닛(55)에 전해지고, 이는 검색 엔진(53)을 사용하여 데이터베이스의 검색을 초기화한다. 이 검색이 실행되는 방법은 제1 실시예에서와 똑같으므로, 다시 설명되지 않는다. 상기에 논의된 다른 실시예와 같이, 음성 사본 유닛(75), 검색 엔진(53), 및/또는 데이터베이스(29)는 모두 원격 서버에 위치할 수 있다.
제1 실시예에서는 데이터 파일(31)로부터의 오디오 데이터가 음소 주석 데이터를 발생하기 위해 자동 음성 인식 유닛을 통해 전달되었다. 일부 경우에서, 오디오 데이터의 사본은 데이터 파일에 주어지게 된다. 이러한 실시예는 도 21에 설명된다. 본 실시예에서, 데이터 파일(81)은 비디오 데이터(81-1), 오디오 데이터(81-2), 및 비디오 필름에서 다양한 배우에 대한 대사를 정의하는 스크립 데이터(81-3)를 갖는 디지털 비디오 파일을 나타낸다. 도시된 바와 같이, 스크립 데이터(81-3)는 텍스트 대 음소 변환기(83)를 통과하여, 단어를 가능한 음소 시퀀스로 번역하는 저장 사전을 사용하여 음소 격자 데이터(85)를 발생한다. 이 음소 격자 데이터(85)는 스크립 데이터(81-3)와 조합되어, 상술된 음소 및 단어 격자 주석 데이터(81-4)를 발생한다. 이 주석 데이터는 증대된 데이터 파일(81')을 발생하도록 데이터 파일(81)에 부가되고, 이어서 데이터베이스(29)에 부가된다. 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 본 실시예는 스크립 데이터가 항상 누가 이야기하고 있는가에 대한 표시를 포함하므로, 비디오 데이터 파일내에서 다른 발성자에 대해 분리된 음송 및 단어 격자 주석 데이터를 발생하는 것을 용이하게 한다. 음소 및 단어 격자 주석 데이터를 비디오 및 오디오 데이터와 동기화하는 것은 자동 음성 인식 시스템(도시되지 않은)을 사용하여 오디오 데이터와 스크립 데이터를 명령된 시간에 정렬시킴으로서 이루어질 수 있다.
상기 실시예에서는 음소(또는 음소와 유사한) 및 단어 격자가 데이터 파일을 주석 처리하는데 사용되었다. 음성 인식 및 음성 처리에 대한 종래 기술에 숙련된 자가 이해할 수 있는 바와 같이, 설명 및 청구항에서 "음소(phoneme)"란 말은 그 언어적 의미에 제한되지 않고, 표준적인 음성 인식 시스템에서 식별되고 사용되는 다양한 서브-단어 유닛을 포함한다.

Claims (97)

  1. 음소 및 단어 격자(phoneme and word lattice)를 정의하는 데이터에 있어서:
    격자내에 다수의 노드(node) 및 격자내의 노드를 연결시키는 다수의 링크(link)를 정의하는 데이터;
    다수의 음소를 다수의 링크 각각에 연관시키는 데이터; 및
    적어도 하나의 단어를 상기 링크 중 적어도 하나에 연관시키는 데이터
    를 구비하는 것을 특징으로 하는 데이터.
  2. 제1항에 있어서,
    상기 음소 및 단어 격자를 정의하는 상기 데이터는 노드의 블록(block)에 배열되는 것을 특징으로 하는 데이터.
  3. 제1항에 있어서,
    상기 노드 각각에 대해 시간 스탬프(time stamp) 정보를 정의하는 데이터를 더 구비하는 것을 특징으로 하는 데이터.
  4. 제3항에 있어서,
    똑같은 시간 기간의 블록에 배열되는 것을 특징으로 하는 데이터.
  5. 제2항 또는 제4항 중 한 항에 있어서,
    상기 데이터베이스내에서 각 블록 위치를 정의하는 데이터를 더 구비하는 것을 특징으로 하는 데이터.
  6. 제3항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    음소 및 단어 격자를 정의하는 상기 데이터는 시간 순차 신호를 정의하는 또 다른 데이터와 연관되고, 상기 시간 스탬프 정보는 상기 시간 순차 신호와 시간 동기화되는 것을 특징으로 하는 데이터.
  7. 제6항에 있어서,
    상기 또 다른 데이터는 오디오 및/또는 비디오 신호를 정의하는 것을 특징으로 하는 데이터.
  8. 제7항에 있어서,
    상기 또 다른 데이터는 적어도 음성 데이터를 정의하고, 상기 음소 및 단어 격자를 정의하는 상기 데이터는 상기 또 다른 데이터로부터 유도되는 것을 특징으로 하는 데이터.
  9. 제8항에 있어서,
    상기 음성 데이터는 오디오 데이터를 구비하고, 상기 음소 및 단어 격자를정의하는 상기 데이터는 상기 오디오 신호를 자동 음성 인식 시스템에 통과시킴으로서 유도되는 것을 특징으로 하는 데이터.
  10. 제8항 또는 제9항 중 한 항에 있어서,
    상기 음성 데이터는 다수의 발성자의 말을 정의하고, 상기 데이터는 각 발성자의 말에 대해 분리된 음소 및 단어 격자를 정의하는 것을 특징으로 하는 데이터.
  11. 선행하는 청구항 중 한 항에 있어서,
    상기 링크와 연관된 음소 및/또는 단어에 대해 가중치(weighting)를 정의하는 데이터를 더 구비하는 것을 특징으로 하는 데이터.
  12. 선행하는 청구항 중 한 항에 있어서,
    상기 노드 중 적어도 하나는 다수의 링크에 의해 다수의 다른 노드로 연결되는 것을 특징으로 하는 데이터.
  13. 제12항에 있어서,
    상기 노드를 상기 다수의 다른 노드로 연결시키는 상기 다수의 링크 중 적어도 하나는 한 음소와 연관되고, 상기 노드를 상기 다수의 다른 노드로 연결시키는 상기 링크 중 적어도 하나는 한 단어와 연관되는 것을 특징으로 하는 데이터.
  14. 입력 문의에 응답하여 선행하는 청구항 중 한 항에 따른 데이터를 구비하는 데이터베이스를 검색하는 방법에 있어서:
    입력 문의에 대응하는 음소 데이터 및/또는 단어 데이터를 발생하는 단계;
    입력 문의에 대해 발생된 음소 및/또는 단어 데이터를 사용하여 음소 및 단어 격자를 검색하는 단계; 및
    상기 검색 단계의 결과에 따라 검색 결과를 출력하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 검색 단계는
    (i) 음소 및 단어 격자내에서 유사 단어를 식별하도록 사용자의 입력 문의에 대해 발생된 단어 데이터를 사용하여 음소 및 단어 격자를 검색하는 단계;
    (ii) 상기 단어 검색의 결과에 응답하여 더 검색하도록 음소 및 단어 격자 중 하나 이상의 부분을 선택하는 단계; 및
    (iii) 사용자의 입력 문의에 대해 발생된 음소 데이터를 사용하여 음소 및 단어 격자 중 상기 하나 이상의 선택된 부분을 검색하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  16. 제15항에 있어서,
    단어 검색의 결과는 데이터베이스 중 선택된 부분에 음소 검색이 실행되기이전에 사용자에게 출력되는 것을 특징으로 하는 방법.
  17. 제16항에 있어서,
    상기 음소 검색은 단어 검색으로부터의 결과의 출력에 응답하여 사용자가 더 입력하는 경우에만 그에 응답하여 실행되는 것을 특징으로 하는 방법.
  18. 제15항 내지 제17항 중 한 항에 있어서,
    상기 음소 검색은 사용자의 입력 문의에 대응하는 음소 시퀀스내에서 다수의 특성을 식별하고, 데이터베이스내의 상기 음소 격자를 정의하는 데이터내에서 유사한 특성을 식별함으로서 실행되는 것을 특징으로 하는 방법.
  19. 제18항에 있어서,
    상기 특성 각각은 사용자의 입력 문의에 대한 음소 데이터내에서 음소의 유일한 시퀀스를 나타내는 것을 특징으로 하는 방법.
  20. 제19항에 있어서,
    상기 음소 검색은 사용자의 입력 문의에 대응하는 음소 데이터와 데이터베이스내의 음소 데이터 사이의 유사성을 나타내는데 코싸인 측정을 이용하는 것을 특징으로 하는 방법.
  21. 제14항 내지 제20항 중 한 항에 있어서,
    상기 검색 결과는 디스플레이에 출력되는 것을 특징으로 하는 방법.
  22. 제14항 내지 제21항 중 한 항에 있어서,
    사용자에 의한 상기 입력 문의는 목소리로 입력되고, 음소 데이터 및 단어 데이터를 발생하는 상기 단계는 자동 음성 인식 시스템을 사용하는 것을 특징으로 하는 방법.
  23. 제14항 내지 제21항 중 한 항에 있어서,
    상기 입력 문의는 타이프된 입력이고, 음소 데이터 및 단어 데이터를 발생하는 상기 단계는 텍스트-대-음소 변환기를 이용하는 것을 특징으로 하는 방법.
  24. 입력 문의에 응답하여 제1항 내지 제13항 중 한 항에 따른 데이터를 구비하는 데이터베이스를 검색하는 장치에 있어서:
    입력 문의에 대응하는 음소 데이터 및/또는 단어 데이터를 발생하는 수단;
    입력 문의에 대해 발생된 음소 및/또는 단어 데이터를 사용하여 음소 및 단어 격자를 검색하는 수단; 및
    상기 검색 수단의 결과에 따라 검색 결과를 출력하는 수단
    을 구비하는 것을 특징으로 하는 장치.
  25. 제24항에 있어서,
    상기 검색 수단은
    (i) 음소 및 단어 격자내에서 유사 단어를 식별하도록 사용자의 입력 문의에 대해 발생된 단어 데이터를 사용하여 음소 및 단어 격자를 검색하는 수단;
    (ii) 상기 단어 검색의 결과에 응답하여 더 검색하도록 음소 및 단어 격자 중 하나 이상의 부분을 선택하는 수단; 및
    (iii) 사용자의 입력 문의에 대해 발생된 음소 데이터를 사용하여 음소 및 단어 격자 중 상기 하나 이상의 선택된 부분을 검색하는 수단
    을 구비하는 것을 특징으로 하는 장치.
  26. 제25항에 있어서,
    상기 출력하는 수단은 데이터베이스 중 선택된 부분에 음소 검색이 실행되기 이전에 단어 검색의 결과를 사용자에게 출력하도록 동작할 수 있는 것을 특징으로 하는 장치.
  27. 제26항에 있어서,
    상기 음소 검색은 단어 검색으로부터의 결과의 출력에 응답하여 사용자가 더 입력하는 경우에만 그에 응답하여 실행되는 것을 특징으로 하는 장치.
  28. 제25항 내지 제27항 중 한 항에 있어서,
    상기 음소 검색은 사용자의 입력 문의에 대응하는 음소 시퀀스내에서 다수의 특성을 식별하고, 데이터베이스내의 상기 음소 격자를 정의하는 데이터내에서 유사한 특성을 식별함으로서 실행되는 것을 특징으로 하는 장치.
  29. 제28항에 있어서,
    상기 특성 각각은 사용자의 입력 문의에 대한 음소 데이터내에서 음소의 유일한 시퀀스를 나타내는 것을 특징으로 하는 장치.
  30. 제29항에 있어서,
    상기 음소 검색은 사용자의 입력 문의에 대응하는 음소 데이터와 데이터베이스내의 음소 데이터 사이의 유사성을 나타내는데 코싸인 측정을 이용하는 것을 특징으로 하는 장치.
  31. 제24항 내지 제30항 중 한 항에 있어서,
    상기 출력 수단은 디스플레이를 구비하는 것을 특징으로 하는 장치.
  32. 제24항 내지 제31항 중 한 항에 있어서,
    사용자에 의한 상기 입력 문의는 목소리 문의이고, 음소 데이터 및 단어 데이터를 발생하는 상기 수단은 상기 음소 데이터를 발생하도록 동작할 수 있는 자동 음성 인식 시스템 및 상기 단어 데이터를 발생하도록 동작할 수 있는 단어 디코더를 구비하는 것을 특징으로 하는 장치.
  33. 제24항 내지 제31항 중 한 항에 있어서,
    상기 입력 문의는 타이프된 문의이고, 음소 데이터 및 단어 데이터를 발생하는 상기 수단은 상기 음소 데이터를 발생하도록 동작할 수 있는 텍스트-대-음소 변환기를 구비하는 것을 특징으로 하는 장치.
  34. 오디오 데이터를 구비하는 데이터 파일을 주석 처리하는데 사용되는 주석 데이터(annotation data)를 발생하는 장치에 있어서:
    데이터 파일내의 오디오 데이터에 대한 음소 데이터를 발생하는 자동 음성 인식 시스템;
    자동 음성 인식 시스템에 의해 발생된 음소 데이터내에서 가능한 단어들을 식별하는 단어 디코더; 및
    발생된 음소 데이터와 디코딩된 단어들을 조합함으로서 주석 데이터를 발생하는 발생 수단
    을 구비하는 것을 특징으로 하는 장치.
  35. 텍스트 데이터를 구비하는 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 장치에 있어서:
    데이터 파일내의 텍스트 데이터에 대한 음소 데이터를 발생하는 텍스트 대음소 변환기; 및
    텍스트 데이터내의 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 발생 수단
    을 구비하는 것을 특징으로 하는 장치.
  36. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 장치에 있어서:
    입력 음성 신호를 수신하는 입력 수단;
    입력 음성 신호를 음소 데이터 및 단어로 변환하는 음성 인식 수단; 및
    음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 발생 수단
    을 구비하는 것을 특징으로 하는 장치.
  37. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 장치에 있어서:
    사용자로부터 타이프된 입력을 수신하는 입력 수단;
    타이프된 입력내의 단어들을 음소 데이터로 변환하는 변환 수단; 및
    타이프된 입력에서 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 발생 수단
    을 구비하는 것을 특징으로 하는 장치.
  38. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 장치에 있어서:
    텍스트를 나타내는 영상 데이터를 수신하는 수단;
    상기 영상 데이터를 텍스트 데이터로 변환하는 문자 인식 수단;
    텍스트 데이터의 단어들을 음소 데이터로 변환하는 변환 수단; 및
    텍스트 데이터에서의 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 발생 수단
    을 구비하는 것을 특징으로 하는 장치.
  39. 제34항 내지 제38항 중 한 항에 있어서,
    상기 주석 데이터는 음소 및 단어 격자를 정의하고, 상기 발생 수단은:
    (i) 격자내에 다수의 노드 및 격자내의 노드를 연결시키는 다수의 링크를 정의하는 데이터를 발생하는 수단;
    (ii) 음소 데이터의 다수의 음소를 다수의 링크 각각에 연관시키는 데이터를 발생하는 수단; 및
    (iii) 적어도 하나의 단어를 상기 링크 중 적어도 하나에 연관시키는 데이터를 발생하는 수단
    을 구비하는 것을 특징으로 하는 장치.
  40. 제39항에 있어서,
    상기 발생 수단은 상기 노드의 블록에 상기 음소 및 단어 격자를 정의하는 상기 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  41. 제39항 또는 제40항 중 한 항에 있어서,
    상기 발생 수단은 상기 노드 각각에 대해 시간 스탬프 정보를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  42. 제41항에 있어서,
    상기 발생 수단은 똑같은 시간 기간의 블록에 상기 음소 및 단어 격자 데이터를 발생하도록 배열되는 것을 특징으로 하는 장치.
  43. 제40항, 제41항, 또는 제42항 중 한 항에 있어서,
    상기 발생 수단은 데이터베이스내에서 각 블록의 위치를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  44. 제41항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 데이터 파일은 시간 시퀀스 신호를 포함하고, 상기 발생 수단은 상기 시간 시퀀스 신호와 시간 동기화되는 시간 스탬프 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  45. 제44항에 있어서,
    상기 시간 시퀀스 신호는 오디오 및/또는 비디오 신호인 것을 특징으로 하는 장치.
  46. 제34항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 오디오 데이터는 다수의 발성자의 말을 정의하는 오디오 데이터를 포함하고, 상기 발생 수단은 각 발성자의 말에 대해 분리된 음소 및 단어 주석 데이터를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  47. 제35항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 텍스트 데이터는 다수의 발성자의 말을 정의하고, 상기 발생하는 수단은 각 발성자의 말에 대해 분리된 음소 및 단어 주석 데이터를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  48. 제34항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 음성 인식 시스템은 음소 데이터의 음소들에 대해 가중치를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  49. 제34항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 단어 디코더는 상기 음소 데이터내에서 식별된 단어들에 대해 가중치를정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  50. 제39항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    다수의 노드 및 다수의 링크를 정의하는 데이터를 발생하는 상기 수단은 다수의 링크에 의해 다수의 다른 노드에 연결되는 적어도 하나의 노드를 정의하도록 동작할 수 있는 것을 특징으로 하는 장치.
  51. 제50항에 있어서,
    상기 노드를 상기 다수의 다른 노드에 연결시키는 상기 다수의 링크 중 적어도 하나는 한 음소와 연관되고, 상기 노드를 상기 다수의 다른 노드에 연결시키는 상기 링크 중 적어도 하나는 한 단어와 연관되는 것을 특징으로 하는 장치.
  52. 제36항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 음성 인식 수단은 음소 데이터의 음소들에 대해 가중치를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  53. 제52항에 있어서,
    상기 음성 인식 수단은 단어 데이터내의 단어들에 대해 가중치를 정의하는 데이터를 발생하도록 동작할 수 있는 것을 특징으로 하는 장치.
  54. 제36항이나 제37항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 주석 데이터를 상기 데이터 파일과 연관시키는 수단을 더 구비하는 것을 특징으로 하는 장치.
  55. 제37항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 변환 수단은 타이프된 입력내의 단어들로부터 상기 음소 데이터를 발생하는 자동 음성 사본 유닛(phonetic transcription unit)을 구비하는 것을 특징으로 하는 장치.
  56. 제38항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 변환 수단은 상기 문자 인식 수단에 의해 출력된 텍스트 데이터내의 단어들로부터 상기 음소 데이터를 발생하는 자동 음성 사본 유닛을 구비하는 것을 특징으로 하는 장치.
  57. 제38항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 텍스트를 나타내는 상기 영상 데이터나 상기 텍스트 데이터와 상기 주석 데이터를 연관시키는 수단을 더 구비하는 것을 특징으로 하는 장치.
  58. 제38항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 수신하는 수단은 문서 스캐너(scanner) 또는 팩시밀리 기계를 구비하는것을 특징으로 하는 장치.
  59. 오디오 데이터를 구비하는 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 방법에 있어서:
    데이터 파일의 오디오 데이터에 대해 음소 데이터를 발생하는데 자동 음성 인식 시스템을 사용하는 단계;
    자동 음성 인식 시스템에 의해 발생된 음소 데이터내에서 가능한 단어들을 식별하는데 단어 디코더를 사용하는 단계; 및
    발생된 음소 데이터와 디코딩된 단어들을 조합함으로서 주석 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  60. 텍스트 데이터를 구비하는 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 방법에 있어서:
    데이터 파일의 텍스트 데이터에 대한 음소 데이터를 발생하는데 텍스트 대 음소 변환기를 사용하는 단계; 및
    텍스트 데이터내의 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  61. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 방법에 있어서:
    입력 음성 신호를 수신하는 단계;
    입력 음성 신호에 대한 음소 데이터 및 단어 데이터를 발생하는데 음성 인식 시스템을 사용하여 입력 음성 신호를 처리하는 단계; 및
    입력 음성 신호에 대해 발생된 음소 데이터와 단어 데이터를 조합함으로서 주석 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  62. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 방법에 있어서:
    타이프된 입력을 수신하는 단계;
    타이프된 입력내의 단어들을 음소 데이터로 변환하는 단계; 및
    타이프된 입력에서 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  63. 데이터 파일을 주석 처리하는데 사용되는 주석 데이터를 발생하는 방법에 있어서:
    텍스트를 나타내는 영상 데이터를 수신하는 단계;
    문자 인식 유닛을 사용하여 상기 영상 데이터를 텍스트 데이터로 변환하는 단계;
    텍스트 데이터의 단어들을 음소 데이터로 변환하는 단계; 및
    텍스트 데이터내의 음소 데이터와 단어들을 조합함으로서 주석 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  64. 제59항 내지 제63항 중 한 항에 있어서,
    상기 주석 데이터는 음소 및 단어 격자를 정의하고, 상기 발생 단계는:
    (i) 격자내에 다수의 노드 및 격자내의 노드를 연결시키는 다수의 링크를 정의하는 데이터를 발생하는 단계;
    (ii) 음소 데이터의 다수의 음소를 다수의 링크 각각에 연관시키는 데이터를 발생하는 단계; 및
    (iii) 적어도 하나의 단어를 상기 링크 중 적어도 하나에 연관시키는 데이터를 발생하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  65. 제64항에 있어서,
    상기 발생 단계는 상기 노드의 블록에 상기 음소 및 단어 격자를 정의하는 상기 데이터를 발생하는 것을 특징으로 하는 방법.
  66. 제64항 또는 제65항 중 한 항에 있어서,
    상기 발생 단계는 상기 노드 각각에 대해 시간 스탬프 정보를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  67. 제66항에 있어서,
    상기 발생 단계는 똑같은 시간 기간의 블록에 상기 음소 및 단어 격자 데이터를 발생하는 것을 특징으로 하는 방법.
  68. 제65항, 제66항, 또는 제67항 중 한 항에 있어서,
    상기 발생 단계는 데이터베이스내에서 각 블록의 위치를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  69. 제66항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 데이터 파일은 시간 시퀀스 신호를 포함하고, 상기 발생하는 단계는 상기 시간 시퀀스 신호와 시간 동기화되는 시간 스탬프 데이터를 발생하는 것을 특징으로 하는 방법.
  70. 제69항에 있어서,
    상기 시간 시퀀스 신호는 오디오 및/또는 비디오 신호인 것을 특징으로 하는방법.
  71. 제59항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 오디오 데이터는 다수의 발성자의 말을 정의하는 오디오 데이터를 포함하고, 상기 발생하는 단계는 각 발성자의 말에 대해 분리된 음소 및 단어 주석 데이터를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  72. 제60항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 텍스트 데이터는 다수의 발성자의 말을 정의하고, 상기 발생하는 수단은 각 발성자의 말에 대해 분리된 음소 및 단어 주석 데이터를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  73. 제59항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 음성 인식 시스템은 상기 링크와 연관된 음소들에 대해 가중치를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  74. 제59항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 단어 디코더는 상기 링크와 연관된 단어들에 대해 가중치를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  75. 제64항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    다수의 노드 및 다수의 링크를 정의하는 상기 단계는 다수의 링크에 의해 다수의 다른 노드에 연결되는 적어도 하나의 노드를 정의하는 것을 특징으로 하는 방법.
  76. 제75항에 있어서,
    상기 노드를 상기 다수의 다른 노드에 연결시키는 상기 다수의 링크 중 적어도 하나는 한 음소와 연관되고, 상기 노드를 상기 다수의 다른 노드에 연결시키는 상기 링크 중 적어도 하나는 한 단어와 연관되는 것을 특징으로 하는 방법.
  77. 제61항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 음성 인식 수단은 상기 링크와 연관된 음소들에 대해 가중치를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  78. 제61항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 음성 인식 시스템은 상기 링크와 연관된 단어들에 대해 가중치를 정의하는 데이터를 발생하는 것을 특징으로 하는 방법.
  79. 제61항이나 제62항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 주석 데이터를 상기 데이터 파일과 연관시키는 단계를 더 구비하는 것을 특징으로 하는 방법.
  80. 제62항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 변환 단계는 타이프된 입력내의 단어에 대해 상기 음소 데이터를 발생하는 자동 음성 사본 유닛을 사용하는 것을 특징으로 하는 방법.
  81. 제63항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    단어들을 음소로 변환하는 상기 단계는 상기 문자 인식 수단에 의해 출력된 텍스트 데이터내의 단어에 대해 상기 음소 데이터를 발생하는 자동 음성 사본 유닛을 사용하는 것을 특징으로 하는 방법.
  82. 제63항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 수신된 영상 데이터나 상기 텍스트 데이터와 상기 주석 데이터를 연관시키는 단계를 더 구비하는 것을 특징으로 하는 방법.
  83. 제63항 또는 이에 종속하는 임의의 항 중 한 항에 있어서,
    상기 수신하는 단계는 문서 스캐너 또는 팩시밀리 기계를 사용하는 것을 특징으로 하는 방법.
  84. 입력 문의에 응답하여 주석 데이터를 포함하는 데이터 파일을 검색하는 방법에 있어서:
    입력 문의에 대응하는 음소 데이터 및 단어 데이터를 발생하는 단계;
    음소 데이터 및/또는 단어 데이터와 주석 데이터를 근거로 데이터 파일을 검색하는 단계; 및
    상기 검색 단계의 결과에 따라 검색 결과를 출력하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  85. 제84항에 있어서,
    상기 주석 데이터는:
    (i) 격자내에 다수의 노드 및 격자내의 노드를 연결시키는 다수의 링크를 정의하는 데이터;
    (ii) 음소 데이터의 다수의 음소들를 다수의 링크 각각에 연관시키는 데이터; 및
    (iii) 적어도 하나의 단어를 상기 링크 중 적어도 하나에 연관시키는 데이터
    를 구비하는 음소 및 단어 격자를 정의하는 것을 특징으로 하는 방법.
  86. 데이터 파일을 데이터베이스에 저장하는 방법에 있어서:
    데이터 파일을 그 데이터 파일에 대응하는 주석 데이터와 조합하는 단계 - 상기 주석 데이터는 음소 데이터를 포함함 -; 및
    주석 데이터와 함께 데이터 파일을 저장하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  87. 입력 문의에 응답하여 주석 데이터를 포함하는 데이터 파일을 검색하는 장치에 있어서:
    입력 문의에 대응하는 음소 데이터 및 단어 데이터를 발생하는 수단;
    음소 데이터 및/또는 단어 데이터와 주석 데이터를 근거로 데이터 파일을 검색하는 수단; 및
    상기 검색 단계의 결과에 따라 검색 결과를 출력하는 수단
    을 구비하는 것을 특징으로 하는 장치.
  88. 제87항에 있어서,
    상기 주석 데이터는 음소 및 단어 격자를 정의하고,
    (i) 격자내에 다수의 노드 및 격자내의 노드를 연결시키는 다수의 링크를 정의하는 데이터;
    (ii) 음소 데이터의 다수의 음소들를 다수의 링크 각각에 연관시키는 데이터; 및
    (iii) 적어도 하나의 단어를 상기 링크 중 적어도 하나에 연관시키는 데이터
    를 포함하는 것을 특징으로 하는 장치.
  89. 데이터 파일을 데이터베이스에 저장하는 장치에 있어서:
    데이터 파일 및 그 데이터 파일에 대응하는 주석 데이터를 입력하는 수단 - 상기 주석 데이터는 음소 데이터를 포함함 -; 및
    주석 데이터와 함께 데이터 파일을 저장하는 수단
    을 구비하는 것을 특징으로 하는 장치.
  90. 데이터 파일을 저장하는 매체에 있어서:
    데이터 파일은
    오디오 데이터; 및
    오디오 데이터에 대응하는 주석 데이터 - 상기 주석 데이터는 음소 데이터를 포함함 -
    를 구비하는 것을 특징으로 하는 매체.
  91. 데이터 파일을 저장하는 매체에 있어서:
    데이터 파일은
    비디오 데이터;
    비디오 데이터에 대응하는 오디오 데이터; 및
    오디오 데이터에 대응하는 주석 데이터 - 상기 주석 데이터는 음소 데이터를 포함함 -
    를 구비하는 것을 특징으로 하는 매체.
  92. 데이터 파일을 저장하는 매체에 있어서:
    데이터 파일은
    텍스트 데이터; 및
    텍스트 데이터에 대응하는 주석 데이터 - 상기 주석 데이터는 음소 데이터를 포함함 -
    를 구비하는 것을 특징으로 하는 매체.
  93. 오디오 데이터를 포함하고, 오디오 데이터에 대응하는 주석 데이터를 더 구비하되, 상기 주석 데이터는 음소 데이터를 포함하는 것을 특징으로 하는 데이터.
  94. 비디오 데이터를 포함하고, 비디오 데이터에 대응하는 오디오 데이터와 오디오 데이터에 대응하는 주석 데이터를 더 구비하되, 상기 주석 데이터는 음소 데이터를 포함하는 것을 특징으로 하는 데이터.
  95. 텍스트 데이터를 포함하고, 텍스트 데이터에 대응하는 주석 데이터를 더 구비하되, 상기 주석 데이터는 음소 데이터를 포함하는 것을 특징으로 하는 데이터.
  96. 제1항 내지 제13항 중 한 항에 따른 데이터를 운반하거나 제14항 내지 제23항 또는 제 59항 내지 제83항 또는 제84항 내지 제86항 중 한 항의 방법을 실시하도록 프로세서를 제어하는 프로세서 실행가능 명령을 운반하는 것을 특징으로 하는데이터 캐리어(carrier).
  97. 제14항 내지 제23항 또는 제 59항 내지 제83항 또는 제84항 내지 제86항 중 한 항의 방법을 실시하도록 프로세서를 제어하는 것을 특징으로 하는 프로세서 실행가능 명령.
KR1020017011250A 1999-03-05 2000-03-01 데이터베이스 주석 및 검색 KR100828884B1 (ko)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
GBGB9905160.9A GB9905160D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905187.2 1999-03-05
GB9905201.1 1999-03-05
GBGB9905199.7A GB9905199D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905199.7 1999-03-05
GB9905186.4 1999-03-05
GBGB9905201.1A GB9905201D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905160.9 1999-03-05
GBGB9905187.2A GB9905187D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GBGB9905186.4A GB9905186D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval

Publications (2)

Publication Number Publication Date
KR20010108308A true KR20010108308A (ko) 2001-12-07
KR100828884B1 KR100828884B1 (ko) 2008-05-09

Family

ID=27517497

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017011250A KR100828884B1 (ko) 1999-03-05 2000-03-01 데이터베이스 주석 및 검색

Country Status (8)

Country Link
US (2) US6990448B2 (ko)
EP (1) EP1159688A2 (ko)
JP (1) JP2002539528A (ko)
KR (1) KR100828884B1 (ko)
CN (1) CN1343337B (ko)
AU (2) AU777693B2 (ko)
CA (1) CA2366057C (ko)
WO (1) WO2000054168A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100719514B1 (ko) * 2005-12-20 2007-05-17 엔에이치엔(주) 파일 정리/검색 방법, 시스템 및 이를 위한 기록매체

Families Citing this family (272)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2366057C (en) 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6774908B2 (en) * 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US7225126B2 (en) 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
GB2381638B (en) * 2001-11-03 2004-02-04 Dremedia Ltd Identifying audio characteristics
GB2388739B (en) 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
US20030098869A1 (en) * 2001-11-09 2003-05-29 Arnold Glenn Christopher Real time interactive video system
DE10218226A1 (de) * 2002-04-24 2003-11-06 Volkswagen Ag Verfahren und Einrichtung zur sprachgesteuerten Ansteuerung einer Multimediaeinrichtung, insbesondere in Kraftfahrzeugen
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
US7610237B1 (en) 2002-09-30 2009-10-27 Trading Technologies International Inc. System and method for creating trade-related annotations in an electronic trading environment
US7716112B1 (en) * 2002-09-30 2010-05-11 Trading Technologies International, Inc. System and method for price-based annotations in an electronic trading environment
GB2394347A (en) * 2002-10-15 2004-04-21 Canon Kk Lattice encoding
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US7305557B2 (en) * 2003-06-20 2007-12-04 International Business Machines Corporation Management and recovery of data object annotations using digital fingerprinting
US20040266337A1 (en) * 2003-06-25 2004-12-30 Microsoft Corporation Method and apparatus for synchronizing lyrics
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
CN100419751C (zh) * 2004-03-11 2008-09-17 台达电子工业股份有限公司 使用语音输入查询方式及使用语音输入的行动电子装置
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7912699B1 (en) 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
WO2006026578A2 (en) * 2004-08-27 2006-03-09 Peng Tao Online annotation management system and method
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
EP1825355A4 (en) 2004-11-12 2009-11-25 Make Sence Inc METHOD FOR KNOWING KNOWLEDGE BY CONSTRUCTING KNOWLEDGE CORRELATIONS USING CONCEPTS OR TERMS
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US20060161471A1 (en) * 2005-01-19 2006-07-20 Microsoft Corporation System and method for multi-dimensional average-weighted banding status and scoring
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7809568B2 (en) 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7831425B2 (en) 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US20070156680A1 (en) * 2005-12-21 2007-07-05 Microsoft Corporation Disconnected authoring of business definitions
US20070143175A1 (en) * 2005-12-21 2007-06-21 Microsoft Corporation Centralized model for coordinating update of multiple reports
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US7840896B2 (en) * 2006-03-30 2010-11-23 Microsoft Corporation Definition and instantiation of metric based business logic reports
US8261181B2 (en) * 2006-03-30 2012-09-04 Microsoft Corporation Multidimensional metrics-based annotation
US7716592B2 (en) * 2006-03-30 2010-05-11 Microsoft Corporation Automated generation of dashboards for scorecard metrics and subordinate reporting
US8190992B2 (en) 2006-04-21 2012-05-29 Microsoft Corporation Grouping and display of logically defined reports
US8126750B2 (en) * 2006-04-27 2012-02-28 Microsoft Corporation Consolidating data source queries for multidimensional scorecards
US7716571B2 (en) * 2006-04-27 2010-05-11 Microsoft Corporation Multidimensional scorecard header definition
CA2652986A1 (en) * 2006-05-19 2007-11-29 Sciencemedia Inc. Interactive learning and assessment platform
US7698258B2 (en) * 2006-06-02 2010-04-13 Microsoft Corporation Searchable storage system
EP2030132A4 (en) * 2006-06-02 2010-07-14 Telcordia Tech Inc INDEXING AND RECOVERING MEDIA CROSSED FROM A CONCEPT AND RECOVERING VOICE DOCUMENTS
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US7739255B2 (en) 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8341152B1 (en) 2006-09-12 2012-12-25 Creatier Interactive Llc System and method for enabling objects within video to be searched on the internet or intranet
US8694318B2 (en) 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US7991613B2 (en) * 2006-09-29 2011-08-02 Verint Americas Inc. Analyzing audio components and generating text with integrated additional session information
US9058307B2 (en) 2007-01-26 2015-06-16 Microsoft Technology Licensing, Llc Presentation generation using scorecard elements
US8321805B2 (en) 2007-01-30 2012-11-27 Microsoft Corporation Service architecture based metric views
US8495663B2 (en) 2007-02-02 2013-07-23 Microsoft Corporation Real time collaboration using embedded data visualizations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
CA2689065C (en) * 2007-05-30 2017-08-29 Creatier Interactive, Llc Method and system for enabling advertising and transaction within user generated video content
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US8060494B2 (en) * 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US8019604B2 (en) * 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8099662B2 (en) * 2008-01-17 2012-01-17 Seiko Epson Corporation Efficient image annotation display and transmission
US8015005B2 (en) * 2008-02-15 2011-09-06 Motorola Mobility, Inc. Method and apparatus for voice searching for stored content using uniterm discovery
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8315456B2 (en) * 2008-04-10 2012-11-20 The Nielsen Company Methods and apparatus for auditing signage
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090319883A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Automatic Video Annotation through Search and Mining
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8112802B2 (en) * 2008-11-21 2012-02-07 At&T Intellectual Property I, Lp Verification of outsourced data streams
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
US8737770B2 (en) * 2009-02-16 2014-05-27 Cisco Technology, Inc. Method and apparatus for automatic mash-up generation
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
KR101078862B1 (ko) * 2010-04-01 2011-11-02 서울대학교산학협력단 사용주체의 가중치를 이용한 개념격자 기반 질의용어 매핑지원 시스템 및 방법
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
US8670983B2 (en) * 2010-09-02 2014-03-11 Nexidia Inc. Speech signal similarity
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9418152B2 (en) * 2011-02-09 2016-08-16 Nice-Systems Ltd. System and method for flexible speech to text search mechanism
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2707572A1 (en) * 2011-06-24 2014-03-19 Halliburton Energy Services, Inc. Apparatus and methods of analysis of pipe and annulus in a wellbore
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
AU2011226985B2 (en) * 2011-09-30 2014-05-01 Canon Kabushiki Kaisha Image retrieval method
US20140373082A1 (en) * 2012-02-03 2014-12-18 Sharp Kabushiki Kaisha Output system, control method of output system, control program, and recording medium
JP5393816B2 (ja) * 2012-02-08 2014-01-22 株式会社Nttドコモ 情報検索装置および情報検索方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140039871A1 (en) * 2012-08-02 2014-02-06 Richard Henry Dana Crawford Synchronous Texts
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102855330B (zh) * 2012-09-19 2015-07-08 东莞宇龙通信科技有限公司 搜索方法和系统、移动终端
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US9245523B2 (en) * 2013-07-25 2016-01-26 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9888279B2 (en) * 2013-09-13 2018-02-06 Arris Enterprises Llc Content based video content segmentation
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN104170362B (zh) * 2013-12-09 2017-07-14 华为终端有限公司 一种语音通信的信息交互方法和设备
US9196243B2 (en) 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN105981374B (zh) * 2014-04-27 2019-08-09 Lg电子株式会社 广播信号发送设备、广播信号接收设备、用于发送广播信号的方法以及用于接收广播信号的方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105320510B (zh) * 2014-07-29 2018-10-26 上海爱韦讯信息技术股份有限公司 一种自动追踪数据关系的方法及装置
US20170154546A1 (en) * 2014-08-21 2017-06-01 Jobu Productions Lexical dialect analysis system
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9530404B2 (en) 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10332506B2 (en) 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105335466A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 一种音频数据的检索方法与装置
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10430407B2 (en) 2015-12-02 2019-10-01 International Business Machines Corporation Generating structured queries from natural language text
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102468763B1 (ko) * 2016-02-05 2022-11-18 삼성전자 주식회사 영상처리장치 및 그 제어방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10860638B2 (en) * 2016-04-07 2020-12-08 Uday Gorrepati System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
WO2020053862A1 (en) * 2018-09-13 2020-03-19 Ichannel.Io Ltd. A system and computerized method for subtitles synchronization of audiovisual content using the human voice detection for synchronization
US10856041B2 (en) * 2019-03-18 2020-12-01 Disney Enterprises, Inc. Content promotion using a conversational agent
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
KR102722495B1 (ko) * 2020-02-06 2024-10-29 삼성전자주식회사 전자장치 및 그 제어방법
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
CA3223764A1 (en) * 2021-05-10 2022-11-17 Brandon Wright Managing content quality and related characteristics of a media playback system
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US11902690B2 (en) * 2021-10-27 2024-02-13 Microsoft Technology Licensing, Llc Machine learning driven teleprompter
WO2023075909A1 (en) * 2021-10-27 2023-05-04 Microsoft Technology Licensing, Llc. Machine learning driven teleprompter
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output
US12132952B1 (en) * 2022-08-25 2024-10-29 Amazon Technologies, Inc. Accessory control using keywords
US20250056082A1 (en) * 2023-08-08 2025-02-13 Edwin Stewart, Jr. Double sided monitor device

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
JPH0233200A (ja) * 1988-07-22 1990-02-02 Mitsubishi Electric Corp データベース検索方式
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5205952A (en) * 1991-02-22 1993-04-27 Nl Industries, Inc. Methods for controlling airborne dissemination of lead and lead-contaminated fines during the storage and processing of lead-contaminated materials
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) * 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
WO1994014270A1 (en) * 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp., Rochester Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
NZ294659A (en) 1994-11-01 1999-01-28 British Telecomm Method of and apparatus for generating a vocabulary from an input speech signal
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
EP0813735B1 (en) 1995-03-07 2001-10-04 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
CA2170669A1 (en) * 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
JPH10503033A (ja) 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) * 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
KR980011719A (ko) * 1996-07-31 1998-04-30 구자홍 문장 텍스트 데이터 베이스 발생방법
GB2303955B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
JPH10177469A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1018109B1 (en) 1997-09-24 2003-03-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
AU1520000A (en) 1998-11-25 2000-06-13 Sony Electronics Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
CA2366057C (en) 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100719514B1 (ko) * 2005-12-20 2007-05-17 엔에이치엔(주) 파일 정리/검색 방법, 시스템 및 이를 위한 기록매체

Also Published As

Publication number Publication date
US6990448B2 (en) 2006-01-24
AU2817700A (en) 2000-09-28
US20060015339A1 (en) 2006-01-19
CA2366057C (en) 2009-03-24
KR100828884B1 (ko) 2008-05-09
CN1343337A (zh) 2002-04-03
US20020052740A1 (en) 2002-05-02
AU2005200340B2 (en) 2007-12-06
AU2005200340A1 (en) 2005-02-24
CA2366057A1 (en) 2000-09-14
EP1159688A2 (en) 2001-12-05
CN1343337B (zh) 2013-03-20
WO2000054168A2 (en) 2000-09-14
JP2002539528A (ja) 2002-11-19
US7257533B2 (en) 2007-08-14
AU777693B2 (en) 2004-10-28
WO2000054168A3 (en) 2000-12-14

Similar Documents

Publication Publication Date Title
KR100828884B1 (ko) 데이터베이스 주석 및 검색
US7240003B2 (en) Database annotation and retrieval
US6873993B2 (en) Indexing method and apparatus
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
US7054812B2 (en) Database annotation and retrieval
US7590605B2 (en) Lattice matching
JP4398966B2 (ja) 機械翻訳を行う装置、システム、方法およびプログラム
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US9405823B2 (en) Spoken document retrieval using multiple speech transcription indices
JPH10274997A (ja) 文書読み上げ装置
JP3799280B2 (ja) 対話システムおよびその制御方法
JP2010154397A (ja) データ処理装置、データ処理方法、及び、プログラム
Robert-Ribes et al. Automatic generation of hyperlinks between audio and transcript.
Meng et al. A review of speech recognition in low-resource languages
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
Bhandary CMSC-676 UMBC
Jones et al. A critical review of state-of-the-art technologies for crosslanguage speech retrieval
JP2001222292A (ja) 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
Ajmera et al. A Cross-Lingual Spoken Content Search System.
GB2465384A (en) A speech recognition based method and system for retrieving data

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20010904

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20050302

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20060731

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20070330

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20071024

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20080402

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20080502

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20080502

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20110425

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20120424

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20130425

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20130425

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20140424

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20140424

Start annual number: 7

End annual number: 7

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20160409