[go: up one dir, main page]

KR100911830B1 - 화자 기록 장치 및 방법 - Google Patents

화자 기록 장치 및 방법 Download PDF

Info

Publication number
KR100911830B1
KR100911830B1 KR1020070089141A KR20070089141A KR100911830B1 KR 100911830 B1 KR100911830 B1 KR 100911830B1 KR 1020070089141 A KR1020070089141 A KR 1020070089141A KR 20070089141 A KR20070089141 A KR 20070089141A KR 100911830 B1 KR100911830 B1 KR 100911830B1
Authority
KR
South Korea
Prior art keywords
speaker
recording
voice
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020070089141A
Other languages
English (en)
Other versions
KR20090023978A (ko
Inventor
송병열
이대하
이재연
윤호섭
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070089141A priority Critical patent/KR100911830B1/ko
Publication of KR20090023978A publication Critical patent/KR20090023978A/ko
Application granted granted Critical
Publication of KR100911830B1 publication Critical patent/KR100911830B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 화자 기록 장치 및 방법에 관한 것으로, 회의나 컨퍼런스 등에서 녹취된 발언 내용과 관련하여 각 화자의 식별 정보를 각각의 발언 구간과 동기화하여 제공함으로써 회의에 참석하지 않았거나 참석하였더라도 참석자들의 목소리에 익숙하지 않음으로 인해 목소리만으로는 각 발언의 화자를 식별할 수 없는 경우에 화자 식별 정보를 통해 해당 발언의 화자를 쉽게 확인할 수 있도록 하여 화자에 대한 혼동이 발생하지 않는 이점이 있다.
회의 기록, 화자 인식, 화자 식별 정보

Description

화자 기록 장치 및 방법{SPEAKER ANNOTATION SYSTEM AND METHOD FOR RECORDED DATA}
본 발명은 화자 기록 장치 및 방법에 관한 것으로, 회의 및 컨퍼런스 등과 같은 다자간 대화를 기록할 때에 각 발언에 해당하는 화자를 기록하는 화자 기록 장치 및 방법에 관한 것이다.
본 발명은 정보통신부의 IT신성장동력핵심기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2005-S-033-03, 과제명: URC를 위한 내장형 컴포넌트 기술 및 표준화].
회의 및 컨퍼런스 등에서 회의 내용 및 결과에 대한 관리의 목적으로 발언되는 내용을 기록하는 과정에서 각각의 발언이 누구에 의해 행해졌는지를 아는 것은 회의 내용의 신뢰도 및 일관성 유지 등에 있어서 매우 중요하다.
그런데, 보통 온라인 화상회의 또는 오프라인 회의에서 회의 결과의 신뢰 확보를 위해서 회의 내용을 기록할 때에 대부분 전체 회의 시간동안 회의 내용을 단 순히 녹취하는 방법을 사용한다.
이 경우에 회의 내용의 사후 청취자들은 회의 참석자들에 대한 사전 정보를 모르는 경우는 물론이고 회의 참석자들을 미리 알고 있다하더라도 각 참석자의 목소리에 익숙하지 않은 경우라면 회의의 발언이 각각 누구에 의해 이루어졌는지 알 수 없으므로 사후 회의 기록의 청취자가 회의 내용을 정확히 이해하기 어려울 수 있다.
한편, 회의 참석자에 대한 정보를 제공하기 위한 종래의 제 1 실시예로서 한국등록특허 0215465호에는 "다자간 화상회의 시스템을 위한 회의록작성장치 및 방법"이 개시되어 있다. 개시된 내용은 화상단말에 나타나는 화이트보드 내에서 발생하는 화상회의 자료들의 각 객체데이터를 메모리의 해당 저장소에 저장하고, 객체데이터의 생성, 이동, 수정 및 삭제 등의 자료의 변천상황을 시간과 함께 저장한다. 따라서 화상회의 종료 후 회의록을 열람할 때 특정 시간을 지정하여 시간별로도 자료의 상태를 볼 수 있으며, 특정 객체데이터를 선택하여 그 변천과정을 볼 수 있다.
종래의 제 2 실시예로서 한국공개특허 10-1999-0049259호에는 "회의 기록 장치를 갖는 다자간 화상 회의 시스템"이 개시되어 있다. 개시된 내용은 화상 회의 참가자 각각에 소속된 다수 개의 화상 회의 단말 장치에 접속되어 발언 중인 화상 회의 단말 장치를 검출하여 그로부터 발생한 음성, 영상 데이터를 각각의 화상 회의 단말 장치로 분배하며, 화상 회의 진행 중에 각각의 화상 회의 단말 장치에서 발생되는 영상, 음성과 데이터 및 파일을 기록하고, 화상 회의 진행 중에 화상 회 의 기록 장치에 기록될 영상, 음성, 데이터 및 파일의 기록 시점 및 방법을 제어한다.
앞서 살펴본 종래 기술들은 화상 회의 참가자들이 각각의 단말에 한 명씩 할당된다고 가정하고 각 단말기의 정보와 회의 내용을 함께 저장하므로 각각의 발언내용이 별도로 저장되어 회의의 흐름을 자연스럽게 이해하기 어려우며, 만일 하나의 단말에 여러 명이 함께 모여 회의하는 경우에는 화자의 충분한 정보를 얻기 어려운 문제점이 있었다.
본 발명은 회의 및 컨퍼런스 등의 진행 중에 이루어지는 각 발언 또는 녹취된 기록 중 각 발언의 화자 인식을 이용하여 화자 정보를 수집하고 이를 발언 구간과 일치시켜 기록하여 이를 통해 사후 녹취된 내용을 청취하는 사람이 발언이 이루어지고 있는 각 순간에 해당 화자에 대한 정보를 확인할 수 있도록 시간의 흐름에 따라 발언되는 내용을 유지하면서 각 화자에 대한 정보를 제공한다.
본 발명의 제 1 관점으로서 화자 기록 장치는, 화자 식별의 대상자들 또는 다자의 발언에 의해 입력되는 음성을 샘플링하는 음성 샘플링부와, 상기 화자 등록을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터를 상기 화자 식별의 대상자들에 대한 정보와 함께 등록하는 화자 등록부와, 상기 화자 식별을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터와 상기 화자 등록부에 의해 기 등록된 음성 관련 데이터들과의 비교를 통해 화자를 식별하는 화자 식별부와, 상기 화자 식별부에 의한 화자 식별 결과에 의거하여 상기 다자의 발언에 대해 발언 구간별로 해당 화자 식별 정보를 기록하는 화자 기록부를 포함한다.
본 발명의 제 2 관점으로서 화자 기록 방법은, (a) 화자 식별의 대상자들에 의해 입력되는 음성을 샘플링하여 샘플링된 음성 데이터를 상기 화자 식별의 대상자들에 대한 정보와 함께 등록하는 단계와, (b) 다자의 발언에 의해 입력되는 음성을 샘플링하여 샘플링된 음성 데이터와 상기 (a) 단계에서 기 등록된 음성 관련 데이터들과의 비교를 통해 화자를 식별하는 단계와, (c) 상기 (b) 단계에서 상기 화자를 식별한 결과에 의거하여 상기 다자의 발언에 대해 발언 구간별로 화자 식별 정보를 기록하는 단계를 포함한다.
본 발명에서는 회의나 컨퍼런스 등에서 녹취된 발언 내용과 관련하여 각 화자의 식별 정보를 각각의 발언 구간과 동기화하여 제공함으로써 회의에 참석하지 않았거나 참석하였더라도 참석자들의 목소리에 익숙하지 않음으로 인해 목소리만으로는 각 발언의 화자를 식별할 수 없는 경우에 화자 식별 정보를 통해 해당 발언의 화자를 쉽게 확인할 수 있도록 하여 화자에 대한 혼동이 발생하지 않는 효과가 있다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명 을 생략한다.
도 1은 본 발명의 일 실시예에 따른 화자 기록 장치의 블록 구성도이다.
도 1에 나타낸 바와 같이 본 발명의 화자 기록 장치는, 화자 식별의 대상자들 또는 다자의 발언에 의해 입력되는 음성을 화자 등록 및 화자 식별에 필요한 구간단위로 샘플링하는 음성 샘플링부(110)와, 화자 등록을 위해 음성 샘플링부(110)에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 화자 식별의 대상자들에 대한 정보와 함께 데이터 저장 및 관리부(160)에 저장하여 등록하는 화자 등록부(120)와, 화자 식별을 위해 음성 샘플링부(110)에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 화자 등록부(120)에 의해 기 등록된 화자 특성 데이터들과의 유사도 비교를 통해 화자 식별의 대상자들에 대한 정보 중에서 특정 화자 특성 데이터에 대응하는 정보에 의거하여 화자를 식별하는 화자 식별부(130)와, 화자 식별을 위해 음성 샘플링부(110)에 입력되는 음성과의 동기화를 위해 화자 식별부(130)에 의해 식별된 화자의 정보에 시간 정보를 포함시켜서 발언 구간별로 해당 화자 식별 정보를 데이터 저장 및 관리부(160)에 기록하는 화자 기록부(140)와, 화자 식별을 위해 음성 샘플링부(110)에 입력되는 음성을 녹취한 녹취 음성 데이터를 재생하면서 화자 식별 정보의 시간 정보를 활용하여 화자 식별부(130)에 의해 식별된 화자의 정보를 표시하는 기록 재생부(150)를 포함한다. 데이터 저장 및 관리부(160)는 DMBS(database management system)나 일반 파일 시스템을 사용할 수 있으며, 음성 샘플링부(110)에 입력되는 음성은 실시간 입력이나 사전에 녹음되었던 음성도 사용할 수 있다.
이와 같이 구성된 본 발명의 화자 기록 장치에 의해 회의나 컨퍼런스 등에서 각 발언들과 함께 화자를 기록하는 과정을 도 2 및 도 3을 참조하여 살펴보기로 한다.
먼저, 회의나 컨퍼런스의 시작 전에 참석자들, 즉 화자 식별의 대상자들은 본 발명에 의한 화자 기록 장치를 기록 모드(S201)로 운용하기 위하여 자신의 신원정보와 음성을 화자 등록부(120)를 통해 등록한다. 즉 참석자들은 자신의 신원정보로서 이름이나 아이디 또는 상세 신상 정보 등을 등록하며, 추후 화자 식별에 이용할 수 있도록 자신의 음성을 등록한다.
참석자들의 음성이 입력되면 음성 샘플링부(110)는 참석자들의 음성을 샘플링하여 화자 등록부(120)로 전달하며(S203), 화자 등록부(120)는 참석자들의 신원정보와 샘플링된 음성 데이터를 일대일 대응시켜서 등록한다(S205). 여기서 참석자들의 샘플링된 음성 데이터를 화자 식별에 그대로 이용하기보다는 해당 음성의 고유한 특성을 추출하여 화자 식별에 이용하는 것이 화자 식별의 처리 속도 등에 있어서 유리하다. 따라서 참석자들의 샘플링된 음성 데이터는 화자 식별을 위한 화자 특성 데이터로 변환한 후에 신원정보와 일대일 대응시켜서 데이터 저장 및 관리부(160)에 저장한다. 여기서 음성 데이터를 화자 특성 데이터로 변환하는 것은 화자 등록부(120)에 의해 수행되거나 화자 식별부(130)에 의해 수행된다(S207).
이러한 화자 등록 절차는 기존의 사용으로 인하여 참석자들에 대한 데이터가 존재할 경우에는 생략될 수 있으며, 경우에 따라서 회의의 녹취와 화자 기록이 동시에 이루어지지 않은 경우에는 사후에 이루어 질 수도 있다.
회의나 컨퍼런스 등이 시작되면 본 발명의 화자 기록 장치는 음성 샘플링부(110)를 통해 참석자들의 발언들, 즉 다자의 발언을 입력받는다. 물론 회의의 녹취와는 별도로 사후에 화자 기록이 이루어지는 경우라면 녹취된 회의 내용을 음성 샘플링부(110)를 통해 입력받는다.
음성 샘플링부(110)는 화자 식별부(130)에서 화자 식별에 필요한 크기만큼 참석자들의 발언들, 즉 음성 데이터를 적절히 샘플링하여 화자 식별부(130)로 전달하며, 각 샘플데이터의 시작 시점과 종료 시점을 측정하여 화자 기록부(140)로 전달한다(S209).
화자 식별부(130)는 샘플링된 각 음성 구간에 대해 먼저 실제 음성이 존재하는지 검사하고(S211), 만일 음성이 없다면 이전 음성 구간에서 화자 식별이 진행되고 있었는지를 판단한 후에 그 판단 결과를 화자 기록부(140)에 알려준다(S213). 화자 기록부(140)는 화자 식별부(130)가 현재 음성 구간에 실제로는 음성이 없고 이전 음성 구간에서 화자 식별이 진행되었음을 알려주면 현재 음성 구간의 시작 시점을 이전까지 진행되었던 화자의 발언 종료점으로 설정하고 이를 데이터 저장 및 관리부(160)에 기록한다(S215).
현재 음성 구간에 음성이 실제로 있는 경우에 화자 식별부(130)는 해당 구간의 음성 데이터를 화자 특성 데이터로 변환하고(S217), 데이터 저장 및 관리부(160)에 등록된 참석자들의 화자 특성 데이터와의 유사도 비교를 수행하며, 기 등록된 화자 특성 데이터 중에서 가장 높은 유사도를 가지는 화자 특성 데이터에 대응하는 신원정보에 의거하여 해당 참석자를 현재 음성 구간의 화자로 선택하며, 선택한 화자의 신원정보를 화자 기록부(140)에게 전달한다(S219). 여기서, 화자 식별부(130)는 샘플링된 음성 데이터로부터 식별한 화자가 화자 등록부(120)에 의해 사전 등록된 화자가 아니라면 임시로 아이디를 발급하고 이후의 동일 화자에 의한 발언은 이전에 발급된 임시아이디를 사용한다.
화자 기록부(140)는 이전 음성 구간의 화자와 현재 음성 구간의 화자가 다르다면 현재 음성 구간의 시작 시점을 이전까지 진행되었던 화자의 발언 종료점으로 설정한다(S223).
아울러, 화자 기록부(140)는 화자 식별 결과에 의거하여 발언의 시작 시점과 종료 시점 및 식별된 화자의 신원정보 등의 화자 식별 정보를 발언 구간별로 데이터 저장 및 관리부(160)에 저장한다. 여기서 화자 식별 정보는 파일 형태로 기록되는데, 시작 시점 및 종료 시점은 각 발언의 시작 시간과 종료 시간을 나타내는 것으로 실제 시각 정보를 사용하거나 음성을 샘플링하기 시작한 시점을 0으로 하고 경과 시간에 해당하는 샘플링 순차 번호를 사용한다. 이러한 화자 기록 절차는 화자 식별 절차 중에 동적으로 호출되어 수행된다(S225).
도 3은 화자 기록부(140)가 데이터 저장 및 관리부(160)에 저장하는 화자 정보 파일의 예시도로서, 동영상 파일의 자막 파일로 널리 쓰이는 SMI 파일의 형식을 이용한 것이다. 도 3에서보면 녹취된 파일의 시작점을 0이라고 했을 때 예로서 18000밀리초 까지는 발언이 없었으면 도면부호 301처럼 공백문자(&nbsp)로 처리하 고 실제 발언이 18000밀리초 시점에 Sally라는 사람으로부터 시작되었으면 도면부호 302로 나타내며, Sally라는 사람의 발언은 23000밀리초 시점에 끝이 나고 다시 발언이 없는 구간이 시작되었음을 도면부호 305에서 나타내고 있다. 이처럼 SMI 파일 형식을 사용하는 경우에 시작 시간은 밀리초 단위로 기록되며 종료 시간은 도면부호 305와 같이 종료 시간을 시작 시점으로 하는 공백문자(&nbsp)를 사용하여 기록한다. 즉 음성 구간별로 시작 시점에 화자 식별 정보를 기록하여 화자 정보 파일을 생성하는 것이다.
도 4는 본 발명의 화자 기록 장치에 의한 화자 식별 정보의 표시 과정을 설명하기 위한 흐름도이다.
화자 기록 장치가 재생 모드(S401)로 운용되면 기록 재생부(150)는 먼저 녹취된 음성 데이터와 구간별로 화자가 기록된 화자 식별 정보, 즉 화자 정보 파일을 읽어 들인다(S403).
읽어들인 음성 데이터를 재생하면서 경과 시간을 계측하고(S405), 이 시간 정보를 화자 정보 파일 내 구간별 화자 기록 데이터상의 시작 및 종료 시점과 비교하여 해당 시간에 발언을 한 화자의 신원정보를 획득한다(S407).
기록 재생부(150)는 화자의 신원정보가 획득되면 표시장치(도시 생략됨) 상에 화자 식별 정보를 표시하여 녹취된 음성 데이터를 청취하는 자가 해당 발언의 화자를 인식할 수 있도록 한다. 만일 녹취된 음성 데이터가 영상과 함께 기록된 AVI 파일 등과 같은 동영상 데이터인 경우에 도 3과 같이 SMI 파일 형식으로 저장 된 화자 정보는 자막 형태로 표시하여 별도의 표시장치를 구성할 필요가 없도록 한다(S409∼S411).
여기서, 기록 재생부(150)는 녹취된 음성 데이터를 재생하면서 각 발언 구간별로 화자 정보를 표시할 때에 이름이나 아이디를 먼저 표시하여 해당 발언자가 누구인지 표시하고, 별도의 사용자 인터페이스를 통해 추가 정보가 요구될 때에 사전에 등록된 상세 신상 정보를 제공한다.
지금까지 본 발명의 일 실시예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 포함된다고 하여야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 화자 기록 장치의 블록 구성도,
도 2는 도 1에 도시된 화자 기록 장치에 의한 화자 기록 과정을 설명하기 위한 흐름도,
도 3은 도 1에 도시된 화자 기록 장치에 의한 화자 정보 파일의 예시도,
도 4는 도 1에 도시된 화자 기록 장치에 의한 화자 식별 정보의 표시 과정을 설명하기 위한 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110 : 음성 샘플링부 120 : 화자 등록부
130 : 화자 식별부 140 : 화자 기록부
150 : 기록 재생부 160 : 데이터 저장 및 관리부

Claims (17)

  1. 화자 식별의 대상자들 또는 다자의 발언에 의해 입력되는 음성을 샘플링하는 음성 샘플링부와,
    상기 화자 등록을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터를 상기 화자 식별의 대상자들에 대한 정보와 함께 등록하는 화자 등록부와,
    상기 화자 식별을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터와 상기 화자 등록부에 의해 기 등록된 음성 관련 데이터들과의 비교를 통해 화자를 식별하는 화자 식별부와,
    상기 화자 식별부에 의한 화자 식별 결과에 의거하여 상기 다자의 발언에 대해 발언 구간별로 해당 화자 식별 정보를 기록하는 화자 기록부
    를 포함하며,
    상기 화자 식별부는 상기 샘플링된 음성 데이터로부터 식별한 화자가 상기 화자 등록부에 의해 사전 등록된 화자가 아니라면 임시로 아이디를 발급하고 이후의 동일 화자에 의한 발언은 이전에 발급된 임시아이디를 사용하는
    화자 기록 장치.
  2. 제 1 항에 있어서,
    상기 화자 기록 장치는,
    상기 화자 식별을 위해 상기 음성 샘플링부에 입력되는 음성을 녹취한 녹취 음성 데이터를 재생하면서 상기 화자 식별 정보를 표시하는 기록 재생부
    를 더 포함하는 화자 기록 장치.
  3. 제 1 항에 있어서,
    상기 화자 등록부는, 상기 화자 등록을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 등록하며,
    상기 화자 식별부는, 상기 화자 식별을 위해 상기 음성 샘플링부에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 상기 화자 등록부에 의해 기 등록된 화자 특성 데이터들과의 유사도 비교를 통해 상기 대상자들에 대한 정보 중에서 특정 화자 특성 데이터에 대응하는 정보에 의거하여 화자를 식별하는
    화자 기록 장치.
  4. 제 2 항에 있어서,
    상기 화자 기록부는, 상기 화자 식별을 위해 상기 음성 샘플링부에 입력되는 음성과의 동기화를 위해 상기 화자 식별부에 의해 식별된 화자의 정보에 시간 정보를 포함시켜서 상기 화자 식별 정보를 기록하는
    화자 기록 장치.
  5. 제 4 항에 있어서,
    상기 기록 재생부는, 상기 녹취 음성 데이터를 재생하면서 상기 화자 식별 정보의 시간 정보를 활용하여 상기 화자 식별부에 의해 식별된 화자의 정보를 표시하는
    화자 기록 장치.
  6. 제 1 항에 있어서,
    상기 화자 기록부는, 상기 화자 식별 정보를 화자 정보 파일의 형태로 저장하는
    화자 기록 장치.
  7. 제 6 항에 있어서,
    상기 화자 기록부는, 상기 음성 구간별로 시작 시점에 상기 화자 식별 정보를 기록하여 상기 화자 정보 파일을 생성하는
    화자 기록 장치.
  8. (a) 화자 식별의 대상자들에 의해 입력되는 음성을 샘플링하여 샘플링된 음성 데이터를 상기 화자 식별의 대상자들에 대한 정보와 함께 등록하는 단계와,
    (b) 다자의 발언에 의해 입력되는 음성을 샘플링하여 샘플링된 음성 데이터와 상기 (a) 단계에서 기 등록된 음성 관련 데이터들과의 비교를 통해 화자를 식별하는 단계와,
    (c) 상기 (b) 단계에서 상기 화자를 식별한 결과에 의거하여 상기 다자의 발언에 대해 발언 구간별로 화자 식별 정보를 기록하는 단계
    를 포함하며,
    상기 (b) 단계는, 상기 비교를 통해 식별한 화자가 상기 (a) 단계에서 사전 등록된 화자가 아니라면 임시로 아이디를 발급하고 이후의 동일 화자에 의한 발언은 이전에 발급된 임시아이디를 사용하는
    화자 기록 방법.
  9. 제 8 항에 있어서,
    상기 화자 기록 방법은,
    (d) 상기 (b) 단계에서 입력되는 음성을 녹취한 녹취 음성 데이터를 재생하면서 상기 (c) 단계에서 기록한 상기 화자 식별 정보를 표시하는 단계
    를 더 포함하는 화자 기록 방법.
  10. 제 8 항에 있어서,
    상기 (a) 단계는, 상기 (a) 단계에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 등록하며,
    상기 (b) 단계는, 상기 (b) 단계에 의해 샘플링된 음성 데이터를 화자 특성 데이터로 변환한 후에 상기 (a) 단계에서 기 등록된 화자 특성 데이터들과의 유사도 비교를 통해 상기 대상자들에 대한 정보 중에서 특정 화자 특성 데이터에 대응하는 정보에 의거하여 화자를 식별하는
    화자 기록 방법.
  11. 제 9 항에 있어서,
    상기 (d) 단계는, 상기 화자 식별을 위해 입력되는 음성과의 동기화를 위해 상기 (c) 단계에 의해 식별된 화자의 정보에 시간 정보를 포함시켜서 상기 화자 식별 정보를 기록하는
    화자 기록 방법.
  12. 제 11 항에 있어서,
    상기 (d) 단계는, 상기 녹취 음성 데이터를 재생하면서 상기 화자 식별 정보의 시간 정보를 활용하여 상기 (c) 단계에 의해 식별된 화자의 정보를 표시하는
    화자 기록 방법.
  13. 삭제
  14. 제 8 항 또는 제 9 항에 있어서,
    상기 (c) 단계는, 현재 음성 구간에 실제로는 음성이 없고 이전 음성 구간에서 화자 식별이 진행되었을 경우에 상기 현재 음성 구간의 시작 시점을 이전까지 진행되었던 화자의 발언 종료점으로 설정하는
    화자 기록 방법.
  15. 제 8 항 또는 제 9 항에 있어서,
    상기 (c) 단계는, 현재 음성 구간의 화자와 이전 음성 구간의 화자가 다르다면 상기 현재 음성 구간의 시작 시점을 상기 이전 음성 구간의 화자에 의한 발언 종료점으로 설정하는
    화자 기록 방법.
  16. 제 9 항에 있어서,
    상기 (d) 단계는, (d1) 상기 녹취 음성 데이터와 상기 (c) 단계에서 기록한 상기 화자 식별 정보를 읽어들이는 단계와,
    (d2) 상기 (d1) 단계에서 읽어들인 상기 녹취 음성 데이터를 재생하면서 경과 시간을 계측하는 단계와,
    (d3) 상기 (d2) 단계에서 계측한 경과 시간과 상기 화자 식별 정보 내 구간별 화자 기록 데이터상의 시작 및 종료 시점과 비교하여 해당 시간에 발언을 한 화자의 정보를 획득하는 단계와,
    (d4) 상기 (d3) 단계에 의해 획득한 화자의 정보가 포함된 상기 화자 식별 정보를 표시하는 단계
    를 포함하는 화자 기록 방법.
  17. 제 16 항에 있어서,
    상기 (d4) 단계는, 상기 화자 식별 정보 중에서 이름이나 아이디를 먼저 표시하여 해당 발언자가 누구인지 표시하고, 별도의 사용자 인터페이스를 통해 추가 정보가 요구될 때에 사전에 등록된 상세 신상 정보를 제공하는
    화자 기록 방법.
KR1020070089141A 2007-09-03 2007-09-03 화자 기록 장치 및 방법 Expired - Fee Related KR100911830B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070089141A KR100911830B1 (ko) 2007-09-03 2007-09-03 화자 기록 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070089141A KR100911830B1 (ko) 2007-09-03 2007-09-03 화자 기록 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20090023978A KR20090023978A (ko) 2009-03-06
KR100911830B1 true KR100911830B1 (ko) 2009-08-13

Family

ID=40693120

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070089141A Expired - Fee Related KR100911830B1 (ko) 2007-09-03 2007-09-03 화자 기록 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100911830B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102246900B1 (ko) 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003177776A (ja) 2001-12-12 2003-06-27 Seiko Instruments Inc 議事録記録システム
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2005080110A (ja) 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム
JP2007187880A (ja) * 2006-01-13 2007-07-26 Nec Corp モデリング装置、モデリング方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003177776A (ja) 2001-12-12 2003-06-27 Seiko Instruments Inc 議事録記録システム
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2005080110A (ja) 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム
JP2007187880A (ja) * 2006-01-13 2007-07-26 Nec Corp モデリング装置、モデリング方法、プログラム

Also Published As

Publication number Publication date
KR20090023978A (ko) 2009-03-06

Similar Documents

Publication Publication Date Title
CN108346034B (zh) 一种会议智能管理方法及系统
US6282510B1 (en) Audio and video transcription system for manipulating real-time testimony
CN106782545B (zh) 一种将音视频数据转化成文字记录的系统和方法
US7848493B2 (en) System and method for capturing media
US20070286573A1 (en) Audio And Video Transcription System For Manipulating Real-Time Testimony
CN108305632B (zh) 一种会议的语音摘要形成方法及系统
US9064160B2 (en) Meeting room participant recogniser
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
US8385588B2 (en) Recording audio metadata for stored images
EP2343668B1 (en) A method and system of processing annotated multimedia documents using granular and hierarchical permissions
US9438993B2 (en) Methods and devices to generate multiple-channel audio recordings
TWI536365B (zh) 聲紋辨識
US9037461B2 (en) Methods and systems for dictation and transcription
CN106024009A (zh) 音频处理方法及装置
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
WO2016197708A1 (zh) 一种录音方法及终端
JP2006085440A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
CN109065038A (zh) 一种执法仪的语音控制方法及系统
CN110460798B (zh) 视频访谈服务处理方法、装置、终端与存储介质
WO2023160288A1 (zh) 会议纪要生成方法、装置、电子设备和可读存储介质
KR100911830B1 (ko) 화자 기록 장치 및 방법
JP2005109928A (ja) 電子会議システム及び電子会議管理方法
CN112017655A (zh) 一种智能语音收录回放方法及其系统

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

L13-X000 Limitation or reissue of ip right requested

St.27 status event code: A-2-3-L10-L13-lim-X000

U15-X000 Partial renewal or maintenance fee paid modifying the ip right scope

St.27 status event code: A-4-4-U10-U15-oth-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20130806

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20130806

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000