[go: up one dir, main page]

KR20200121603A - 텍스트를 제공하는 전자 장치 및 그 제어 방법. - Google Patents

텍스트를 제공하는 전자 장치 및 그 제어 방법. Download PDF

Info

Publication number
KR20200121603A
KR20200121603A KR1020190044362A KR20190044362A KR20200121603A KR 20200121603 A KR20200121603 A KR 20200121603A KR 1020190044362 A KR1020190044362 A KR 1020190044362A KR 20190044362 A KR20190044362 A KR 20190044362A KR 20200121603 A KR20200121603 A KR 20200121603A
Authority
KR
South Korea
Prior art keywords
content
electronic device
predicted word
word
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020190044362A
Other languages
English (en)
Inventor
김영대
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190044362A priority Critical patent/KR20200121603A/ko
Priority to PCT/KR2020/004785 priority patent/WO2020213884A1/ko
Publication of KR20200121603A publication Critical patent/KR20200121603A/ko
Priority to US17/497,668 priority patent/US12087304B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4886Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치가 개시된다. 본 전자 장치는, 영상을 표시하는 디스플레이, 음성 인식 모듈이 저장된 메모리, 컨텐츠에 대한 정보에 기초하여 음성에 포함될 가능성이 있는 예상 단어를 획득하고, 예상 단어를 이용하여 음성 인식 모듈을 통해 음성에 대한 음성 인식을 수행하고, 음성 인식에 기초하여 음성이 변환된 텍스트를 디스플레이에 표시하는 프로세서를 포함한다.

Description

텍스트를 제공하는 전자 장치 및 그 제어 방법. { ELECTRONIC APPARATUS FOR PROVIDING TEXT AND CONTROLLING METHOD THEREOF }
본 개시는 컨텐츠를 제공하는 전자 장치에 관한 것이다. 보다 상세하게는, 컨텐츠에 포함된 음성을 자동으로 인식하여 청각장애인을 위한 자막 및/또는 수어를 제공하는 전자 장치에 대한 것이다.
대부분의 방송국에서는 청각 장애인들을 위한 자막 방송을 제공한다.
도 1은, 가정의 TV(10)를 통해 실시간으로 방송되는 컨텐츠와 관련하여 청각 장애인을 위한 자막을 제공하기 위해, 속기사가 직접 실시간 음성에 맞는 자막을 타이핑하는 모습(20)을 도시한 것이다. 그 결과, 컨텐츠와 함께 청각 장애인을 위한 자막(15)이 표시되고 있음을 확인할 수 있다.
도 1과 달리, 가정의 TV를 통해 제공되는 컨텐츠가 실시간으로 방송되는 컨텐츠가 아닌 경우, 컨텐츠에 대한 자막을 방송국 등에서 미리 제작해둘 수 있기 때문에 속기사는 필요 없겠지만, 이 경우에도 역시 직접 자막을 제작하기 위한 인력 및 비용은 여전히 필요하다는 단점이 있다.
이렇듯, 청각 장애인을 위한 자막을 별도로 생산 및 제공하기 위한 인력 내지 비용이 적지 않기 때문에, 방송국들에서 제공하는 컨텐츠들 중 극히 일부만이 청각 장애인들을 위한 자막을 포함한다.
일반적인 가정의 TV는 컨텐츠에 포함된 음성에 대한 인식을 직접 수행하기보다는, 컨텐츠에 포함되는 음성에 대한 데이터를 서버로 전송하고, 해당 음성이 변환된 텍스트(자막)를 서버로부터 수신하는 경우가 많다.
한편, TV 자체에 음성 인식을 위한 모듈이 포함될 수도 있으나, 음성 인식 모듈의 인식 정확도를 높이기 위한 데이터 베이스는 그 용량이 방대하기 때문에, 가정의 TV 자체에 내장되기는 쉽지 않다.
따라서, TV가 컨텐츠에 포함되는 음성을 실시간으로 인식하여 자막을 제공하더라도, 해당 자막의 정확성에는 한계가 있다.
본 개시는, 음성 인식의 정확도를 높이기 위한 방대한 용량의 데이터 베이스를 이용하지 않으면서도, 컨텐츠에 포함된 음성에 대한 인식의 정확도를 높일 수 있는 전자 장치를 제공함에 그 목적이 있다.
아울러, 음성 인식에 따라 획득된 텍스트뿐만 아니라, 해당 텍스트에 대응되는 수어 이미지 역시 자동으로 제공할 수 있는 전자 장치를 제공함에도 그 목적이 있다.
본 개시의 일 실시 예에 따라 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치는, 상기 영상을 표시하는 디스플레이, 음성 인식 모듈이 저장된 메모리, 상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하고, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하고, 상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 상기 디스플레이에 표시하는 프로세서를 포함한다.
이때, 상기 프로세서는, 상기 컨텐츠의 유형을 판단하고, 상기 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 상기 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송 또는 공개된 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득할 수 있다.
또는, 상기 프로세서는, 상기 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 상기 컨텐츠의 유형에 대응되는 예상 단어를 획득할 수 있다.
또는, 상기 프로세서는, 상기 컨텐츠에 대한 검색을 수행하고, 상기 검색 결과에서 추출된 키워드를 상기 예상 단어로 획득할 수도 있다.
한편, 상기 프로세서는, 상기 전자 장치의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 상기 사용자가 시청할 것으로 예상되는 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득하고, 상기 판단된 컨텐츠가 상기 디스플레이에 표시되면, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 컨텐츠의 음성에 대한 음성 인식을 수행할 수도 있다.
그리고, 상기 프로세서는, 상기 디스플레이에 표시된 상기 텍스트에 오류가 존재하는 경우, 상기 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 상기 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 상기 음성에 대한 음성 인식을 수행할 수 있다.
그리고, 상기 프로세서는, 상기 디스플레이에 표시된 상기 텍스트에 오류가 존재하는 경우, 사용자가 상기 컨텐츠와 관련하여 서버에 업로드한 단어에 기초하여 상기 예상 단어를 업데이트할 수도 있다.
한편, 상기 프로세서는, 상기 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하고, 상기 획득된 수어 이미지를 디스플레이하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 전자 장치는, 통신부를 더 포함하고, 상기 프로세서는, 상기 통신부를 통해 외부 장치로부터 수어 방송에 대한 정보가 수신되면, 상기 수신된 수어 방송에 대한 정보에 기초하여, 상기 수어 방송에 대응되는 컨텐츠를 식별하고, 상기 식별된 컨텐츠를 포함하는 목록을 디스플레이하도록 상기 디스플레이를 제어하며, 상기 목록에 포함된 컨텐츠가 선택된 경우, 상기 선택된 컨텐츠의 이미지 및 상기 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이하도록 상기 디스플레이를 제어할 수도 있다.
본 개시의 일 실시 예에 따라 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치의 제어 방법은, 상기 영상을 표시하는 단계, 상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하는 단계, 상기 예상 단어를 이용하여 기저장된 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하는 단계, 상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 표시하는 단계를 포함한다.
이때, 상기 예상 단어를 획득하는 단계는, 상기 컨텐츠의 유형을 판단하고, 상기 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 상기 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송 또는 공개된 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득할 수 있다.
또는, 상기 예상 단어를 획득하는 단계는, 상기 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 상기 컨텐츠의 유형에 대응되는 예상 단어를 획득할 수도 있다.
또는, 상기 예상 단어를 획득하는 단계는, 상기 컨텐츠에 대한 검색을 수행하고, 상기 검색 결과에서 추출된 키워드를 상기 예상 단어로 획득할 수도 있다.
한편, 본 제어 방법은, 상기 전자 장치의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 상기 사용자가 시청할 것으로 예상되는 컨텐츠를 판단하는 단계, 상기 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득하는 단계, 상기 판단된 컨텐츠가 상기 전자 장치의 디스플레이에 표시되면, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 컨텐츠의 음성에 대한 음성 인식을 수행하는 단계를 더 포함할 수도 있다.
또한, 본 제어 방법은, 상기 표시된 텍스트에 오류가 존재하는 경우, 상기 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 상기 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 상기 음성에 대한 음성 인식을 수행하는 단계를 더 포함할 수도 있다.
한편, 본 제어 방법은, 상기 표시된 텍스트에 오류가 존재하는 경우, 사용자가 상기 컨텐츠와 관련하여 서버에 업로드한 단어에 기초하여 상기 예상 단어를 업데이트하는 단계를 더 포함할 수 있다.
또는, 본 제어 방법은, 상기 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하는 단계, 상기 획득된 수어 이미지를 디스플레이하는 단계를 더 포함할 수도 있다.
한편, 본 제어 방법은, 외부 장치로부터 수어 방송에 대한 정보가 수신되면, 상기 수신된 수어 방송에 대한 정보에 기초하여, 상기 수어 방송에 대응되는 컨텐츠를 식별하는 단계, 상기 식별된 컨텐츠를 포함하는 목록을 디스플레이하는 단계, 상기 목록에 포함된 컨텐츠가 선택된 경우, 상기 선택된 컨텐츠의 이미지 및 상기 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이하는 단계를 더 포함할 수도 있다.
본 개시의 일 실시 예에 따른 컴퓨터 판독 가능 매체에는, 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치의 프로세서에 의해 실행되어, 상기 전자 장치로 하여금, 상기 영상을 표시하는 단계, 상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하는 단계, 상기 예상 단어를 이용하여 기저장된 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하는 단계, 상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 표시하는 단계를 포함하는 동작을 수행하도록 하는 컴퓨터 명령어(Instructions)가 저장되어 있다.
본 개시에 따른 전자 장치는, 대용량의 데이터 베이스를 이용하지 않으면서도, 시청되는 컨텐츠별로 획득되는 예상 단어를 이용하여 음성 인식의 정확도를 높일 수 있다는 장점이 있다.
특히, 서버가 아니라 전자 장치가 스스로 음성 인식을 수행하는 경우에도, 컨텐츠별 예상 단어를 이용하여 컨텐츠별 음성 인식의 정확도가 높아질 수 있다는 점에서, 온디바이스(ON-DEVICE) 음성 인식 기술 분야에 큰 발전을 가져올 수 있다.
이렇듯, 본 개시의 전자 장치 및 그 제어 방법은, 청각 장애인의 시청 환경을 개선함은 물론, 비장애인들이 시청하는 경우라도 음성을 들을 수 없는 환경(소음이 큰 외부, 정숙이 유지되는 공간 등)이라면 시청 환경 개선에 큰 도움을 줄 수 있다.
도 1은 종래 실시간 방송 컨텐츠와 관련하여 청각 장애인을 위한 자막을 제공하는 일 예를 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 컨텐츠의 방송 시점을 고려하여 해당 컨텐츠와 동일한 유형의 컨텐츠로부터 예상 단어를 획득하는 일 예를 설명하기 위한 도면,
도 4는 컨텐츠의 유형에 따라 기저장된 예상 단어를 이용하는 일 예를 설명하기 위한 도면,
도 5는 제공될 컨텐츠 자체에 대한 정보를 이용하여 예상 단어를 획득하는 일 예를 설명하기 위한 도면,
도 6은 음성 인식 모듈을 포함하는 전자 장치가 서버로부터 수신된 예상 단어를 이용하여 음성 인식을 수행하는 일 예를 설명하기 위한 도면,
도 7은 음성 인식에 따라 생성된 텍스트에 대응되는 수어 이미지를 제공하는 일 예를 설명하기 위한 도면,
도 8a 및 도 8b는 수어 방송에 대한 유저 인터페이스를 제공하는 예를 설명하기 위한 도면들,
도 9는 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치의 구성을 설명하기 위한 블록도, 그리고
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 디스플레이(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다.
전자 장치(100)는, TV, 스마트 TV, 스마트폰, 데스크탑 PC, 태블릿 PC, 키오스크, 플레이 스테이션 등으로 구현되는 한편, 영상 및 음성을 포함하는 다양한 컨텐츠를 제공할 수 있다.
디스플레이(110)는 전자 장치(100)를 통해 제공되는 컨텐츠의 영상을 표시하기 위한 구성으로, LCD(Liquid Crystal Display), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diodes), TOLED(Transparent OLED) 등으로 구현될 수 있다.
디스플레이(110)는, 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수 있으며, 접히거나 구부러질 수 있는 플렉서블 디스플레이로 구현될 수 도 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다.
이를 위해, 프로세서(120)는 RAM(Random Access Memory)(도시되지 않음), ROM(Read Only Memory)(도시되지 않음), CPU(central processing unit)(도시되지 않음), GPU(Graphic processing unit)(도시되지 않음) 및 시스템 버스(도시되지 않음) 등을 포함할 수 있으며, 전자 장치(100)에 포함된 다른 구성요소들의 제어에 관한 연산이나 데이터 처리를 실행할 수 있다.
메모리(130)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 명령 또는 데이터를 저장하기 위한 구성이다.
이를 위해, 메모리(130)는 비휘발성 메모리(ex: 하드 디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.
메모리(130)에는 음성 인식 모듈이 저장될 수 있다. 음성 인식 모듈은 전자 장치(100)를 통해 제공되는 컨텐츠에 포함되는 음성을 인식하거나 또는 사용자의 음성을 인식하기 위한 구성이다.
음성 인식 모듈은 인공지능 기술에 기반한 것일 수 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다. 그 중 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술에 해당한다.
구체적으로, 음성 인식 모듈은, 음향 모델(Acoustic Model) 및 언어 모델(Language Model)을 포함할 수 있다. 음향 모델은 음소 또는 단어에 대응되는 음성 신호의 특징에 대한 정보를 포함하고, 언어 모델은 하나 이상의 음소 또는 단어의 배열 순서 및 관계에 대응되는 정보를 포함할 수 있다.
프로세서(120)는 입력된 음성 신호로부터 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등 다양한 특징을 추출하는 한편, 이를 음향 모델과 비교하여 음성 신호에 포함된 음소를 인식할 수 있다.
그리고, 프로세서(120)는 인식된 음소들의 언어적 순서 관계를 언어 모델을 이용하여 모델링한 결과, 단어 내지는 문장에 대응되는 텍스트를 획득할 수 있다.
이러한 방식으로, 프로세서(120)는 컨텐츠에 포함된 음성을 인식할 수 있다.
한편, 음성 인식의 대상이 되는 컨텐츠는, 전자 장치(100)를 통해 현재 제공되거나 또는 추후 제공될 수 있는 다양한 컨텐츠를 포함할 수 있다.
구체적으로, 컨텐츠는, 현재 전자 장치(100)를 통해 디스플레이되는 영상 및 출력되는 음성을 포함하는 실시간 컨텐츠 또는 사용자가 시청 예약한 컨텐츠에 해당할 수 있다.
또는, 컨텐츠는, 사용자의 시청 이력을 고려했을 때 전자 장치(100)를 통해 사용자가 시청할 것으로 예상되는 컨텐츠에 해당할 수도 있다. 사용자의 시청 이력은, 전자 장치(100)를 통해 사용자가 시청한 컨텐츠에 대한 정보 및/또는 하나 이상의 외부 장치를 통해 해당 사용자가 시청한 컨텐츠에 대한 정보를 포함할 수 있다.
컨텐츠는, 그밖에 전자 장치(100)가 외부로부터 수신할 수 있는 다양한 채널의 방송 컨텐츠 및 전자 장치(100) 내에 기저장된 컨텐츠에 해당할 수도 있고, 전자 장치(100)와 연결된 외부 장치에 저장되어 전자 장치(100)를 통해 제공될 수 있는 컨텐츠일 수도 있다.
한편, 비록 도 2에서는 전자 장치(100)가 디스플레이(110)를 포함하는 것으로 도시하였으나, 본 개시에 따른 전자 장치는, 셋탑 박스나 서버 등으로 구현되는 한편, 입출력 포트(도시되지 않음) 또는 통신부(도시되지 않음)를 통해 연결된 별도의 디스플레이 장치에서 제공되는 컨텐츠에 포함된 음성을 인식할 수도 있다.
본 개시의 일 실시 예에 따른 프로세서(120)는, 컨텐츠에 포함된 음성을 보다 정확하게 인식하기 위해, 컨텐츠에 대한 정보에 기초하여, 컨텐츠에 포함된 음성에 포함될 가능성이 있는 예상 단어를 획득할 수 있다.
컨텐츠에 대한 정보는, 컨텐츠와 관련된 텍스트 및/또는 이미지를 의미하며, 컨텐츠의 방송 또는 제공 시점, 컨텐츠의 유형(뉴스, 스포츠, 쇼, 영화, 다큐멘터리 등), 컨텐츠의 속성(인터넷 방송, TV 방송(생방송/녹화 방송/재방송 등), 전자 장치(100) 또는 기록 매체에 기저장된 컨텐츠 등), 컨텐츠의 내용, 컨텐츠의 제목, 컨텐츠의 등장인물, 컨텐츠의 주제 등 다양한 요소를 포함할 수 있다.
프로세서(120)는 컨텐츠에 대한 정보에 포함된 다양한 텍스트 또는 이미지로부터 예상 단어를 추출할 수 있다. 이때, 복수의 텍스트로부터 하나 이상의 키워드를 추출하도록 학습된 인공지능 모델을 통해, 컨텐츠에 대한 정보로부터 예상 단어를 추출할 수 있다.
이때, 인공지능 모델은, 다양한 텍스트 데이터 및 그로부터 추출되어야 하는 키워드들을 통해 딥 러닝 학습된 것일 수 있다.
인공지능 모델은, 메모리(130)에 저장되어 있을 수 있다. 또는, 프로세서(120)가 외부 서버(도시되지 않음)로 컨텐츠에 대한 정보를 전송하면, 외부 서버에 저장된 인공지능 모델을 통해 컨텐츠에 대한 정보로부터 예상 단어가 추출되고, 이렇게 추출된 예상 단어가 다시 전자 장치(100)로 수신될 수도 있다.
이하 도 3 내지 도 5를 통해서는, 컨텐츠에 대한 정보를 이용하여 예상 단어를 획득하는 구체적인 예들을 설명한다.
일 예로, 프로세서(120)는 컨텐츠의 유형을 판단하고, 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송 또는 공개된 컨텐츠를 판단하고, 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득할 수 있다.
이때, 기설정된 기간은 해당 컨텐츠가 방송되는 시점을 기준으로 한 시간 또는 두 시간 이내, 하루 이내, 일주일 이내 등 다양하게 기설정될 수 있다.
컨텐츠의 유형은, 뉴스, 스포츠, 요리, 다큐멘터리, 영화, 쇼, 드라마, 음악 방송, 1인 방송 등 다양할 수 있다.
도 3은 컨텐츠의 방송 시점을 고려하여 해당 컨텐츠와 동일한 유형의 컨텐츠로부터 예상 단어를 획득하는 일 예를 설명하기 위한 도면이다.
도 3은, 전자 장치(100)를 통해 제공될 컨텐츠가 2017년 12월 30일 오후 7시 뉴스인 경우를 가정한다. 보다 구체적으로는, 도 3은 해당 뉴스가 아직 방송되기 전의 시점에 예상 단어를 미리 획득하는 예에 대한 것이다.
도 3과 관련하여, 프로세서(120)는 해당 뉴스와 동일한 날짜인 2017년 12월 30일에 방송되거나 또는 해당 날짜에 웹상(뉴스 포털, 방송국 홈페이지 등)에 업로드된 뉴스들에 대한 정보를 이용하여 이후 방송될 오후 7시 뉴스의 음성에 포함될 것으로 예상되는 예상 단어를 획득할 수 있다. 이는, 뉴스들의 헤드라인 또는 주요 기사가 해당일 기간에는 거의 유사하다는 점을 고려한 것이다.
도 3을 참조하면, 프로세서(120)는 2017년 12월 30일에 방송 또는 공개된 뉴스 기사들 중 오전 10시 30분의 기사, 오후 1시의 기사, 오후 5시의 기사 등을 이용하여 예상 단어를 획득할 수 있다.
도 3을 참조하면, 프로세서(120)는 오전 10시 30분의 기사 내용을 이용하여, 'ABC', '재수사', '특별 수사단', '김 전 차관', '현직', '검사', '상설 특검' 등의 예상 단어를 추출할 수 있다.
다른 예로, 프로세서(120)는 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 컨텐츠의 유형에 대응되는 예상 단어를 획득할 수도 있다.
도 4는 컨텐츠의 유형에 따른 예상 단어들이 기저장된 데이터 베이스를 표 형태로 도시한 것이다.
도 4를 참조하면, 프로세서(120)는 컨텐츠의 유형이 '뉴스'인 경우 '수도권', '산간 지역', '속보', '대통령' 등을 예상 단어로 이용할 수 있다. 그밖에 컨텐츠의 유형이 '스포츠'인 경우 '슛', '3점슛', '크로스', '스트라이커', '골키퍼', '손흥민' 등을 예상 단어로 이용할 수 있다.
또 다른 예로, 프로세서(120)는 컨텐츠에 대한 검색을 수행하고, 검색 결과에서 추출된 키워드를 예상 단어로 획득할 수도 있다.
관련하여, 도 5는 컨텐츠 자체에 대한 정보를 이용하여 예상 단어를 획득하는 일 예를 설명하기 위한 도면이다. 도 5는 컨텐츠가 '그녀의 품격'이라는 드라마의 '11회차 방송'인 경우를 가정한다.
'그녀의 품격'에 대한 검색 결과, 도 5와 같이 부제 및 대략적인 내용에 대한 텍스트들이 나타나는 것을 확인할 수 있으며, 프로세서(120)는 인공지능 모델을 이용하여 해당 텍스트들로부터 등장인물들(ex. 영희, 철수, 민수), 장소명(ex. 궁), 주제(ex. 복수극) 등과 관련된 다양한 키워드를 예상 단어로 획득할 수 있다.
한편, 도 3 내지 도 5를 통해 상술한 실시 예들 중 적어도 두 가지가 동시에 사용될 수도 있다. 예를 들어, 프로세서(120)는 도 5의 '그녀의 품격'에 대한 예상 단어를 획득함에 있어, 도 5의 예상 단어들뿐만 아니라 도 4의 데이터 베이스 내 '드라마' 유형에 대응되는 키워드들 역시 예상 단어로 획득할 수 있다.
한편, 도 3 내지 도 5를 통해 상술한 실시 예들은, 컨텐츠에 대한 정보를 이용하여 예상 단어를 획득하는 일부 예들에 해당할 뿐, 이 밖에도 예상 단어를 획득하기 위해 컨텐츠에 대한 정보를 이용하는 다양한 실시 예들이 가능함은 물론이다.
상술한 다양한 실시 예들을 통해 예상 단어가 획득되면, 프로세서(120)는 예상 단어를 이용하여 음성 인식 모듈을 통해 컨텐츠에 포함된 음성에 대한 음성 인식을 수행할 수 있다. 그리고, 음성 인식에 기초하여 음성이 변환된 텍스트를 디스플레이(110)에 표시할 수 있다.
구체적으로, 프로세서(120)는 음성 인식 모듈이 음성을 인식한 결과 텍스트 중 예상 단어와 유사한 텍스트를 식별하고, 식별된 텍스트는 예상 단어로 변경할 수 있다.
예를 들어, 음성 인식 모듈이 음향 모델 및 언어 모델을 이용하여 음성을 인식한 결과가 '특별 수사다'인 반면 예상 단어에 '특별 수사단'이 있는 경우, 프로세서(120)는 인식 결과가 '특별 수사다'가 아니라 '특별 수사단'인 것으로 식별할 수 있다.
이를 위해, 음성 인식 모듈이 인식 가능한 음소들 간의 연관관계가 기정의되는 한편, 프로세서(120)는 획득된 예상 단어들 중 어느 하나의 예상 단어와 유사한 인식 결과를 해당 예상 단어로 수정할 수 있다.
인식 결과와 예상 단어가 서로 유사하다는 것은, 인식 결과와 예상 단어 간에 서로 다른 음소의 수가 기설정된 수(ex. 단 하나) 이하인 경우, 인식 결과와 예상 단어 간에 서로 매칭되지 않는 음소들에 있어서 음향 모델에 의해 정의된 특징 값의 차이가 기설정된 범위 내인 경우, 예상 단어에 대응되는 음성 신호의 특징과 인식된 음성의 특징 간의 차이가 기설정된 범위 내인 경우 등 음성 인식의 방식에 따라 다양하게 정의될 수 있으며, 이에 한정되는 것은 아니다.
예를 들어, 특정 예상 단어와 최초 음성 인식 결과를 비교한 결과, '특별 수사다' 및 '특별 수사단'처럼 단 하나의 음소만이 다르고, 차이나는 음소가 'ㄴ' 받침인 경우, 서로 유사하다고 판단하여 최초 음성 인식 결과를 해당 예상 단어로 수정할 수 있다.
한편, 이렇듯 인식 결과와 예상 단어 간의 유사 여부의 판단은 기설정된 조건으로 정해지거나 또는 단어 간의 유사성을 판단하도록 학습된 인공지능 모델에 기초할 수도 있다.
예를 들어, 최초 음성 인식 결과가 특정 예상 단어와 동일하다면, 최초 음성 인식 결과를 그대로 사용할 수 있다.
예를 들어, 최초 음성 인식 결과가 예상 단어들 중 어느 하나와도 유사하지 않다면, 역시 최초 음성 인식 결과를 그대로 사용할 수 있다.
한편, 상술한 실시 예는 음향 모델 및 언어 모델을 거친 음성 인식 결과를 예상 단어와 비교하였으나, 음향 모델 및/또는 언어 모델 자체를 예상 단어에 기초하여 학습 내지는 업데이트 시키는 경우도 상정할 수 있다.
예를 들어, 컨텐츠의 정보에 따라 '특별 수사단', '검찰' 등의 예상 단어가 획득된 경우, 프로세서(120)는, 언어 모델을 통해 컨텐츠의 음성으로부터 획득된 복수의 음소들을 조합함에 있어 '특별 수사단', '검찰'로 조합하는 경우에 대한 변수 값(ex. weight)을 조정할 수도 있다.
조정 전후를 비교함에 있어, 예를 들어 '특별 수사단'에 포함된 복수의 음소 중 대부분의 음소들이 음향 모델을 통해 인식되는 경우를 동일하게 전제하더라도, 언어 모델을 통해 음소들을 조합한 결과(인식 결과)가 '특별 수사단'이 될 확률이 조정 전보다 조정 후에 더 높아질 수 있다.
한편, 상술하였듯, 컨텐츠는 실시간 컨텐츠 외에도 시청 예약된 컨텐츠 또는 시청 이력에 근거하여 시청될 것으로 예상되는 컨텐츠일 수 있다.
관련하여, 프로세서(120)는, 전자 장치(100)의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 사용자가 시청할 것으로 예상되는 컨텐츠를 판단하고, 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득하고, 판단된 컨텐츠가 디스플레이(110)에 표시되면, 예상 단어를 이용하여 음성 인식 모듈을 통해 컨텐츠의 음성에 대한 음성 인식을 수행할 수 있다.
한편, 음성을 인식하는 과정, 예상 단어를 획득하는 과정 및 컨텐츠와 자막을 제공하는 과정이 모두 전자 장치(100)상에서 이루어질 수도 있지만, 해당 과정들 중 적어도 하나는, 전자 장치(100)가 아닌 하나 이상의 외부 장치를 통해 수행될 수도 있다.
도 6은 음성 인식 모듈을 포함하는 전자 장치가 서버로부터 수신된 예상 단어를 이용하여 음성 인식을 수행하는 일 예를 설명하기 위한 도면이다.
도 6을 참조하면, TV인 전자 장치(100)는 디스플레이 중인 또는 디스플레이 할 컨텐츠에 대한 정보를 서버(200)로 전송할 수 있다(①). 이때, 컨텐츠에 대한 정보는 컨텐츠가 방송되는 채널에 대한 정보, 컨텐츠의 제목, 회차 등에 대한 정보 등을 포함할 수 있다.
컨텐츠에 대한 정보를 수신한 서버(200)는, 이를 이용하여 컨텐츠의 음성에 포함될 것으로 예상되는 예상 단어를 획득할 수 있다(②).
이후 획득된 예상 단어가 서버(200)로부터 수신되면(③), 전자 장치(100)는 예상 단어를 이용하여 컨텐츠에 포함된 음성에 대한 음성 인식을 수행하고(④), 음성 인식 결과인 텍스트를 컨텐츠와 함께 표시할 수 있다(⑤).
도 6과 다른 예로, 외부 서버가 컨텐츠에 대한 정보를 이용하여 예상 단어를 획득하고, 획득된 예상 단어를 이용하여 컨텐츠에 포함되는 음성을 인식한 뒤, 그 결과인 텍스트를 전자 장치(100)로 전송할 수 있다. 이 경우, 전자 장치(100)는 수신된 텍스트를 컨텐츠와 함께 제공할 수 있다.
또 다른 예로, 전자 장치(100)가 컨텐츠를 제1 서버(도시되지 않음)로부터 공급받는 경우, 제1 서버는 전자 장치(100)가 현재 시청 중이거나 시청 예정인 컨텐츠에 대한 정보를 제2 서버(도시되지 않음)로 전송할 수도 있다.
이때, 제2 서버는 수신된 컨텐츠에 대한 정보를 이용하여 예상 단어를 획득하여 전자 장치(100)로 전송할 수 있다. 이 경우, 전자 장치(100)는 수신된 예상 단어를 이용하여 음성 인식을 수행할 수 있다.
또는, 제2 서버는 예상 단어를 획득함은 물론 획득된 예상 단어를 이용하여 컨텐츠의 음성을 인식한 뒤, 음성 인식의 결과 텍스트를 전자 장치(100)로 전송할 수도 있다.
이렇듯, 전자 장치(100)는 상술한 다양한 실시 예들을 통해 컨텐츠에 포함된 음성을 인식한 텍스트를 획득함으로써, 해당 텍스트를 청각 장애인을 위한 자막으로서 컨텐츠와 함께 제공할 수 있다.
프로세서(120)는 표시된 텍스트 중 특정 부분에 오류가 있음을 알리는 사용자 입력이 수신되면, 오류가 있는 텍스트 부분을 식별하고, 오류가 있는 부분의 텍스트를 수정할 수 있다. 또는, 프로세서(120)는 기존에 컨텐츠에 포함된 이미지 내의 텍스트를 음성 인식된 텍스트와 비교하여, 음성 인식된 텍스트의 오류 부분을 식별하고, 오류 부분을 수정할 수도 있다.
그리고, 해당 컨텐츠가 디스플레이(110)에 다시 표시되는 경우 수정된 텍스트를 표시할 수 있다.
구체적으로, 프로세서(120)는, 오류가 있는 텍스트 부분에 포함되는 예상 단어를 수정할 수 있다.
이 경우, 프로세서(120)는 디스플레이(110)에 표시된 텍스트에 오류가 존재하는 경우, 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 음성 인식을 수행할 수 있다.
또는, 프로세서(120)는, 디스플레이(110)에 표시된 텍스트에 오류가 존재하는 경우, 사용자가 컨텐츠와 관련하여 서버(도시되지 않음)에 업로드한 단어에 기초하여 예상 단어를 수정/업데이트할 수도 있다.
또한, 프로세서(100)는 음성 인식 모듈 중 오류가 있는 텍스트 부분과 대응되는 음향 모델 또는 언어 모델의 변수 값을 조정할 수 있다. 이 경우, 추후 다른 컨텐츠의 음성을 인식하는 기능 역시 향상될 수 있다.
한편, 프로세서(120)는 음성 인식에 따른 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하고, 획득된 수어 이미지를 디스플레이하도록 디스플레이(110)를 제어할 수 있다.
이를 위해, 메모리(130)에는 복수의 단어 및/또는 복수의 문장에 각각 대응되는 복수의 수어 애니메이션 비디오들(비디오 각각은 복수의 이미지를 포함)이 저장되어 있을 수 있다.
예를 들어, 음성 인식된 텍스트가 "안녕하세요."인 경우, 프로세서(120)는 "안녕하세요."에 대응되는 수어 애니메이션 비디오(복수의 이미지 포함)를 디스플레이하도록 디스플레이(110)를 제어할 수 있다.
수어 애니메이션 비디오는 아바타 또는 캐릭터 등이 수어를 하는 모습을 나타낼 수 있으며, 전자 장치(100)의 사용자의 국적 또는 전자 장치(100)의 제조사의 국적 등에 따라 기설정된 수어가 제공될 수 있다.
만약, 수어 애니메이션 비디오에 오류가 있다는 것을 알리는 사용자의 입력이 수신되는 경우, 수어 애니메이션 비디오에 대응되는 텍스트(음성 인식 결과)의 오류를 앞서 언급한 실시 예에 따라 수정하거나 또는 수어 애니메이션 비디오에 포함되는 수어 이미지를 수정하여 저장할 수 있다.
도 7은 음성 인식에 따라 생성된 텍스트에 대응되는 수어 이미지를 제공하는 일 예를 설명하기 위한 도면이다.
도 7을 참조하면, 전자 장치(100)는 강연 컨텐츠(705)를 표시하는 동시에, 강연 컨텐츠(705)에 포함되는 음성을 인식한 결과 텍스트에 대응되는 수어 이미지(710)를 표시할 수 있다.
수어 이미지(710)는, 아바타(711)가 강연 컨텐츠(705)에 출연하는 강연자의 음성에 대응되는 수어를 하는 모습을 담고 있다.
한편, 전자 장치(100)는 도 7과 달리, 수어 이미지(710)뿐만 아니라, 음성을 인식한 결과 텍스트를 함께 표시할 수도 있음은 물론이다.
한편, 전자 장치(100)는 통신부(도시되지 않음)를 더 포함하고, 프로세서(120)는, 통신부를 통해 외부 장치로부터 수어 방송에 대한 정보가 수신되면, 수신된 수어 방송에 대한 정보에 기초하여 수어 방송에 대응되는 컨텐츠를 식별할 수 있다. 그리고, 식별된 컨텐츠를 포함하는 목록을 디스플레이하도록 디스플레이(110)를 제어할 수 있다.
여기서, 목록에 포함된 컨텐츠가 사용자 명령 또는 기설정된 조건 등에 의해 선택된 경우, 프로세서(120)는 선택된 컨텐츠의 이미지 및 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이하도록 디스플레이(110)를 제어할 수 있다.
관련하여, 도 8a 및 도 8b는 수어 방송에 대한 유저 인터페이스를 제공하는 예를 설명하기 위한 도면들이다.
도 8a를 참조하면, 전자 장치(100)의 디스플레이가 이미지(805)와 같이 적어도 하나의 컨텐츠를 디스플레이하고 있는 중에, 전자 장치(100)는 수화 방송이 함께 제공될 수 있는 컨텐츠들에 대한 목록(810)을 디스플레이할 수 있다.
수화 방송은, 다른 전자 장치를 통해 촬영된 다른 사용자의 방송 컨텐츠일 수 있으며, 해당 방송 컨텐츠는 외부 서버(도시되지 않음)를 통해 전자 장치(100)로 수신될 수 있다.
실시간 방송되는 컨텐츠의 경우, 수화 방송 역시 실시간으로 제공되어야 하므로, 수화 방송이 실제 제공되기 전부터 사용자에게 수화 방송이 제공될 것인지 여부를 미리 알려줄 필요도 있다. 따라서, 수화 방송을 하는 다른 사용자가 특정 날짜/시간의 특정 컨텐츠에 대해 수화 방송을 제공한다는 알림을 서버에 미리 제공하면, 전자 장치(100)는 서버로부터 해당 정보를 수신하여 컨텐츠들에 대한 목록(810)을 생성 및 디스플레이할 수 있다.
이 경우, 컨텐츠들에 대한 목록(810)은 현재 방송 중인 컨텐츠 뿐만 아니라, 이후 방송될 컨텐츠 역시 포함할 수 있다.
도 8a에서 사용자가 목록(810)에 포함된 컨텐츠들 중 특별 강연 "행복이란?"이라는 컨텐츠를 선택한 경우, 전자 장치(100)는 도 8b와 같이 선택된 컨텐츠(815)를 제공하기 위해 방송 수신 채널을 'ABZ'로 전환하는 한편, 그에 대응되는 수화 방송 컨텐츠(820)를 함께 디스플레이할 수 있다.
또한, 도 8b를 참조하면, 선택된 컨텐츠(815)에 포함된 음성을 인식한 결과에 따른 텍스트(825)를 자막으로 함께 표시할 수도 있다.
한편, 컨텐츠 및 컨텐츠에 대응되는 수화 방송이 디스플레이(110)상에 디스플레이되는 영역의 크기 및 위치는 도 8b에 도시된 모습으로만 한정되는 것은 아니고, 다양하게 기설정되거나 사용자 명령에 의해 변경될 수 있음은 물론이다. 도 8b와 달리, 텍스트(825)가 제공되지 않을 수도 있다.
한편, 프로세서(120)는 컨텐츠를 수신하는 통신 속도/환경에 따라, 기저장된 수어 이미지를 제공할지 또는 외부로부터 수신되는 수화 방송 컨텐츠를 제공할지를 판단할 수 있다.
구체적으로, 컨텐츠를 수신하는 통신 속도/환경이 비교적 좋은 경우라면 외부로부터 수신되는 수화 방송 컨텐츠를 컨텐츠와 함께 제공하겠지만, 통신 속도/환경이 좋지 않은 경우 메모리(130)에 기저장된 수어 이미지를 제공할 수도 있다.
도 9는 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치의 구성을 설명하기 위한 블록도이다.
도 9를 참조하면, 전자 장치(100)는 디스플레이(110), 프로세서(120), 메모리(130)뿐만 아니라, 통신부(140), 방송 수신부(150), 입출력 포트(160) 및 사용자 입력부(170) 중 적어도 하나를 더 포함할 수 있다.
통신부(140)는 전자 장치(100)가 외부 장치(도시되지 않음)와 무선 혹은 유선으로 데이터 통신을 수행하기 위한 수단이다.
무선 통신 방식으로 외부 장치와 데이터 통신을 수행할 경우, 통신부(140)는 와이파이 다이렉트(WIFI DIRECT) 통신 모듈, 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 지그비(Zigbee) 모듈, 셀룰러 통신모듈, 3G(3세대) 이동통신 모듈, 4G(4세대) 이동통신 모듈, 4세대 LTE(Long Term Evolution) 통신 모듈 중 적어도 하나를 포함할 수 있다.
유선 통신 방식으로 외부 장치와 데이터 통신을 수행할 경우, 통신부(140)는 USB와 같은 인터페이스 모듈을 포함할 수 있으며, 이 같은 인터페이스 모듈을 통해 PC와 같은 외부 단말 장치와 물리적으로 연결되어 음성 또는 이미지 데이터를 송수신하거나 혹은 펌웨어 업그레이드를 수행하기 위한 펌웨어 데이터를 송수신할 수 있다.
한편, 통신부(140)는, 원격 제어 장치(도시되지 않음) 등과 데이터를 송수신하기 위한 제1 통신부(도시되지 않음) 및 외부 서버(도시되지 않음)와 데이터를 송수신하기 위한 제2 통신부(도시되지 않음)를 각각 별도로 포함할 수도 있다. 이때, 제1 통신부(도시되지 않음)는 이더넷 모뎀, 와이파이 모듈 및 블루투스 모듈 등으로 구현되는 한편, 제2 통신부는 별도의 와이파이 모듈로 구현될 수도 있다.
전자 장치(100)가 디스플레이(110)를 포함하는 경우, 통신부(140)는 서버 등의 외부 장치로부터 컨텐츠를 수신할 수 있다. 또한, 외부 장치에 컨텐츠에 대한 정보를 전송하고 예상 단어를 수신할 수도 있다. 또한, 외부 장치로부터 컨텐츠에 포함된 음성에 대한 인식 결과(텍스트)를 수신할 수도 있다.
전자 장치(100)가 디스플레이(110)를 포함하지 않는 경우, 통신부(140)는 서버 등 외부 장치로부터 컨텐츠를 수신하는 한편, 스마트폰 등의 외부 장치로 해당 컨텐츠를 다시 전송할 수 있다. 또는, 수신된 컨텐츠가 입출력 포트(160)를 통해 TV 또는 PC 등으로 전송될 수도 있다.
방송 수신부(150)는 방송 컨텐츠에 대한 신호를 수신할 수 있다. 방송 컨텐츠는 영상, 오디오 및 부가 데이터(예를 들어, EPG)를 포함할 수 있으며, 방송 수신부(150)는 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 컨텐츠 신호를 수신할 수 있다.
방송 수신부(150)는 방송국으로부터 전송되는 방송 컨텐츠를 수신하기 위해 튜너(미도시), 복조기(미도시), 등화기(미도시) 등과 같은 구성을 포함하는 형태로 구현될 수 있다.
입출력 포트(160)를 통해, 전자 장치(100)는 외부로부터 이미지 및/또는 음성에 대한 신호를 수신하거나 또는 외부에 이미지 및/또는 음성 신호를 전송할 수 있다.
이를 위해, 입출력 포트(160)는 HDMI 포트, 디스플레이 포트, RGB 포트, DVI(Digital Visual Interface) 포트, 썬더볼트 및 컴포넌트 포트 등 유선 포트로 구현될 수 있다. 또는, 입출력 포트(160)는 와이파이나 블루투스 통신 등 무선 통신을 위한 포트로 구현될 수도 있다.
입출력 포트(160)는 HDMI 포트나 썬더볼트 등으로 구현되어 이미지 및 음성 신호를 함께 전송하도록 구현될 수도 있지만, 이미지 신호를 전송하는 제1 포트 및 음성 신호를 전송하는 제2 포트가 각각 별도로 구현된 것일 수도 있다.
사용자 입력부(170)는 전자 장치(100)가 사용자로부터 명령 또는 정보를 받을 수 있게 하는 구성이다.
사용자 입력부(170)는 사용자의 명령 또는 정보를 터치로 입력받기 위해, 디스플레이(110)와 함께 구현된 터치 패널(도시되지 않음) 또는 별도의 터치 패드(도시되지 않음)를 포함할 수 있다. 사용자 입력부(170)는 사용자의 명령 또는 정보를 음성으로 입력받기 위해 마이크(도시되지 않음)를 포함할 수도 있다.
사용자 입력부(170)는 사용자로부터 정보를 입력받기 위해 하나 이상의 버튼, 키보드, 마우스(이상 도시되지 않음) 등을 포함할 수도 있다.
전자 장치(100)는 사용자 입력부(170)를 통해 수신된 사용자 명령에 따라 음성 인식에 따른 텍스트가 표시되는 디스플레이(110)상의 위치, 크기, 비율, 색 등을 조정할 수 있다.
수어 이미지를 제공하는 경우, 전자 장치(100)는 사용자 입력부(170)를 통해 수신된 사용자 명령에 따라 어떤 국가의 수어에 대한 이미지를 제공할지 여부, 수어 이미지가 표시되는 디스플레이(110)상의 위치, 크기, 비율, 색 등을 조정할 수 있다. 또한, 사용자 입력부(170)를 통해, 수어 이미지에 나오는 아바타 또는 캐릭터를 설정하고자 하는 사용자 명령 역시 수신할 수 있다.
전자 장치(100)는, 컨텐츠에 대한 텍스트(음성 인식) 및/또는 수어 이미지의 활성화(표시) 여부에 대한 사용자의 선택 명령을 사용자 입력부(170)를 통해 수신할 수도 있다.
한편, 사용자 입력부(170)는 카메라를 포함할 수 있으며, 사용자는 카메라 및 마이크를 이용하여 스스로 직접 수어 방송 등의 컨텐츠를 만들 수도 있다.
전자 장치(100)는 사용자 입력부(170)를 통해 오류를 지적하는 사용자 명령이 수신되면, 해당 사용자 명령이 수신된 시점에 컨텐츠와 함께 디스플레이된 텍스트 및/또는 수어 이미지의 오류를 수정하고, 해당 컨텐츠 또는 관련 컨텐츠가 디스플레이되는 때에 이러한 수정 내용이 반영된 텍스트 및/또는 수어 이미지를 제공할 수 있다.
이하에서는, 본 개시에 따른 전자 장치의 제어 방법을 설명한다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다. 이때, 전자 장치는 영상 및 음성을 포함하는 컨텐츠를 제공하는 장치일 수 있다.
도 10을 참조하면, 본 제어 방법은, 컨텐츠의 영상을 표시할 수 있다(S1010).
한편, 컨텐츠에 대한 정보에 기초하여 컨텐츠의 음성에 포함될 가능성이 있는 예상 단어를 획득할 수 있다(S1020).
이때, 제공되는 컨텐츠의 유형을 판단하고, 제공되는 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 제공되는 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송된 컨텐츠를 판단하고, 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득할 수 있다.
또는, 제공되는 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 해당 컨텐츠의 유형에 대응되는 예상 단어를 획득할 수 있다.
또는, 컨텐츠에 대한 검색을 수행하고, 검색 결과에서 추출된 키워드를 예상 단어로 획득할 수도 있다.
상술한 예들과 같이 다양한 방식들로 예상 단어가 획득되면, 본 제어 방법은, 예상 단어를 이용하여, 기저장된 음성 인식 모듈을 통해 컨텐츠의 음성에 대한 음성 인식을 수행할 수 있다(S1030).
그리고, 음성 인식에 기초하여 컨텐츠의 음성이 변환된 텍스트를 표시할 수 있다(S1040). 구체적으로는, 컨텐츠의 영상과 함께 표시할 수 있다.
한편, 본 제어 방법은, 전자 장치의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 사용자가 시청할 것으로 예상되는 컨텐츠를 판단할 수 있다. 이때, 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득하고, 판단된 컨텐츠가 전자 장치의 디스플레이에 표시되면, 획득된 예상 단어를 이용하여 음성 인식 모듈을 통해 컨텐츠의 음성에 대한 음성 인식을 수행할 수 있다.
한편, 본 제어 방법은, 표시된 텍스트에 오류가 존재하는 경우, 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 음성 인식을 수행할 수 있다.
또는, 표시된 텍스트에 오류가 존재하는 경우, 사용자가 컨텐츠와 관련하여 서버에 업로드한 단어에 기초하여 예상 단어를 업데이트할 수도 있다.
한편, 본 제어 방법은, 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하고, 획득된 수어 이미지를 컨텐츠와 함께 디스플레이할 수도 있다.
또한, 본 제어 방법은, 외부 장치로부터 수어 방송에 대한 정보가 수신되면, 수신된 수어 방송에 대한 정보에 기초하여, 수어 방송에 대응되는 컨텐츠를 식별하고, 식별된 컨텐츠를 포함하는 목록을 디스플레이하며, 목록에 포함된 컨텐츠가 선택된 경우, 선택된 컨텐츠의 이미지 및 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이할 수도 있다.
상술한 전자 장치의 제어 방법은, 도 2 및 도 9를 통해 도시 및 설명한 전자 장치(100)를 통해 수행될 수 있다. 또는, 전자 장치(100) 및 하나 이상의 외부 장치(도시되지 않음)를 포함하는 시스템을 통해 수행될 수도 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.
일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100: 전자 장치 110: 디스플레이
120: 프로세서 130: 메모리
140: 통신부 150: 방송 수신부
160: 입출력 포트 170: 사용자 입력부

Claims (19)

  1. 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치에 있어서,
    상기 영상을 표시하는 디스플레이;
    음성 인식 모듈이 저장된 메모리; 및
    상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하고, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하고, 상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 상기 디스플레이에 표시하는 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 컨텐츠의 유형을 판단하고, 상기 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 상기 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송 또는 공개된 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득하는 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 상기 컨텐츠의 유형에 대응되는 예상 단어를 획득하는 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 컨텐츠에 대한 검색을 수행하고, 상기 검색 결과에서 추출된 키워드를 상기 예상 단어로 획득하는 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 전자 장치의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 상기 사용자가 시청할 것으로 예상되는 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득하고, 상기 판단된 컨텐츠가 상기 디스플레이에 표시되면, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 컨텐츠의 음성에 대한 음성 인식을 수행하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 디스플레이에 표시된 상기 텍스트에 오류가 존재하는 경우, 상기 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 상기 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 상기 음성에 대한 음성 인식을 수행하는 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 디스플레이에 표시된 상기 텍스트에 오류가 존재하는 경우, 사용자가 상기 컨텐츠와 관련하여 서버에 업로드한 단어에 기초하여 상기 예상 단어를 업데이트하는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하고, 상기 획득된 수어 이미지를 디스플레이하도록 상기 디스플레이를 제어하는, 전자 장치.
  9. 제1항에 있어서,
    통신부;를 더 포함하고,
    상기 프로세서는,
    상기 통신부를 통해 외부 장치로부터 수어 방송에 대한 정보가 수신되면, 상기 수신된 수어 방송에 대한 정보에 기초하여, 상기 수어 방송에 대응되는 컨텐츠를 식별하고,
    상기 식별된 컨텐츠를 포함하는 목록을 디스플레이하도록 상기 디스플레이를 제어하며,
    상기 목록에 포함된 컨텐츠가 선택된 경우, 상기 선택된 컨텐츠의 이미지 및 상기 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이하도록 상기 디스플레이를 제어하는, 전자 장치.
  10. 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치의 제어 방법에 있어서,
    상기 영상을 표시하는 단계;
    상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하는 단계;
    상기 예상 단어를 이용하여 기저장된 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 표시하는 단계;를 포함하는, 제어 방법.
  11. 제10항에 있어서,
    상기 예상 단어를 획득하는 단계는,
    상기 컨텐츠의 유형을 판단하고, 상기 컨텐츠의 유형과 동일한 유형의 다른 컨텐츠 중에서 상기 컨텐츠가 방송되는 시점을 기준으로 기설정된 기간 이내에 방송 또는 공개된 컨텐츠를 판단하고, 상기 판단된 컨텐츠와 관련된 단어를 상기 예상 단어로 획득하는, 제어 방법.
  12. 제10항에 있어서,
    상기 예상 단어를 획득하는 단계는,
    상기 컨텐츠의 유형을 판단하고, 컨텐츠의 유형별로 예상 단어가 저장된 데이터베이스로부터 상기 컨텐츠의 유형에 대응되는 예상 단어를 획득하는, 제어 방법.
  13. 제10항에 있어서,
    상기 예상 단어를 획득하는 단계는,
    상기 컨텐츠에 대한 검색을 수행하고, 상기 검색 결과에서 추출된 키워드를 상기 예상 단어로 획득하는 제어 방법.
  14. 제10항에 있어서,
    상기 전자 장치의 사용자의 시청 이력 또는 시청 예약에 대한 정보에 기초하여 상기 사용자가 시청할 것으로 예상되는 컨텐츠를 판단하는 단계;
    상기 판단된 컨텐츠와 관련된 단어를 예상 단어로 획득하는 단계; 및
    상기 판단된 컨텐츠가 상기 전자 장치의 디스플레이에 표시되면, 상기 예상 단어를 이용하여 상기 음성 인식 모듈을 통해 상기 컨텐츠의 음성에 대한 음성 인식을 수행하는 단계;를 더 포함하는, 제어 방법.
  15. 제10항에 있어서,
    상기 표시된 텍스트에 오류가 존재하는 경우, 상기 컨텐츠에 대한 정보에 기초하여 획득된 복수의 예상 단어 중에서 상기 오류가 있는 텍스트의 변환에 기초가 된 예상 단어와 유사한 다른 예상 단어를 이용하여 상기 음성에 대한 음성 인식을 수행하는 단계;를 더 포함하는, 제어 방법.
  16. 제10항에 있어서,
    상기 표시된 텍스트에 오류가 존재하는 경우, 사용자가 상기 컨텐츠와 관련하여 서버에 업로드한 단어에 기초하여 상기 예상 단어를 업데이트하는 단계;를 더 포함하는, 제어 방법.
  17. 제10항에 있어서,
    상기 텍스트에 대응되는 하나 이상의 수어 이미지를 획득하는 단계; 및
    상기 획득된 수어 이미지를 디스플레이하는 단계;를 더 포함하는, 제어 방법.
  18. 제10항에 있어서,
    외부 장치로부터 수어 방송에 대한 정보가 수신되면, 상기 수신된 수어 방송에 대한 정보에 기초하여, 상기 수어 방송에 대응되는 컨텐츠를 식별하는 단계;
    상기 식별된 컨텐츠를 포함하는 목록을 디스플레이하는 단계; 및
    상기 목록에 포함된 컨텐츠가 선택된 경우, 상기 선택된 컨텐츠의 이미지 및 상기 선택된 컨텐츠에 대응되는 수어 방송의 이미지가 합성된 합성 이미지를 디스플레이하는 단계;를 더 포함하는, 제어 방법.
  19. 영상 및 음성을 포함하는 컨텐츠를 제공하는 전자 장치의 프로세서에 의해 실행되어, 상기 전자 장치로 하여금,
    상기 영상을 표시하는 단계;
    상기 컨텐츠에 대한 정보에 기초하여 상기 음성에 포함될 가능성이 있는 예상 단어를 획득하는 단계;
    상기 예상 단어를 이용하여 기저장된 음성 인식 모듈을 통해 상기 음성에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식에 기초하여 상기 음성이 변환된 텍스트를 표시하는 단계;를 포함하는, 동작을 수행하도록 하는 컴퓨터 명령어(Instructions)가 저장된 컴퓨터 판독 가능 매체.
KR1020190044362A 2019-04-16 2019-04-16 텍스트를 제공하는 전자 장치 및 그 제어 방법. Pending KR20200121603A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190044362A KR20200121603A (ko) 2019-04-16 2019-04-16 텍스트를 제공하는 전자 장치 및 그 제어 방법.
PCT/KR2020/004785 WO2020213884A1 (ko) 2019-04-16 2020-04-09 텍스트를 제공하는 전자 장치 및 그 제어 방법.
US17/497,668 US12087304B2 (en) 2019-04-16 2021-10-08 Electronic device for providing text and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190044362A KR20200121603A (ko) 2019-04-16 2019-04-16 텍스트를 제공하는 전자 장치 및 그 제어 방법.

Publications (1)

Publication Number Publication Date
KR20200121603A true KR20200121603A (ko) 2020-10-26

Family

ID=72837425

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190044362A Pending KR20200121603A (ko) 2019-04-16 2019-04-16 텍스트를 제공하는 전자 장치 및 그 제어 방법.

Country Status (3)

Country Link
US (1) US12087304B2 (ko)
KR (1) KR20200121603A (ko)
WO (1) WO2020213884A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102350359B1 (ko) * 2021-06-18 2022-01-12 노마드웍스 주식회사 음성 인식 알고리즘을 이용한 영상 편집 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.
CN113886612A (zh) * 2020-11-18 2022-01-04 北京字跳网络技术有限公司 一种多媒体浏览方法、装置、设备及介质
WO2024128360A1 (ko) * 2022-12-16 2024-06-20 엘지전자 주식회사 인공 지능 장치 및 그의 3차원 에이전시 동작 제어 방법

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5478478U (ko) 1977-11-11 1979-06-04
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
KR20040105396A (ko) 2003-06-09 2004-12-16 엘지전자 주식회사 티브이의 자막 오타 수정장치 및 그 방법
CA2654869C (en) * 2006-06-12 2016-08-30 Invidi Technologies Corporation System and method for inserting media based on keyword search
US7746986B2 (en) * 2006-06-15 2010-06-29 Verizon Data Services Llc Methods and systems for a sign language graphical interpreter
KR20080086640A (ko) * 2007-03-23 2008-09-26 주식회사 한국스테노 디지털 복합 수신기를 통한 수화·자막 수신장치 및 방법
US9282377B2 (en) * 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
JP2010154397A (ja) * 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8744860B2 (en) * 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
JP5478478B2 (ja) 2010-12-15 2014-04-23 日本放送協会 テキスト修正装置およびプログラム
KR20130032655A (ko) 2011-09-23 2013-04-02 브로드밴드미디어주식회사 검색을 이용한 수화 방송 장치 및 방법
KR102061044B1 (ko) * 2013-04-30 2020-01-02 삼성전자 주식회사 수화 번역 및 화면 해설 서비스 방법 및 시스템
KR20150034956A (ko) 2013-09-27 2015-04-06 삼성전자주식회사 컨텐츠 인식 방법 및 이를 적용한 디스플레이 장치, 그리고 컨텐츠 인식 시스템
US20150098018A1 (en) * 2013-10-04 2015-04-09 National Public Radio Techniques for live-writing and editing closed captions
KR102247533B1 (ko) * 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
JP6637333B2 (ja) 2016-02-23 2020-01-29 日本放送協会 音響モデル生成装置およびそのプログラム
KR102044689B1 (ko) 2017-04-24 2019-12-04 주식회사 소리보기 방송자막 제작 시스템 및 방법
KR101899588B1 (ko) 2018-03-05 2018-09-17 주식회사 이큐포올 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법
KR102070197B1 (ko) 2018-04-11 2020-01-28 김진회 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102350359B1 (ko) * 2021-06-18 2022-01-12 노마드웍스 주식회사 음성 인식 알고리즘을 이용한 영상 편집 방법

Also Published As

Publication number Publication date
US12087304B2 (en) 2024-09-10
WO2020213884A1 (ko) 2020-10-22
US20220028393A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
US11024312B2 (en) Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus
US9942599B2 (en) Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data
US12225248B2 (en) Systems and methods for correcting errors in caption text
KR20200121603A (ko) 텍스트를 제공하는 전자 장치 및 그 제어 방법.
EP3175442B1 (en) Systems and methods for performing asr in the presence of heterographs
US20230147985A1 (en) Information processing apparatus, information processing method, and computer program
CN106796496A (zh) 显示设备及其操作方法
US20200371741A1 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
KR102210933B1 (ko) 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들
KR102277749B1 (ko) 디스플레이 장치 및 그 제어 방법
US8600732B2 (en) Translating programming content to match received voice command language
US10133735B2 (en) Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
US20170374423A1 (en) Crowd-sourced media playback adjustment
WO2023218268A1 (en) Generation of closed captions based on various visual and non-visual elements in content
KR102729027B1 (ko) 전자 장치 및 그 동작 방법
KR101962126B1 (ko) 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
KR102801048B1 (ko) 전자장치와 그의 제어방법, 및 기록매체
US12027168B2 (en) Electronic device and method for providing assistant service with utterance list
CN111858856A (zh) 多轮检索式聊天方法及显示设备
KR102524180B1 (ko) 디스플레이장치 및 그 제어방법
JP2021092612A (ja) コマンド制御装置、制御方法および制御プログラム
GB2626610A (en) An information processing device, method and computer program
KR20230126109A (ko) 디스플레이 장치 및 그 동작 방법
BR112016017815B1 (pt) Método para utilização sincronizada de dispositivo eletrônico e sistema para processar conteúdo de áudio/vídeo
JP2017060059A (ja) 制御プログラム、記憶媒体、携帯通信機、番組関連情報提供装置及び番組関連情報表示方法

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190416

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20220322

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20190416

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20241125

Patent event code: PE09021S01D