[go: up one dir, main page]

KR20190111009A - 번역 장치 및 번역 방법 - Google Patents

번역 장치 및 번역 방법 Download PDF

Info

Publication number
KR20190111009A
KR20190111009A KR1020197011320A KR20197011320A KR20190111009A KR 20190111009 A KR20190111009 A KR 20190111009A KR 1020197011320 A KR1020197011320 A KR 1020197011320A KR 20197011320 A KR20197011320 A KR 20197011320A KR 20190111009 A KR20190111009 A KR 20190111009A
Authority
KR
South Korea
Prior art keywords
sentence
translation
similarity
text
formal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020197011320A
Other languages
English (en)
Inventor
나츠키 사에키
Original Assignee
파나소닉 아이피 매니지먼트 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 아이피 매니지먼트 가부시키가이샤 filed Critical 파나소닉 아이피 매니지먼트 가부시키가이샤
Publication of KR20190111009A publication Critical patent/KR20190111009A/ko
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • G06F17/2809
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • G06F17/2229
    • G06F17/2775
    • G06F17/2836
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 번역 장치는 문자열 출력부(1141)와, 정형문 취득부(1142)와, 매칭부(1143)와, 분할 처리부(1145)와, 번역 결과 출력부(115)를 포함한다. 문자열 출력부(1141)는 각각 제1 언어의 텍스트의 적어도 일부이고, 텍스트의 선두 문자를 포함하는 복수의 문자열을, 문자열 길이 순으로 출력한다. 정형문 취득부(1142)는 제2 언어의 대역 문장에 대응지어진 제1 언어의 정형문을 취득한다. 매칭부(1143)는 문자열 길이의 순서로, 복수의 문자열의 각각과 정형문의 유사도를 산출한다. 분할 처리부(1145)는 제1 임계값을 넘는 유사도 중 최대의 유사도에 대응하는 위치에서 텍스트를 분할한다. 번역 결과 출력부(115)는 분할된 텍스트의 번역 문장으로서, 대역 문장을 출력한다.

Description

번역 장치 및 번역 방법
본 개시는 제1 언어로 입력된 데이터를 제2 언어로 자동 번역해서 출력하는 번역 장치 및 번역 방법에 관한 것이다.
기계 번역 시스템에 의한 번역에서는, 입력 문장이 긴 경우에 번역 오류가 생기기 쉽기 때문에, 입력 문장을 짧게 분할하고, 분할 후의 각 부에 대해 번역을 행하는 방법이 알려져 있다. 문장 분할 처리에 있어서는, 임의의 한 문장을 반복해 분할해서 각 분할 문장에 대해 언어 모델에 근거해서 분할 위치로서 가장 적절한 정밀도를 산출한다. 그리고, 이것을 분할 불가능하게 되기까지 반복하는 것에 의해, 분할 문장 후보를 취득하고 있다(예를 들어, 특허문헌 1 참조). 분할 문장 후보로서 코퍼스를 이용해 유사도 높은 분할 문장이 선택되고, 해당 분할 문장이 번역에 부쳐진다.
특허문헌1: 일본 특허 공개 2006-18354호 공보
종래의 방법에서는, 입력된 문장은 분할될 때마다 그 타당 정도가 계산될 필요가 있고, 그 후 번역에 부쳐진다. 그 때문에, 분할 처리를 거쳐 번역 결과가 출력되기까지의 계산량이 많고, 시간을 요한다.
본 개시는 정형문을 이용하는 자동 번역에 있어서, 번역의 속도를 향상시키는 것을 목적으로 한다.
본 개시의 하나의 관점에 의하면, 번역 장치는, 문자열 출력부와, 정형문 취득부와, 매칭부와, 분할 처리부와, 번역 결과 출력부를 포함한다. 문자열 출력부는 각각이 제1 언어의 텍스트의 적어도 일부이고, 텍스트의 선두 문자를 포함하는 복수의 문자열을, 문자열 길이 순으로 출력한다. 정형문 취득부는 제2 언어의 대역 문장에 대응지어진 제1 언어의 정형문을 취득한다. 매칭부는 문자열 길이의 순서로, 복수의 문자열의 각각과 정형문의 유사도를 산출한다. 분할 처리부는 제1 임계값을 넘는 유사도 중 최대의 유사도에 대응하는 위치에서 텍스트를 분할한다. 번역 결과 출력부는 분할된 텍스트의 번역 문장으로서, 대역 문장을 출력한다.
본 개시의 다른 관점에 의하면, 번역 방법은, 각각이 제1 언어의 적어도 일부이며, 텍스트의 선두 문자를 포함한 복수의 문자열을 문자열 길이의 순으로 출력하는 단계와, 제2 언어의 대역 문장에 대응지어진, 제1 언어의 정형문을 취득하는 단계와, 문자열 길이의 순으로, 복수의 문자열 각각과 정형문의 유사도를 산출하는 단계와, 제1 임계값을 넘는 유사도 중 최대의 유사도에 대응하는 위치에서 텍스트를 분할하는 단계와, 분할된 텍스트의 번역 문장으로서, 대역 문장을 출력하는 단계를 포함한다.
본 개시에 의하면, 정형문을 이용하는 자동 번역 처리에 있어서, 번역의 속도를 향상시키는 것이 가능하다.
도 1은 실시 형태 1에 관련된 시스템 전체의 구성도이다.
도 2는 실시 형태 1에 관련된 번역 장치의 구성도이다.
도 3은 번역 장치의 번역부의 기능 구성도이다.
도 4는 번역 장치에 의한 동작을 나타내는 흐름도이다.
도 5a는 번역 장치에 의한 번역 처리를 나타내는 흐름도이다.
도 5b는 번역 장치에 의한 번역 처리를 나타내는 흐름도이다.
도 6은 번역 처리에 있어서 매칭 처리에 대해 설명하기 위한 도면이다.
도 7a는 번역 처리에 있어서 유사도 계산의 결과를 그래프화 한 도면이다.
도 7b는 번역 처리에 있어서 유사도 계산의 결과를 그래프화 한 도면이다.
도 8a는 번역 처리에 있어서 유사도 계산의 경과 데이터의 예를 나타내는 도면이다.
도 8b는 번역 처리에 있어서 유사도 계산의 경과 데이터의 예를 나타내는 도면이다.
도 9는 번역 처리에 있어서 다른 유사도 계산의 결과를 그래프화 한 도면이다.
도 10은 그 외 실시 형태에 관련된 번역 처리를 설명하기 위한 도면이다.
이하, 적당히 도면을 참조하면서, 실시 형태를 상세하게 설명한다. 단, 필요 이상으로 상세한 설명은 생략하는 경우가 있다. 예를 들면, 이미 잘 알려진 사항의 상세 설명이나 실질적으로 동일한 구성에 대해 중복 설명을 생략하는 경우가 있다. 이것은 이하의 설명이 불필요하게 장황하게 되는 것을 피해서 당업자의 이해를 용이하게 하기 위함이다.
또한, 발명자는 당업자가 본 개시를 충분히 이해하기 위해 첨부 도면 및 이하의 설명을 제공할 것이며, 이것들에 의해 청구 범위에 기재된 주제를 한정하는 것을 의도하는 것도 아니다.
(실시 형태 1)
[1-1. 구성]
도 1은 본 개시의 일 실시 형태에 관련된 번역 장치(110)(도 2 참조)를 서버 장치(10)로서 포함하는 시스템(1) 전체의 구성을 나타낸다. 본 실시 형태에 있어서, 시스템(1)은, 항공기 내에 설정되어 있는 것을 예로서 설명한다. 시스템(1)은 서버 장치(10)와, 서버 장치(10)에 무선 또는 유선으로 접속 가능한 복수의 표시 장치(20)와, 마이크(30)와, 스피커(40)를 포함한다. 표시 장치(20)는 항공기 내의 승객이 앉을 각 좌석에 설치되어 있는 단말 컴퓨터이다.
[1-1-1. 서버 장치의 구성]
서버 장치(10)는 CPU(Central Processing Unit)(11), ROM(Read Only Memory)(12), RAM(Random Access Memory)(13), 입력 인터페이스(14), 출력 인터페이스(15), 통신 인터페이스(16), 저장 장치(17)(정형문 저장부의 일 예)를 포함하는 컴퓨터 장치이다.
CPU(11)는 소정의 프로그램에 따라 처리를 실행하는 프로세서 또는 회로이다. ROM(12)은 CPU(11)의 처리 순서를 기술한 제어 프로그램 등을 저장한다. RAM(13)은 워크 메모리로서 일시적으로 제어 프로그램이나 데이터를 저장한다. 입력 인터페이스(14)는 마이크(30)에 접속되는 접속부로서, 마이크(30)로부터 A/D 변환된 음성 데이터를 수신한다. 출력 인터페이스(15)는 스피커(40)에 접속되는 접속부로서, 스피커(40)에 D/A 변환된 음성을 송신한다. 통신 인터페이스(16)는 무선 또는 유선에 의해 표시 장치(20)와 통신하기 위한 통신 회로이다.
저장 장치(17)는 HDD(하드 디스크 드라이브) 등의 자기 저장 장치나 반도체 메모리 등의 저장 장치로서, 어플리케이션이나 OS 등의 각 프로그램이나 각종 데이터를 저장한다. 저장 장치(17)는 후술하는 바와 같이, CPU(11)가 사용하는 각종 데이터를 보관하는 데이터베이스(DB)(도 2 참조)를 포함한다. 또한, 저장 장치(17)는 서버 장치(10)와 별체인 저장 장치로서 서버 장치(10)에 접속되어 있어도 무방하다.
마이크(30)는 서버 장치(10)에 접속되어, 승무원 등의 발화(發話)에 의한 음성을 받아들여, 음성 데이터를 출력한다. 스피커(40)는 객실 내에 복수 설치되어 출력 인터페이스(15)로부터의 음성을 출력한다.
[1-1-2. 번역 장치의 구성]
도 2는 본 실시 형태에 관련된 번역 장치(110)의 구성을 나타낸다. 번역 장치(110)는 음성에 의해 입력된 일본어(제1 언어의 일 예)에 의한 데이터를 영어 등의 언어(제2 언어의 일 예)에 의한 텍스트로 번역하는 장치이다.
번역 장치(110)는 음성 취득부(111)와, 음성 인식부(112)와, 텍스트 생성부(113)와, 번역부(114)와, 번역 결과 출력부(115)를 포함한다. 음성 취득부(111), 음성 인식부(112), 텍스트 생성부(113), 번역부(114) 및 번역 결과 출력부(115)는 CPU(11)가 저장 장치(17) 내의 데이터를 참조하여 소정의 프로그램을 실행하는 것에 의해 실현된다.
음성 취득부(111)는 마이크(30)로부터의 음성 데이터를 취득한다. 음성 인식부(112)는 취득한 음성 데이터를 미리 저장한 소정의 모델에 기초해서 인식한다. 텍스트 생성부(113)는 인식된 음성 데이터를 텍스트로 변환한다. 텍스트는 음성으로 변환 가능 또는 화면에 표시 가능한 문자 정보 또는 문자열을 포함한다.
번역부(114)는 생성된 텍스트에 대해 번역 처리를 행한다.
도 3은 번역부(114)의 주요 기능부를 나타낸다. 번역부(114)는 문자열 출력부(1141)와, 정형문 취득부(1142)와, 매칭부(1143)와, 유사도 판정부(1144)와, 분할 처리부(1145)와, 번역 처리부(1146)를 가진다.
문자열 출력부(1141)는, 텍스트 생성부(113)에 의해 텍스트를 취득하고, 제1 언어의 텍스트로부터 문자열을 한 문자씩 선두로부터 차례로 증가시키면서 출력하는 문자열 출력 처리를 행한다. 정형문 취득부(1142)는 저장 장치(17)에 저장된 일본어의 복수의 정형문을 취득한다. 여기에서, 복수의 정형문의 각각은, 제2 언어의 대역 문장에 대응지어져 있다. 매칭부(1143)는 한 문자씩 증가하는 문자열을 취득할 때마다 문자열 및 각 정형문을 비교하고, 취득한 문자열과 각 정형문의 유사도를 산출하는 매칭 처리를 행한다. 유사도 판정부(1144)는 산출된 유사도가 제1 임계값을 넘는 정형문 중 최대의 유사도를 갖는 정형문을 선택하는 유사 판정 처리를 행한다. 분할 처리부(1145)는 취득한 문자열과 선택한 정형문의 유사도가 최대가 되는 위치에서 문자열을 분할하는 분할 처리를 행한다. 번역 처리부(1146)는 선택한 정형문에 대응하는 제2 언어의 대역 문장을 취득하는 번역 처리를 행한다.
번역부(114)는 필요에 따라 분할 처리부(1145)에 의해 분할된 위치 이후의 텍스트에 대해, 문자열 출력 처리, 매칭 처리, 유사 판정 처리, 분할 처리 및 번역 처리를 실행한다.
번역 결과 출력부(115)는 번역부(114)에 의한 번역 처리의 결과를 출력한다. 즉, 번역 결과 출력부(115)는, 분할된 텍스트의 번역 문장으로서 대역 문을 출력한다. 번역 결과는 음성으로 변환되어 스피커(40)를 통해 출력된다. 또는, 음성으로 변환된 번역 결과는 각 표시 장치(20)에 송신되고 각 표시 장치(20)부터 이어폰 등을 통해 출력된다. 출력된 번역 결과는 각 표시 장치(20)에 있어서 디스플레이(29)(도 1 참조)에서 문자 정보로서 표시되어도 무방하다.
저장 장치(17)는 데이터베이스(DB)로서 저장되는 각종 데이터를 보유한다.
[1-1-3. 데이터베이스의 내용]
데이터베이스(DB)에는 장면 정보 및 정형문 정보가 관련지어져서 저장되어 있다.
<장면 정보>
장면 정보는 시간이나 항공기가 처한 환경을 나타내는 정보이며, 현재의 장면을 나타내는 정보를 포함한다. 장면 정보는, 예를 들어, 탑승 중, (이륙 전) 활주로 이동 중, 이륙 중, 안정 비행 중, 착륙 중, (착륙 후) 활주로 이동 중, 강하 중 등 실제 여객기 운용의 시계열에 따라서 설정되어 있다. 또한 장면 정보는 기내 서비스 안내, 기내 판매 안내 등 소정의 타이밍에서 발화되는 장면을 나타내는 정보도 포함된다. 장면 정보는 또한 비행기의 큰 흔들림이 발생했을 때 등의 긴급 연락과 같이 예측할 수 없는 장면을 나타내는 정보도 포함한다.
<정형문 정보>
정형문 정보는 도 6에 나타난 바와 같이 일본어의 정형문과 동 정형문에 대응하는 대역 문장이 장면 정보에 관련지어져 있다.
[1-1-4. 표시 장치의 구성]
표시 장치(20)는 항공기의 각 좌석에 설치되어, 화면을 표시하는 디스플레이를 갖춘 컴퓨터 장치이다. 표시 장치(20)는, 도 1에 나타난 바와 같이 CPU(21), ROM(22), RAM(23), 출력 인터페이스(25), 통신 인터페이스(26), 메모리(27), 입력 장치(28) 및 디스플레이(29)를 포함한다.
CPU(21)는 명령이나 데이터를 처리하여 출력하는 프로세서 또는 회로이다. ROM(22)은 CPU(21)의 처리 순서를 기술한 제어 프로그램 등을 저장한다. RAM(23)은, 워크 메모리로서 일시적으로 제어 프로그램이나 데이터를 저장한다.
출력 인터페이스(25)는 이어폰(도시 생략) 등의 음성 출력 장치에 접속되는 접속부이며, 서버 장치(10) 등으로부터 수신된 음성 데이터를 출력한다.
통신 인터페이스(26)는 예를 들어, 서버 장치(10)나 항공기 내의 다른 기기와 유선 또는 무선으로 통신 가능한 통신 회로이다. 메모리(27)는 반도체 메모리 등의 저장 회로이며, 이미지 등의 데이터를 저장한다.
입력 장치(28)는 터치 패널, 키보드, 포인팅 장치(마우스 등)를 통해 입력되는 좌석의 사용자에 의한 입력 조작을 입력받는다. 디스플레이(29)는 액정 패널, 유기 EL 패널 또는 이것과 유사한 패널로 구성되어 처리된 이미지를 표시하는 화면을 포함한다. 디스플레이(29)에는 번역 장치(110)에 의해 생성된 번역 결과의 텍스트가 표시되어도 무방하다.
[1-2. 동작]
이하, 본 개시에 관련된 서버 장치(10)(번역 장치(110))의 동작에 대해 설명한다.
[1-2-1. 번역 장치의 전체 동작]
도 4는 번역 장치(110)에 의한 전체 제어 흐름을 나타낸다. 이하, 항공기 내에 있어서 승무원이 발화한 제1 언어에 의한 어나운스(announce) 내용을 제2 언어로 번역하는 처리에 대해 설명한다.
S100 : 번역 장치(110)에 있어서 음성 취득부(111)는 마이크(30)로부터의 음성 데이터를 취득한다.
S200 : 음성 인식부(112)는 취득된 음성 데이터에 대해 음성 인식 처리를 행한다.
S300 : 텍스트 생성부(113)는 음성 인식된 데이터를 텍스트로 변환한다.
S400 : 번역부(114)는 변환된 텍스트에 대해 후술하는 바와 같이 번역 처리를 행한다.
S500 : 번역 결과 출력부(115)는 번역 처리된 번역 결과 데이터를 출력한다.
S600 : 번역 결과 데이터는 음성 데이터로 변환되어 스피커(40)를 통해 음성으로서 출력되거나, 각 좌석의 표시 장치(20)에 송신되어 이어폰을 통해 음성으로서 출력되기도 한다. 또한 번역 결과 데이터는 표시 장치(20)에 있어서 디스플레이(29)를 통해 텍스트로 표시되어도 무방하다.
[1-2-2. 번역 처리]
도 5a 및 도 5b는 도 4의 단계 S400에 있어서 번역부(114)(도 2 및 도 3 참조)에 의한 번역 처리의 흐름을 나타낸다.
S401 : 번역부(114)는 텍스트화 된 입력 문자열을 취득한다. 여기서는, 예를 들어, 도 6에 나타난 바와 같이,
Figure pct00001
를 의미하는 텍스트 T11과
Figure pct00002
를 의미하는 텍스트 T12로 이루어지는 텍스트 T10을 예문으로 해서 설명한다.
도 6은 본 실시 형태에 관련된 번역부(114)(도 3 참조)에 의한 번역 처리 중, 특히 문자열과 정형문의 매칭 처리의 개요를 나타낸다. 본 실시 형태에서는, 예를 들어, 입력되는 문자열(발화되는 내용을 텍스트화 한 것. 이하 입력 문자열이라고 부른다)에서 그 일부인 계산 대상이 되는 문자열(이하, 대상 문자열이라고 함)을 취득해서 유사도를 계산한다. 대상 문자열은 도 6에 나타난 바와 같이 한 문자씩 증가시키면서 출력되어, 그 출력마다 대상 문자열과 전체 정형문이 비교된다.
S402 : 번역부(114)는 정형문 후보 플래그의 초기값을 「0」으로 설정한다. 정형문 후보 플래그는 각 정형문에 마련되어 있고, 후술하는 바와 같이 유사도가 소정의 임계값(제1 임계값)을 상회하는 정형문에 대해 「1」을 설정하기 위한 플래그이다.
S403 : 번역부(114)는 대상 문자열의 선두 위치를 「1」로 설정한다. 여기서는 번역부(114)는 입력 문자열 중 유사도의 계산 대상이 되는 대상 문자열의 선두 위치를 설정한다.
S404 : 번역부(114)는 종단 위치를 「선두 위치의 값 + n」으로 설정한다. 여기서 번역부(114)는 입력 문자열 중 대상 문자열의 종단 위치를 설정한다.
「n」은 대상 문자열의 종단 위치를 설정하기 위한 상수이다. n은 0 이상의 정수로, 정형문과의 매칭 처리를 위한 필요 최소한의 문자수에 상응한다. 많은 경우 최초의 1, 2 문자에서는 정형문과의 유사도는 측정할 수 없다. 계산 시작 시에 있어서 계산 대상의 문자수를 미리 복수로 설정하는 것에 의해, 1 문자에서 시작하는 것에 비해 초기에 발생하는 계산량을 절약하는 것을 기대할 수 있다. 예를 들어, 도 6에 나타난 바와 같이, 입력 문자열이 텍스트 T11에서 시작하는 경우에, 「n」이 「2」로 설정되어 있다고 하자. 이 경우 최초의 종단 위치는, 선두 위치의 값 + 2인 대상 문자열 A3의 종단 위치에 설정된다.
S405 : 번역부(114)는 설정된 선두 위치와 종단 위치 간의 문자열을 잘라내는 것에 의해 얻을 수 있는 대상 문자열과 각 정형문의 유사도를 계산한다(매칭 처리).
예를 들어, 도 6에 나타난 바와 같이, 입력 문자열이 텍스트 T10이며, 단계 S404에서 설정된 문자열이 대상 문자열 A3이라고 하자. 이 경우 대상 문자열 A3, A4, A5, …의 순서로 각 정형문과 유사한지 여부가 판정된다. 또한 공지의 수법(벡터 공간 모델 등)을 이용하여 유사도를 산출하는 것이 가능하다.
S406 : 번역부(114)는 대상 문자열과 각 정형문의 유사도가 제1 임계값을 넘는지 여부를 판정한다. 제1 임계값을 넘는 경우는 단계 S407로 진행하고, 제1 임계값 이하인 경우는 단계 S408로 진행한다.
제1 임계값은 당해 정형문이 대상 문자열에 대해서 일치할 가능성이 높은지 여부의 판정 기준이다.
예를 들어, 입력 문자열이 텍스트 T11부터 시작하는 경우, 정형문 B1(도 6 참조)과의 매칭 처리에 있어서는, 도 7a에 나타난 결과가 된다. 즉, 동 예에 있어서는, 유사도는 높아져서 제1 임계값(여기서는 70)을 넘는다. 한편, 정형문 B2에 대해서는 도 7b에 나타난 바와 같이 유사도가 낮은 채로 있으며, 제1 임계값을 넘지 않는다. 또한, 제1 임계값은 본 예에 한정되지 않으며, 70보다 낮거나 높아도 무방하다.
S407 : 번역부(114)는 유사도가 제1 임계값을 넘는다고 판정된 경우는 제1 임계값을 넘는다고 판정된 정형문의 정형문 후보 플래그를 「1」로 설정한다. 또한, S406에 있어서, 정형문 후보 플래그가 이미 「1」로 설정되어 있는 정형문에 대해서는 유사도와 제1 임계값의 비교를 생략해도 무방하다.
S408 : 번역부(114)는 전체 정형문에 대해 당해 대상 문자열의 유사도 계산이 완료되었는지 여부를 판정한다. 완료되지 않은 경우는 단계 S405로 돌아가서 전체 정형문에 대한 유사도 계산이 완료하기까지 처리를 반복한다. 전체 정형문에 대해 당해 대상 문자열의 유사도 계산을 완료한 경우에는 도 5b의 단계 S409로 진행한다.
S409 : 번역부(114)는 당해 대상 문자열에 대한 유사도가 계산된 전체 정형문 중 정형문 후보 플래그가 「1」로 설정되어 있는 정형문이 있는지 여부를 판정한다. 정형문 후보 플래그가 「1」로 설정되어 있는 정형문이 없는 경우에는 단계 S410으로 진행한다. 정형문 후보 플래그가 「1」로 설정되어 있는 정형문이 있는 경우에는 단계 S412로 진행한다.
S410 : 번역부(114)는 대상 문자열의 「종단 위치」가 입력 문자열의 최후인지 여부를 판정한다. 최후의 위치가 아니면 단계 S411로 진행한다. 최후인 경우는 처리를 종료한다. 한편, 각 정형문에 대한 유사도가 제1 임계값을 넘지 않은 경우, 입력 문자열의 전부 또는 일부와 일치하는 정형문이 없었던 것이 된다. 이 경우, 번역부(114)는 통상의 기계 번역에 의해 입력 문자열을 번역하도록 해도 무방하고, 또는 그 시점에서의 유사도가 최대인 정형문을 사용하여 번역하도록 해도 무방하다.
S411 : 번역부(114)는 대상 문자열의 「종단 위치」의 값에 1을 더한다. 그리고, 도 5a의 단계 S405로 돌아가서 종단 위치가 변경된 대상 문자열과 각 정형문의 유사도 계산이 실행된다. 또한, 여기서 종단 위치에 더해지는 값은 1이 아니어도 2 이상의 소정의 숫자이어도 무방하다. 문장 분할의 정밀도가 소정의 숫자 단위로 되지만, 유사도를 요구하는 횟수를 줄일 수 있다.
S412 : 단계 S409에 있어서, 정형문 후보 플래그가 「1」로 설정되어 있는 정형문이 있다고 판정된 경우, 번역부(114)는 이러한 정형문 유사도가 제2 임계값 미만인지 여부를 판정한다. 미만이라고 판정된 경우는 단계 S414로 진행, 임계값 미만이 아니라고 판정된 경우에는 단계 S413로 진행한다.
제2 임계값은 제1 임계값보다도 소정값 이상 낮은 값이다. 제1 임계값까지는 정형문과의 일치 가능성이 높기는 했지만 그 후의 문자와의 불일치가 계속됐기 때문에 유사도가 저하하여, 제2 임계값을 하회한 경우, 유사도가 최대값이 되었을 때의 문자열이 정형문과 일치하는 것으로 본다.
예를 들어, 대상 문자열이 도 6의 대상 문자열 A18이 된 경우, 도 7a에 개시된 바와 같이, 정형문 B1에 대한 유사도는 17문자째 이후는 감소해 간다. 이 감소 경향을 판정하여 후술하는 바와 같이 입력 문자열의 분할 지점을 결정하는데, 제2 임계값(여기서는 60)이 그 감소 경향의 판정 기준값이 된다.
또한, 제2 임계값은 본 예에 한정되지 않으며, 60보다 낮아도 높아도 무방하다.
또한, 이 단계에서 제2 임계값을 하회하는 것으로 판정된 정형문보다도 유사도가 높은 정형문이 그 밖에 있는 경우는 단계 S414로 진행하지 않고 단계 S413로 진행하도록 해도 무방하다. 예를 들어, 정형문 1
Figure pct00003
, 정형문 2
Figure pct00004
Figure pct00005
라는 2종류의 정형문이 있어, 발화 문장이 정형문 2와 동일했던 경우를 고려한다.
이 경우 정형문 1의 최후까지의 문자열을 처리했을 때에 정형문 1의 유사도가 최대점이 되고, 정형문 1의 유사도는 이후 저하해 가고, 제2 임계값을 어느 지점에서 하회한다. 그러나 정형문 2의 유사도는 정형문 1이 제2 임계값을 하회하는 시점에서도 제2 임계값 이상이며, 또한 계속 상승한다. 그리고 최종적인 정형문 2의 유사도의 최대값은 정형문 1의 유사도의 최대값보다 커진다.
이와 같이, 정형문 2가 선택되는 것이 바람직함에도 불구하고, 정형문 1이 먼저 조건을 만족시키기 때문에 정형문 2가 선택되지 않게 되는 일이 있다. 이를 방지하기 위해 단계 S412에서 제2 임계값을 하회한 것을 검출해도 제2의 조건으로서 「현재 (문자열 길이의) 유사도가 대상 정형문 후보보다도 높은 후보가 있는 경우에는 단계 S414로는 진행하지 않고 단계 S413로 진행되어, 유사도 비교의 계산 비교를 계속한다」를 추가함으로써 정밀도가 높은 번역을 실현하는 것이 가능하다.
S413 : 번역부(114)는 대상 문자열의 「종단 위치」가 입력 문자열의 최후인지 여부를 판정한다. 최후인 경우는 단계 S414로 진행하고, 최후가 아닌 경우는 단계 S411로 진행한다.
S414 : 번역부(114)는 정형문 후보 플래그가 「1」로 설정된 정형문 중에서 최대 유사도를 갖는 정형문을 선택한다(유사 판정 처리). 그리고 번역부(114)는 동 정형문의 대역을 취득하여 번역 처리를 실행한다.
S415 : 번역부(114)는 입력 문자열의 최종 위치와 선두 위치 + n을 비교한다. 입력 문자열의 최종 위치가 선두 위치 + n보다도 작으면, 즉 이전이라면 처리를 종료한다. 입력 문자열의 최종 위치가 선두 위치 + n 이상, 즉 같거나 이후라면 단계 S416로 진행한다.
S416 : 번역부(114)는 유사도 최대값에 대응하는 대상 문자열의 문자 위치를 종단 위치로, 다음의 선두 위치를 그 종단 위치 + 1의 값으로 한다(분할 처리).
예를 들어, 텍스트 T10에 대해서, 정형문 B1이 선택되었다고 하자(단계 S414). 도 7a에 나타난 바와 같이, 유사도는 16자째에서 최대이다. 따라서 이 문자 위치(종단 위치)에 1을 더한 문자 위치를 새로운 「선두 위치」로 설정한다. 그 때문에, 다음의 텍스트 T12의 선두 위치가 새로운 선두 위치로서 설정된다.
S417 : 번역부(114)는 정형문 후보 플래그를 전부 0으로 리셋한다. 그 후 단계 S404로 돌아온다. 그리고 번역부(114)는 분할된 문자열에 대해서 동일한 처리를 행한다.
도 8a 및 도 8b는 텍스트 T10에 대한 각 정형문의 유사도 계산의 결과 데이터를 나타낸다. 「유사도 최대값」은 각 정형문에 대한 유사도 최대값을 나타낸다. 「최대값의 대응 문자 위치」는 최대값이 되었을 때의 문자열의 종단 위치가 입력 문자열의 최초 문자로부터 몇 문자째인지를 나타낸다. 「유사도 현재값」은 유사도 최신값을 나타낸다. 「현재 문자 위치」는 최신값이 입력 문자의 최초 문자로부터 몇 문자째인지를 나타낸다.
도 8a에 나타난 데이터에는 유사도 계산이 20문자째까지 진행되어 있지만, 정형문 B1의 유사도 현재 값(여기서는 73)이 아직 제2 임계값(여기서는 60)을 하회하지 않기 때문에 처리를 계속한다(S412(아니오) → S413(아니오) → S411 → S405 ~ S412). 대상 문자열을 늘려서 유사도를 계산할 때마다 유사도 현재값을 갱신한다. 유사도 현재값이, 기록된 유사도 최대값을 넘어서는 경우는 유사도 최대값을 갱신한다. 현재값이 제1 임계값(여기서는 70)을 넘으면 정형문 플래그를 1로 변경한다(S407).
도 8b에 나타난 데이터에는 유사도 계산이 22 문자째까지 진행되어 있으며, 여기에 전체 정형문 유사도 현재값이 제2 임계값인 60을 하회했기 때문에 유사도 계산을 종료한다. 즉, 매칭부(1143)는 유사도가 제2 임계값을 하회하는 시점에서 유사도 계산을 종료한다. 그리고 최대값을 갖는 정형문 B1을 선택하고 그 대역인 「Thank you for boarding」을 취득해서 번역 문장으로 한다(S412(예) ~ S414). 또한 2개 이상의 정형문 후보 플래그가 「1」로 되어있는 경우는 그 중에서 유사도의 최대값이 최대인 것을 선택한다.
(그 외의 처리 예)
상기 번역부(114)에 의하면, 다음과 같은 처리도 가능해진다.
입력 문자열에, 정형문에 없는 문구가 포함되어 있는 경우, 그 문구 부분에 대해서는 유사도 값이 낮아진다. 예를 들어, 도 9에 나타난 바와 같이
Figure pct00006
를 의미하는 입력 문자열 T20이 있는 경우, 가장 유사도가 높은 정형문 B3로서
Figure pct00007
를 의미하는 문자열이 선택된다고 하자. 이 경우, 입력 문자열
Figure pct00008
를 의미하는 부분과 정형문
Figure pct00009
를 의미하는 부분이 불일치이다. 따라서 유사도는 예를 들어, 도 9의 그래프에 나타낸 바와 같이, 일단 제1 임계값을 넘은 후에 제1 임계값을 하회하고, 다시 제1 임계값을 넘는 것과 같이 변화한다.
그러나 상기 번역부(114)에 의한 처리에 의하면, 도중에 유사도가 저하되어도, 제2 임계값을 하회하지 않아, 유사도 계산은 계속된다. 이 결과 유사도는 다시 상승하고 최대값을 갱신한다.
이와 같이, 입력 문자열의 중간에 정형문에는 없는 문구가 있는 경우, 유사도는 일단 제1 임계값을 넘은 후에 제1 임계값을 하회하고, 다시 유사도가 상승해 제1 임계값을 넘은 결과, 제1 임계값을 넘은 극대점이 두 개 이상 나타난다. 상기 번역부(114)의 유사도 계산에서는 이러한 문구의 차이(노이즈)가 포함된다고 해도 그 문구가 길지 않으면 가장 유사한 정형문을 매칭시킬 수 있다. 또한 문구가 긴 것이라면, 유사도가 제2 임계값을 하회하는 것을 계기로 입력 문자열의 분할을 수행하기 위해 적절한 분할 처리를 실행할 수 있다. 이 때문에 번역부(114)에 의한 번역 처리에서는, 복수의 문장을 포함한 경우나 정형문과 일부 다른 어구가 포함된 문자열이어도, 정형문을 사용하여 번역이 가능해진다.
[1-3. 특징 등]
상기 실시 형태에 관한 번역 장치(110)의 번역부(114)에 있어서는, 문자열 출력부(1141)는 각각 제1 언어 텍스트의 적어도 일부이며, 텍스트의 선두 문자를 포함한 복수 문자열(복수의 대상 문자열)을 문자열 길이 순으로 출력한다. 매칭부(1143)는 문자열 길이 순으로 복수 문자열의 각각과 정형문의 유사도를 산출한다. 유사도 판정부(1144)는 산출된 유사도가 제1 임계값을 넘는 정형문 중 최대 유사도를 갖는 정형문을 선택한다. 분할 처리부(1145)는 제1 임계값을 넘는 유사도 중 최대 유사도에 대응하는 위치에서 텍스트를 분할한다. 이 때문에 정형문과의 매칭 처리 및 분할 처리의 계산량이 큰 폭으로 저감될 수 있다. 또한 입력된 텍스트가 복수 문장이어도, 적절한 분할 지점에서 분할되어, 정형문과의 매칭 처리를 계속할 수 있기 때문에, 번역 처리의 속도를 향상시킬 수 있다. 또한 정형문마다의 매칭 및 유사 판정이 가능하게 되기 때문에, 복수 패턴에 이르는 정형문 조합을 미리 저장해 둘 필요가 없다. 따라서, 데이터베이스 등의 저장부의 크기를 줄일 수 있다.
(기타 실시 형태)
이상과 같이, 본 출원에 있어서 개시하는 기술의 예시로서, 실시 형태 1을 설명했다. 그렇지만, 본 개시에 있어서의 기술은, 이것에 한정되지 않고, 적당히, 변경, 치환, 부가, 생략 등을 행한 실시 형태에도 적용 가능하다. 또한, 상기 실시 형태 1에서 설명한 각 구성 요소 및 기능을 조합하여 새로운 실시 형태로 하는 것도 가능하다.
그래서 이하, 다른 실시 형태를 예시한다.
[1]
상기 실시 형태에 있어서는, 입력 문자열과 가장 유사한 정형문의 대역을 취득하여 번역하기 위해, 정형문과 다른 문구가 포함되어 있어도, 정형문에 준거한 대역이 이루어진다. 이것에 대신하여, 번역부(114)는 정형문과 다른 문구에 대해서는 자유 번역을 행하도록 하는 것도 무방하다.
예를 들어, 도 10에 나타난 바와 같이, 입력 문자열 T30이
Figure pct00010
를 의미하는 문자열이었다고 하자. 이 경우 최초의
Figure pct00011
를 의미하는 문자열 T31에 대해서는 정형문이 없기 때문에, 유사도 계산을 행해도 대역을 취득할 수 없다. 따라서, 번역부(114)는 상기 소정의 번역 처리(도 5a 및 도 5b)를 실행하여, 입력 문자열 T30을 문자열 T31과 문자열 T32로 분할한다. 그 후, 문장 분할한 문장과 정형문 B4와 비교를 행하여 그 차이인 다른 부분(즉, 문자열 T31)을 판정한다. 그리고 번역부(114)는 다른 부분에 대해서는 통상의 기계 번역을 행하고, 정형문 번역에 연결하여 출력하도록 하여도 무방하다. 즉, 번역 처리부(1146)는 분할된 텍스트 중 정형문에 대응되지 않는 부분(문자열 T31)을 정형문을 사용하지 않고 제2 언어로 번역할 수 있다.
[2]
상기 실시 형태에 있어서, 정형문에 없는 발화가 너무 길면 그 영향이 커져서 유사도가 오르기 어려워진다. 이것을 방지하기 위해 제1 임계값을 낮추거나, 유사도 값이 제로 부근의 구간을 삭제하거나 하는 것에 의하여, 정형문과의 매칭 정밀도를 높이도록 해도 무방하다.
[3]
상기 실시 형태에 있어서는, 번역부(114)는 취득한 각 문자열과 모든 정형문의 매칭 처리를 실행하고 있지만, 이에 한정되지 않는다. 복수의 정형문에 있어서, 산출되는 유사도 간에 소정 이상의 차이가 났을 경우, 소정의 유사도를 하회하는 정형문은 제외하고, 매칭 처리를 실행하도록 해도 무방하다. 즉, 매칭부(1143)는 하나의 정형문의 유사도와 다른 정형문의 유사도의 차이가 소정 값을 넘는 시점에서, 다른 정형문의 유사도 계산을 종료해도 무방하다. 이에 의해서 매칭 처리에 있어서의 계산량을 삭감하는 것이 가능하다.
그 외에, 제1 임계값을 넘는 정형문이 소정 개수 이상 얻어진 경우, 그 외의 정형문에 대해서는 매칭 처리에서 제외하도록 해도 무방하다. 또한 소정의 정형문에 대한 유사도가 100 또는 그것에 가까운 값이 되었을 경우 매칭 처리를 종료시켜, 당해 정형문을 선택해 번역 처리를 행하도록 해도 무방하다.
[4]
상기 실시 형태에서, 정형문은 문자수에 따라 유사도에 부가하는 가중치 정보를 가지고 있어도 무방하다. 즉, 매칭부(1143)는 복수의 정형문 각각의 길이에 응해서 유사도에 가중치를 부가하는 것도 무방하다. 이 경우 복수의 정형문 중 문자수가 적은 것일수록 유사도가 커지도록 가중치가 이루어진다. 이와 같이, 정형문 문자열의 길이에 응답하여 유사도에 차이를 부여함으로써 문자수가 적은 정형문이어도 유사도가 상승하기 쉬워진다. 그 때문에 유사 판정 처리의 속도를 빨리할 수가 있다.
[5]
상기 실시 형태에서, 모든 정형문과의 매칭을 행하고 있지만, 이것으로 한정되지 않는다. 상기와 같이, 정형문은 장면 정보마다 그룹으로 나눌 수 있다. 따라서 장면을 판정한 후 판정된 장면 정보에 속하는 정형문과의 매칭, 유사 판정, 분할 처리 및 번역 처리를 우선적으로 실시하도록 해도 무방하다. 즉, 정형문 취득부(1142)는 정형문으로서 복수의 정형문 중 현재 장면에 대응한 정형문을 취득해도 무방하다. 이 경우, 번역부(114)는 현재 장면을 특정하고, 당해 장면에 해당하는 정형문에 대해 도 5a 및 도 5b에 나타난 번역 처리를 실행한다.
현재 장면의 특정은 승무원 등의 입력 조작에 의해 행해져도 무방하고, 서버 장치(10)가 장면의 판정을 실행하는 것으로 행해져도 무방하다. 서버 장치(10)에 의한 장면 판정은, 예를 들면 운항 시스템으로부터의 정보(고도 정보, 속도 정보, 도어의 개폐 정보, 시간 정보 등)에 기초하여 현재의 장면을 판정하도록 해도 무방하다.
[6]
상기 실시 형태에서, 번역부(114)는 텍스트인 입력 문자열에서 선두부터 순서대로 1문자씩(한자 포함) 대상 문자열을 출력하여 정형문과의 매칭을 실시하고 있지만 이것에 한정되지 않는다. 음운에 대응하는 문자마다, 단어마다, 알파벳 문자마다 등 대상 언어나 채용되는 음성 인식 방법에 적합한 소정 단위로 매칭을 행하는 것이 가능하다.
또한 매칭되는 대상 문자열은 선두부터 순서대로 일정 단위로 증가시키면서 출력되는 것으로 한정되지 않고, 문자수 등의 단위를 바꾸면서 출력되어도 무방하다.
[7]
상기 실시 형태에 있어서는, 유사도 감소 경향을 판정하여 분할 처리에 있어서의 분할 지점의 문자 위치(유사도 최대값에 대응)를 특정하기 위해 제2 임계값을 설정하고 있지만 이에 한정되지 않는다. 제2 임계값을 설정하지 않고 감소 경향이 소정 기간(문자 등) 계속되면 분할 처리를 행하도록 해도 무방하다.
[8]
번역 장치(110)는 항공기 내에 있어서 이용되는 것에 한정되지 않는다. 번역 장치(110)는 공항에서의 안내 및 기타 교통 기관, 레스토랑, 병원, 숙박 시설 등 정형문을 이용한 번역이 가능한 장소에 설치, 사용 가능하다.
번역 장치(110)는 컴퓨터 단말기에 설치되어 있어도 무방하다. 이 경우 음성 또는 텍스트로 입력된 데이터에 대해(음성의 경우는 음성 인식 처리 후) 번역 처리를 행하고, 스피커 또는 디스플레이를 통해 번역 결과를 출력하도록 해도 무방하다.
[9]
상기 실시 형태에서 번역 처리(도 5a 및 도 5b)의 실행 순서는, 반드시 상기 실시 형태의 기재에 제한되는 것은 아니다. 본 개시의 요지를 벗어나지 않는 범위에서, 처리의 일부를 병행하여 행하여도 무방하고, 실행 순서를 바꿔 넣어도 무방하다.
[10]
상기 실시 형태에서, 발화에 의한 음성 데이터를 입력하고 있으나 이것으로 한정되지 않는다. 예를 들어, 터치 패널이나 키보드 등의 입력 장치로부터 입력 인터페이스를 통해 취득된 텍스트나 외부 장치로부터 통신 인터페이스를 통해 취득된 텍스트를 취득해서, 번역부(114)에 의한 번역 처리를 실행해도 무방하다.
[11]
본 개시에 관련된 번역 장치(110) 또는 번역부(114)는, 상기 실시 형태에 의해 실시되는 것에 한정되지 않는다. 번역 장치(110) 또는 번역부(114)에 의해 실행되는 번역 방법과 번역 장치(110) 또는 번역부(114)에 의해 실행되는 컴퓨터 프로그램, 관련 프로그램을 기록한 컴퓨터 읽기 가능한 기록 매체는 본 개시의 범위에 포함된다. 여기에서 컴퓨터 읽기 가능한 기록 매체로서는, 예를 들면, 플렉서블(flexible) 디스크, 하드 디스크, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD(Blu-ray(등록 상표) Disc), 반도체 메모리를 들 수가 있다.
상기 컴퓨터 프로그램은 상기 기록 매체에 기록된 것에 한정되지 않고, 전기 통신 회선, 무선 또는 유선 통신 회선, 인터넷을 대표로 하는 네트워크 등을 통해 전송되는 것이어도 무방하다.
본 개시는 번역 장치 또는 번역 방법으로서 이용 가능하다.
1 : 시스템
10 : 서버 장치
11 : CPU
12 : ROM
13 : RAM
14 : 입력 인터페이스
15 : 출력 인터페이스
16 : 통신 인터페이스
17 : 저장 장치
20 : 표시 장치
21 : CPU
22 : ROM
23 : RAM
25 : 출력 인터페이스
26 : 통신 인터페이스
27 : 메모리
28 : 입력 장치
29 : 디스플레이
30 : 마이크
40 : 스피커
110 : 번역 장치
111 : 음성 취득부
112 : 음성 인식부
113 : 텍스트 생성부
114 : 번역부
115 : 번역 결과 출력부
1141 : 문자열 출력부
1142 : 정형문 취득부
1143 : 매칭부
1144 : 유사도 판정부
1145 : 분할 처리부
1146 : 번역 처리부

Claims (10)

  1. 각각이 제1 언어의 텍스트의 적어도 일부이고, 상기 텍스트의 선두 문자를 포함하는 복수의 문자열을, 문자열 길이 순으로 출력하는 문자열 출력부와,
    제2 언어의 대역 문장에 대응지어진, 상기 제1 언어의 정형문을 취득하는 정형문 취득부와,
    상기 문자열 길이의 순서로, 상기 복수의 문자열의 각각과 상기 정형문의 유사도를 산출하는 매칭부와,
    제1 임계값을 넘는 상기 유사도 중 최대의 유사도에 대응하는 위치에서 상기 텍스트를 분할하는 분할 처리부와,
    분할된 상기 텍스트의 번역 문장으로서, 상기 대역 문장을 출력하는 번역 결과 출력부를 포함하는
    번역 장치.
  2. 제 1 항에 있어서,
    상기 분할 처리부는,
    상기 제1 임계값을 넘은 후부터 상기 제1 임계값보다 작은 제2 임계값을 하회하기까지의 상기 유사도 중 최대의 유사도에 대응하는 위치에서 상기 텍스트를 분할하는
    번역 장치.
  3. 제 2 항에 있어서,
    상기 매칭부는,
    상기 유사도가 상기 제2 임계값을 하회한 시점에서 상기 유사도의 산출을 종료하는
    번역 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    분할된 상기 텍스트 중 상기 정형문에 대응되지 않는 부분을, 상기 정형문을 이용하지 않고 상기 제2 언어로 번역하는 번역 처리부를 포함하는
    번역 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 정형문 취득부는,
    상기 정형문과는 상이한 타 정형문을 취득하고,
    상기 매칭부는,
    상기 복수의 문자열 각각과 상기 타 정형문의 유사도를 산출해서, 상기 정형문의 상기 최대의 유사도가 상기 타 정형문과의 최대의 유사도보다 큰 때에 상기 정형문을 선택하는
    번역 장치.
  6. 제 5 항에 있어서,
    상기 매칭부는,
    상기 정형문의 유사도와 상기 타 정형문의 유사도의 차이가 소정값을 넘은 시점에서, 상기 타 정형문의 유사도의 산출을 종료하는
    번역 장치.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 정형문 취득부는,
    상기 정형문을 포함하는 복수의 정형문을 취득하고,
    상기 매칭부는,
    상기 복수의 정형문 각각의 길이에 응답하여 상기 유사도에 가중치를 부가하는
    번역 장치.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 정형문 취득부는,
    상기 정형문으로서, 복수의 정형문 중 현재의 장면에 대응하는 정형문을 취득하는
    번역 장치.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 제1 언어의 정형문과 상기 제2 언어의 대역 문장을 저장하는 정형문 저장부를 더 포함하는
    번역 장치.
  10. 각각이 제1 언어의 텍스트의 적어도 일부이며, 상기 텍스트의 선두 문자를 포함하는 복수의 문자열을 문자열 길이의 순으로 출력하는 단계와,
    제2 언어의 대역 문장에 대응지어진, 상기 제1 언어의 정형문을 취득하는 단계와,
    상기 문자열 길이의 순으로, 상기 복수의 문자열 각각과 상기 정형문의 유사도를 산출하는 단계와,
    제1 임계값을 넘는 상기 유사도 중 최대의 유사도에 대응하는 위치에서 상기 텍스트를 분할하는 단계와,
    분할된 상기 텍스트의 번역 문장으로서, 상기 대역 문장을 출력하는 단계를 포함하는
    번역 방법.
KR1020197011320A 2017-02-07 2017-10-11 번역 장치 및 번역 방법 Withdrawn KR20190111009A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2017-020539 2017-02-07
JP2017020539 2017-02-07
PCT/JP2017/036743 WO2018146864A1 (ja) 2017-02-07 2017-10-11 翻訳装置および翻訳方法

Publications (1)

Publication Number Publication Date
KR20190111009A true KR20190111009A (ko) 2019-10-01

Family

ID=63107363

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197011320A Withdrawn KR20190111009A (ko) 2017-02-07 2017-10-11 번역 장치 및 번역 방법

Country Status (6)

Country Link
US (1) US11048886B2 (ko)
EP (1) EP3582120A4 (ko)
JP (1) JP6631930B2 (ko)
KR (1) KR20190111009A (ko)
CN (1) CN109791572A (ko)
WO (1) WO2018146864A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2692049C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
KR102280535B1 (ko) * 2019-09-23 2021-07-22 네이버 주식회사 장문 번역 방법 및 시스템
CN111191473B (zh) * 2019-12-31 2024-05-03 深圳市优必选科技股份有限公司 一种翻译文本文件获取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018354A (ja) 2004-06-30 2006-01-19 Advanced Telecommunication Research Institute International テキスト分割装置及び自然言語処理装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
JPH05324702A (ja) * 1992-05-20 1993-12-07 Fuji Xerox Co Ltd 情報処理装置
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
JP3992348B2 (ja) * 1997-03-21 2007-10-17 幹雄 山本 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
WO2000033211A2 (en) * 1998-11-30 2000-06-08 Koninklijke Philips Electronics N.V. Automatic segmentation of a text
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP5235344B2 (ja) * 2007-07-03 2013-07-10 株式会社東芝 機械翻訳を行う装置、方法およびプログラム
EP2251798A1 (en) * 2008-02-29 2010-11-17 Sharp Kabushiki Kaisha Information processing device, method, and program
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
WO2010113691A1 (ja) * 2009-03-30 2010-10-07 日本電気株式会社 言語解析装置、方法、及びプログラム
JP5039114B2 (ja) 2009-11-14 2012-10-03 株式会社東芝 機械翻訳装置及びプログラム
JP5058280B2 (ja) * 2010-03-12 2012-10-24 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
US9069767B1 (en) * 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US20130246045A1 (en) * 2012-03-14 2013-09-19 Hewlett-Packard Development Company, L.P. Identification and Extraction of New Terms in Documents
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
JP5979650B2 (ja) * 2014-07-28 2016-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US10672391B2 (en) * 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10133738B2 (en) * 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US10789539B2 (en) * 2015-12-31 2020-09-29 Nuance Communications, Inc. Probabilistic ranking for natural language understanding
WO2019016985A1 (ja) * 2017-07-20 2019-01-24 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018354A (ja) 2004-06-30 2006-01-19 Advanced Telecommunication Research Institute International テキスト分割装置及び自然言語処理装置

Also Published As

Publication number Publication date
CN109791572A (zh) 2019-05-21
JPWO2018146864A1 (ja) 2019-04-25
US11048886B2 (en) 2021-06-29
EP3582120A1 (en) 2019-12-18
EP3582120A4 (en) 2020-01-08
WO2018146864A1 (ja) 2018-08-16
JP6631930B2 (ja) 2020-01-15
US20190197117A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
US10943074B2 (en) Translation device and translation method
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US9558741B2 (en) Systems and methods for speech recognition
US11030418B2 (en) Translation device and system with utterance reinput request notification
US11620981B2 (en) Speech recognition error correction apparatus
US11264007B2 (en) Translation device, translation method, and program
EP2887229A2 (en) Communication support apparatus, communication support method and computer program product
US20140358533A1 (en) Pronunciation accuracy in speech recognition
US20150340035A1 (en) Automated generation of phonemic lexicon for voice activated cockpit management systems
EP3425629B1 (en) Speech recognition system, terminal device, and dictionary management method
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
KR20190111009A (ko) 번역 장치 및 번역 방법
US20150178274A1 (en) Speech translation apparatus and speech translation method
US20190286701A1 (en) Information processing apparatus, output control method, and computer-readable recording medium
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
JP2018124323A (ja) アナウンスシステムおよび音声情報変換装置
JP2013235117A (ja) 単語分割装置、及び単語分割方法
JP2013061371A (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Liang et al. Using speech recognition technique for constructing a phonetically transcribed Taiwanese (Min-nan) text corpus
JP2007248496A (ja) サブワード単語モデル作成装置

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20190419

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination