[go: up one dir, main page]

KR20030094632A - 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 - Google Patents

변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 Download PDF

Info

Publication number
KR20030094632A
KR20030094632A KR1020020031861A KR20020031861A KR20030094632A KR 20030094632 A KR20030094632 A KR 20030094632A KR 1020020031861 A KR1020020031861 A KR 1020020031861A KR 20020031861 A KR20020031861 A KR 20020031861A KR 20030094632 A KR20030094632 A KR 20030094632A
Authority
KR
South Korea
Prior art keywords
language
primitive
structure information
node
sentence
Prior art date
Application number
KR1020020031861A
Other languages
English (en)
Other versions
KR100530154B1 (ko
Inventor
김성묵
민창우
강상철
차정인
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Priority to KR10-2002-0031861A priority Critical patent/KR100530154B1/ko
Priority to US10/455,098 priority patent/US7330810B2/en
Priority to JP2003161335A priority patent/JP4319860B2/ja
Publication of KR20030094632A publication Critical patent/KR20030094632A/ko
Application granted granted Critical
Publication of KR100530154B1 publication Critical patent/KR100530154B1/ko
Priority to US11/949,406 priority patent/US7487082B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본원 발명은 인간 전문가의 개입을 최소로 하고 사전의 일관성을 효율적으로 유지할 수 있는 변환사전 생성 방법 및 장치를 제공함을 그 목적으로 한다. 본원 발명에 따른 변환사전 생성방법은, 사용자로부터 숙어 및 연어가 표시된 원시언어문장 및 이에 대응하는 목표언어문장을 수신하여 저장하는 단계와, 상기 저장된 원시언어문장에 대한 구문분석을 수행하여 상기 원시언어문장 내의 각 어휘별 품사 및 통사적관계 정보를 포함하는 원시언어구문트리를 생성하는 단계와,상기 생성된 원시언어구문트리로부터 숙어, 연어 및 논항에 해당하는 노드들을 추출해내는 단계와, 상기 원시언어구문트리로부터 추출된 노드들의 최소공통조상노드를 추출해내는 단계와, 상기 최소공통조상노드를 색인어로 하는 원시언어구조정보를 생성하는 단계와, 상기 목표언어문장의 각 형태소에 대해 품사 정보를 첨가하고 상기 목표언어문장내의 원시언어 각각을 이에 대응하는 상기 원시언어구문트리내의 통사적관계정보로서 대체함으로써 목표언어구조정보를 생성하는 단계와, 상기 생성된 원시언어구조정보 및 상기 목표언어구조정보를 상기 저장된 원시언어문장 및 목표언어문장과 함께 새로운 엔트리로서 변환사전에 저장하는 단계를 포함한다.

Description

변환방식 기계번역시스템에서 사용되는 변환사전을 생성하는 방법 및 장치{Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system}
최근 들어, PC 및 인터넷의 보급으로 PC의 사용자 층이 다양해지고 외국어로 되어있는 정보를 접할 기회가 늘어남에 따라 다양한 언어 조합에 대한 고품질의 기계번역 시스템의 필요성이 증가하고 있다. 기계번역 시스템이란 (machine translation system)은 원시언어를 목표언어로, 예를 들면, 영어를 한국어로 자동 번역해주는 시스템이다.
현재 대부분의 상업적인 기계번역 시스템은 기술적으로 변환방식 기계번역 시스템(transfer based machine translation system)에 해당한다. 이러한 방식에 따르면, 기계번역은 구문분석(parsing), 변환, 생성의 세단계로 구성된다. 첫째로 구문분석은 원시언어문장에 대한 구문구조(syntactic structure)를 밝히는 단계이다. 이 단계에서는 구문사전과 구문규칙을 이용하여 원시언어 문장에 대한 구문구조를 트리 형태로 표현하며, 이러한 트리에서는 자연언어(natural language)가 가지는 통사적 중의성(syntactic ambiguity)이 해소된다. 이러한 트리를 "원시언어구문구조트리"라 한다. 두번째 단계인 변환단계는 원시언어구문구조트리를 입력으로 하여 목표언어구문구조트리를 만드는 과정이다. 이 단계에서는 원어언어 구문구조트리와 목표언어구문구조트리간의 대응관계가 기술되어 있는 변환사전을 이용하여 대역어를 선정하고 구조적 차이를 해소하게 된다. 변환단계에서 변환의 기본 단위는 구(phrase)가 되며, 변환단계에서 이용되는 변환 사전은 원시언어와 목표언어의 구(phrase) 간의 대응관계를 나타내는 정보를 저장해두는 데이터베이스로서 변환방식 기계번역 시스템에서 핵심이 되는 부분이라 할 수 있다. 마지막 단계인 생성단계는 변환단계에서 만들어진 목표언어구문구조트리로부터 목표언어 문장을 만드는 단계이다. 변환방식의 기계번역 시스템에 대한 보다 자세한 설명은 "Makoto Nagao, 자연언어 이해, 제 7장 기계번역"등을 참고하기 바란다.
변환방식의 기계번역 시스템에서의 변환단계는 실제로 번역이 일어나는 단계로 변환사전을 이용하여 대역어를 선정하고 원시언어구문트리와 목표언어구문트리간의 구조적 차이를 해소하는 단계이다. 따라서, 변환방식의 기계번역 시스템에서는 변환사전의 품질이 번역의 품질을 결정하는 가장 중요한 요소라 할 수 있다. 이러한 변환사전을 개발하는 종래의 방식은 원시언어와 목표언어의 어휘적, 통사적 특징을 매우 잘 알고 있는 인간 전문가가 수작업으로 작업하는 것이다. 인간 전문가에 의존하는 변환사전 개발은 시간과 비용이 매우 많이 들뿐 아니라 사전 엔트리간의 일관성을 유지하기 위하여 많은 노력을 필요로 하는 문제점이 있다.
따라서, 본 발명은 인간 전문가의 개입을 최소로 하고 사전의 일관성을 효율적으로 유지할 수 있는 변환사전 생성 방법 및 장치를 제공함을 그 목적으로 한다.
도 1은 본원 발명의 바람직한 실시예에 따른 변환사전생성시스템의 구성을 개략적으로 도시한 도면이다.
도 2는 본원 발명의 변환사전생성시스템에 의해 생성된 변화사전 DB의 일례를 도시한 도면이다.
도 3은 본원 발명의 바람직한 실시예에 따라 변환사전 DB의 새로운 엔트리를 생성하는 절차를 도시한 흐름도이다.
도 4는 본원 발명의 바람직한 실시예에 따라 원시언어구조정보를 생성하는 절차를 도시한 흐름도이다.
도 5는 본원 발명에서 이용되는 원시언어구문트리의 일례를 도시한 도면이다.
도 6은 본원 발명의 바람직한 실시예에 따라 원시언어구조의 유효성을 검사하는 절차를 도시한 흐름도이다.
도 7a 및 7b는 본원 발명의 유효성검사에 의해 유효하지 않은 것으로 판단되는 원시언어구조의 일예를 도시한 도면이다.
전술한 목적을 달성하기 위해, 본원 발명에 따른 변환사전 생성방법은, 사용자로부터 숙어 및 연어가 표시된 원시언어문장 및 이에 대응하는 목표언어문장을 수신하여 저장하는 단계와, 상기 저장된 원시언어문장에 대한 구문분석을 수행하여상기 원시언어문장 내의 각 어휘별 품사 및 통사적관계 정보를 포함하는 원시언어구문트리를 생성하는 단계와,상기 생성된 원시언어구문트리로부터 숙어, 연어 및 논항에 해당하는 노드들을 추출해내는 단계와, 상기 원시언어구문트리로부터 추출된 노드들의 최소공통조상노드를 추출해내는 단계와, 상기 최소공통조상노드를 색인어로 하는 원시언어구조정보를 생성하는 단계와, 상기 목표언어문장의 각 형태소에 대해 품사 정보를 첨가하고 상기 목표언어문장내의 원시언어 각각을 이에 대응하는 상기 원시언어구문트리내의 통사적관계정보로서 대체함으로써 목표언어구조정보를 생성하는 단계와, 상기 생성된 원시언어구조정보 및 상기 목표언어구조정보를 상기 저장된 원시언어문장 및 목표언어문장과 함께 새로운 엔트리로서 변환사전에 저장하는 단계를 포함한다.
또한, 상기 방법은 상기 생성된 원시언어구조정보가 구(phrase)를 이루고 있는지 검사함으로써 상기 원시언어구조정보의 유효성을 판단하는 단계를 더 포함한다.상기 생성된 원시언어구조정보의 유효성을 판단하는 단계는, 상기 원시언어구문트리로부터 추출된 모든 논항노드의 부모노드가 숙어노드인지를 검사하는 단계와, 상기 원시언어구문트리로부터 추출된 숙어노드중 부모노드가 숙어노드가 아닌 노드가 2개 이상인지를 판단하는 단계를 포함한다.
또한, 상기 방법은 상기 변환사전에 기저장된 변환사전 엔트리들중에서 상기 생성된 원시언어구조정보의 숙어와 동일한 숙어를 포함하는 엔트리를 검색하는 단계와, 상기 생성된 원시언어구조정보의 숙어에 대응하는 목표언어와 상기 검색된 엔트리내 원시언어구조정보의 숙어에 대응하는 목표언어가 동일하다면, 상기 생성된 원시언어구조정보를 포함하는 새로운 엔트리를 상기 변환사전에 저장하지 않는 단계를 더 포함한다.
우선, 본원 발명을 상세히 살펴보기 이전에, 본 명세서에서 사용되는 몇가지 중요한 용어들이 있는데, 이들의 기본 개념을 정리하면 다음과 같다.
숙어(idiom word): 원시언어문장 내에서 하나 이상의 어휘가 하나의 의미로 번역되는 부분으로서 문장 내에 고정된 어휘로 이루어진다. 예를 들면, "A have no idea B"라는 원시언어 문장에서 "have no idea" 가 숙어에 해당한다.
논항(argument word): 원시언어문장 내에서 여러 어휘로 대체(substitution)될 수 있는 부분을 나타내는 것으로 숙어의 경우는 어휘가 고정되는 것에 비하여 논항은 여러 어휘로 교체가능하다는 점에서 변수와 같은 역할을 한다. 예를 들면, 전술한 예에서 "A" 및 "B"가 논항노드에 해당한다.
연어(collocation word): 원시언어문장 내에서 숙어의 번역에 의미적 제약을 부여하는 부분으로서, 예를 들면, "A put on B"에서 "B"가 "coat, shirts"와 비슷한 종류인 경우에 "put on"은 "입다"로 해석되지만, "B"가 "ski, shoes" 등과 비슷한 종류인 경우에는 "신다"로 해석되기 때문에, "B"가 연어에 해당된다. 따라서, "B"는 논항인 동시에 연어에 해당하게 된다.
이하, 도면을 참조하여 본원 발명의 바람직할 실시예를 살펴보기로 하겠다.
도 1은 본원 발명의 바람직한 실시예에 따른 변환사전생성시스템의 구성을 개략적으로 도시한 도면이다.
원시/목표언어문장쌍 수신부(110)는 사용자로부터 원시문장 및 이에 대응하는 목표문장을 수신하여 임시저장소에 저장한다. 저장된 원시언어 문장 및 목표언어문장은 변환사전엔트리생성부(120)에 의해 원시언어문장구조 및 목표언어문장구조를 생성하는데 이용될 것이다. 본원 발명의 이해를 돕기 위해, 상기 수신부(110)에 입력되는 원시언어문장 및 목표언어문장은 다음과 같다고 가정한다.
원시언어: The +man *has *no *idea what she meant by those words.
목표언어: man이 meantㄴ지를 모른다.
사용자는 원시언어문장 입력시에, 원시언어문장 내의 숙어 어휘와 해당 숙어를 번역하는데 있어서 의미적 제약을 부여하는 연어 어휘에 일정한 기호를 표시해준다. 상기 예에서는, "have no idea" 가 숙어에 해당하고, "man"이 연어에 해당한다. "have no idea"라는 숙어에는 주어 위치에 "man"과 유사한 어휘, 즉, 사람과 같은 종류의 어휘 (예를 들면, 그, 그녀 등)만이 들어갈 수 있고 사물을 나타내는 어휘는 들어갈 수 없다는 점에서, "man"이 "have no idea"에 의미적 제약을 미치는 연어에 해당한다. 상기 예에서는 숙어 어휘 앞에 "*"를 표시하였고, 연어 어휘앞에 "+"를 표시하였으나, 반드시 이러한 기호에 한정되는 것은 아님을 밝혀둔다.
목표언어문장 입력시에, 사용자는 원시언어문장의 숙어에 대응하는 목표언어(상기 예에서는, "-이 ㄴ지를 모른다")를 입력하고 논항 부분에 대해서는원시언어를 그대로 입력한다. 또한, 논항이 하나 이상의 어휘로 이루어지는 경우에는 이들 어휘중 중요한 어휘(상기 예에서는, "man" 및 "meant")만을 입력하면 된다. 사용자가 전술한 수준 정도에서 언시언어문장 및 목표언어문장을 입력하는 것은 그다지 언어학적으로 전문적 지식을 필요치 않으며, 짧은 시간내에 많은 문장을 입력할 수 있는 장점이 있다.
변환사전엔트리생성부(120)는 사용자로부터 입력된 원시/목표언어문장 데이터에 기초하여 원시언어문장의 구문분석을 통해 원시언어구조정보를 생성함과 동시에 이에 대응하는 목표언어구조정보를 생성한다. 본원발명에 따른 원시언어구조정보 및 목표언어구조정보 생성에 대해서는 도 3을 참조하여 상세하게 설명하기로 하겠다.
유효성검사부(130)는 사전엔트리생성부(120)에 의해 생성된 새로운 엔트리의 원시언어구조가 기계번역시 변환의 기본 단위가 되는 구(phrase)를 이루고 있는지를 검사함으로써, 새로운 엔트리가 변환에 유효한지를 검사한다. 엔트리가 유효하지 않다고 판단되는 경우에는 사용자로 하여금 자신이 원시언어문장 및 목표언어문장을 제대로 입력한 것인지를 확인하고, 오류가 있었다면 수정할 수 있는 기회를 사용자에게 부여할 수 있다. 원시언어구조의 유효성을 검사하는 방법은 이하에서 도 6과 관련하여 보다 자세하게 설명된다.
유사엔트리추출부(140)는 유효성검사부(130)에 의해 유효한 엔트리로 판정된 새로운 엔트리의 "숙어"정보를 이용하여 변환사전 DB(150)에 기저장되어있는 엔트리들중 동일한 "숙어" 정보를 갖는 엔트리들을 검색한다. 새로운 엔트리의 "숙어"정보에 대응하는 목표언어와 동일한 목표언어에 대응하는 "숙어"정보를 갖는 엔트리가 이미 변환사전 DB에 저장되어 있다면, 새로운 엔트리는 중복엔트리이기 때문에 변환사전 DB의 일관성 유지를 위해 저장되지 않을 것이다.
일반적인 영한 기계번역시스템의 경우 변환사전에 대략 30만개 가량의 사전 엔트리가 저장되는데, 이렇게 사전 엔트리의 수가 늘어남에 따라 새롭게 입력하고자 하는 엔트리가 기존의 엔트리와 일관성을 가지고 있는지를 검사하기가 어려워진다. 본원 발명은 이러한 문제점을 해결하기 위해 유사엔트리추출부(140)를 제공하는 것이다. 유사엔트리추출부(140)를 이용하여 새로운 엔트리와 동일한 숙어를 갖는 유사 엔트리를 검색함으로써, 변환사전 DB(150)에 이미 저장되어있는 사전엔트리와 동일한 엔트리가 새롭게 저장되는 것을 방지함으로써 사전의 일관성을 유지할 수 있다.
변환사전 DB(150)는, 사용자가 입력한 원시/목표언어문장쌍과 함께, 사전엔트리생성부(120)에 의해 생성되고 유효성 검사부(130)에 의해 유효성검사 및 유사엔트리추출부(140)에 의한 유사엔트리검색이 완료된 원시언어구조정보 및 목표언어구조정보가 저장되는 데이터베이스이다. 변환사전 DB(150)는 전술한 바와 같이 변환방식 기계번역시스템에서 번역의 품질을 결정짓는 중요한 요소이다.
본원 발명의 바람직한 실시예에 따라 생성된 변환사전 DB(150)의 일례가 도 2에 도시되어 있다. 도 2에 도시된 바와 같이, 변환사전 DB의 엔트리는 "원시언어문장", "목표언어문장", "색인어", "원시언어구조정보", "목표언어구조정보" 및 "숙어노드목록"으로 이루어져 있다. 이외에도 기타 다른 정보를 포함할 수 있으나,본원 발명의 이해를 돕기 위해 필수 항목들만을 표시하였음을 밝혀둔다. "언시언어문장" 및 "목표언어문장"항목은 사용자가 입력한 원시언어문장 및 목표언어문장을 저장하는 항목이며, "원시언어구조정보" 및 "목표언어구조정보"는 변환사전엔트리생성부(120)에 의해 생성된 원시언어구조정보 및 목표언어구조정보를 저장하는 항목이다. "색인어"는 원시언어문장의 구문분석을 통해 밝혀진 원시언어구문트리의 루트 노드에 해당하는 어휘를 저장하는 항목이다. "숙어노드목록"은 이하에 설명할 유사엔트리추출부(140)에서 유사 엔트리를 효율적으로 검색하기 위해 숙어만을 별도로 저장해두는 항목이다.
도 3을 참조하면, 본원 발명의 바람직한 실시예에 따라 변환사전 DB의 새로운 엔트리를 생성하는 절차가 흐름도로 도시되어 있다.
단계(310)에서, 사용자로부터 원시언어문장 및 목표언어문장을 수신하여 임시저장소에 저장한다.
단계(320)에서, 사용자가 입력한 원시언어문장에 대해 구문분석기를 이용하여 구문분석을 수행한다. 구문분석기는 원시언어문장의 구문 구조를 분석하고 어휘간의 통사적 관계를 원시언어구문트리로 표현한 결과를 출력하는 프로그램으로서, 본원 발명에서 새롭게 구현된 것이 아니라 기계번역의 구문분석을 위해 기존에 다양한 방식으로 개발되어 사용되고 있다. 구문분석과 구문분석기에 대한 보다 자세한 내용은 "Makoto Nagao, 자연언어 처리, 제 4장 구문해석"을 참고하기 바란다.
사용자가 입력한 원시언어문장 "The +man *has *no *idea what she meant by those words."의 구문분석 결과의 출력에 해당하는 원시언어구문트리가 도 5에 도시되어 있다. 도 5에 도시된 바와 같이, 문장을 이루고 있는 각 어휘는 개별 노드(510 내지 530)로 표현될 수 있다.
트리 노드로 표시된 어휘 옆에 표시되어 있는 기호는 각 어휘의 품사를 표현하기 위한 것으로서, 예를 들면, "n"은 명사, "v"는 동사, "det"는 한정사,"prep"는 전치사를 나타낸다. 이들은 각 어휘의 품사 표시를 위해 임의로 정해진 기호들로서 반드시 이렇게 표현하는 것에 국한되는 것은 아니며 단지 예시적이다. 또한, 노드간의 에지에 표시되어 있는 "subj", "obj", "ndebt" 등은 노드간의 통사적 관계를 설명하는 기호들로서, 이들 기호의 구체적인 의미는 이하의 표에 설명된 바와 같다.
통사적관계 설명
subj 주어
obj 목적어
comp 보어
nobj 명사의 목적어
objprep 전치사의 목적어
ndet 명사수식한정사
vprep 동사구 수식 전치사구
... ...
상기 표는 단지 몇가지 예를 들어 설명한 것으로서, 이외에도 다양한 기호들이 다양한 통사적 관계를 나타냄을 본 기술분야의 당업자들은 이해할 수 있을 것이다.
다시, 도면 3을 참조하면, 단계(330)에서, 사용자가 입력한 원시언어문장 및 목표언어문장에 기초하여, 상기 단계(320)로부터 출력된 원시언어구문트리내의 노드들중 숙어노드(In), 연어노드(Cn), 논항노드(An)(이를 통틀어, "조건노드"라함)를 찾는다. 숙어노드는 원시언어문장에서 *표시가 있는 어휘를 원시언어구문트리에서 찾으면 되고, 연어노드는 원시언어문장에서 +표시가 있는 어휘를 트리에서 찾으면 된다. 논항노드는 목표언어 문장에서 원시언어로 쓰여진 어휘를 트리에서 찾으면 된다. 도 5에 도시된 원시언어구문트리에서 원시언어문장 내의 "*have *no *idea"에 해당하는 노드(510, 516, 518)가 숙어노드에 해당하고, "+man"에 해당하는 노드(512)가 연어노드에 해당하며, 목표언어문장 내의 "man" 및 "meant"에 해당하는 노드(512,522)가 논항노드에 해당할 것이다.
단계(340)에서는, 전술한 단계(330)에서 추출한 조건노드들의 최소공통조상노드(R)을 추출한다. 최소공통조상노드(R)을 추출하기 위해, 우선 숙어노드, 연어노드 및 논항노드 각각의 조상노드 집합을 계산한다. 도 5에 도시된 원시언어구문트리에 기초하여 계산된 조상노드집합 결과는 다음과 같다.
노드 조상노드 집합
have:v {have:v}
no:det {no:det, idea:n, have:v}
idea:n {idea:n, have:v}
man:n {man:n, have:v}
meant:v {meant:v, idea:n, have:v}
상기와 같은 계산결과에 따르면, 숙어노드들(510,516, 518)의 조상노드는 "have"에 해당하는 노드(510)이고, 연어노드(512)의 조상노드도 노드(510), 논항노드(512, 522)의 조상노드도 노드(510)이 됨을 알 수 있다. 이들 조상노드의 교집합에 해당하는 노드들중에서 레벨이 가장 높은 것을 조상노드로 선택하고,이를 "최소공통조상노드"라 한다. 도 5에서의 원시언어구문트리에서 최소공통조상노드는 "have"에 해당하는 노드(510)가 된다.
단계(350)에서는, 단계(340)에서 추출한 최소공통조상노드를 머리(head)로 하는 원시언어구조정보를 생성한다. 최소공통조상노드에 해당하는 어휘는 또한 상기 정보의 색인어로서 변환사전 DB에 저장될 것이다. 원시언어구조정보의 생성은 도 4에 도시된 바와 같은 재귀적 방법을 이용함으로써 완성된다.
구체적으로, 도 4를 참조하면, 현재노드의 종류에 따라 적합한 원시언어구조정보를 생성하고(410), 현재노드에 대한 자식노드가 있는지를 판단하고(420), 그렇다면 자신노드가 조건노드(즉, 숙어노드, 연어노드 또는 논항노드)인지를 판단하여서(430), 자식노드에 대해서도 원시언어구조를 생성하는 단계(440)를 재귀적으로 반복함으로써, 최종적으로 원시언어구조정보를 생성한다.
원시언어구조정보에는 현재노드와 자시노드간의 통사적 관계와 각 노드의 어휘 및 품사정보가 포함된다. 일반적으로, 원시언어구조는 괄호("(")부호를 이용하여 표현되며, "("다음에는 부모노드와 자식노드간의 통사적 관계를 나타내는 기호가 나타난다. 이러한 통사적 관계를 슬롯(slot)이라고도 부르는데, 슬롯에 대한 보다 자세한 설명은 "Michael C. McCord, Slot Grammar: A System for simpler construction of practical natural language grammars. In R. Studer, editor, Natural Language and Logic: International Scientific Symposium, Lecture Notes in Computer Science, pages 118-145, Springer Verlag, Berlin, 1990"를 참고하기 바란다. 통사적 관계를 나타내는 일부 기호들에 대해서는 <표 1>에서 이미 설명하였다. 또한, 특정한 통사적관계로 한정할 필요가 없을 경우에는 '?'로 표시하여 모든 통사적 관계를 허용하도록 한다. 다음에, 숙어노드의 경우에 '<어휘:품사>'의 형태로 숙어노드의 어휘와 품사를 표시해준다. 색인어는 항상 숙어 노드가 되며 '<$this>'로 표시한다. 연어노드의 경우에는 '<<어휘1:품사1 ... 어휘n:품사n>>'와 같이 연어의 어휘와 품사를 기술해 준다. 연어노드가 아닌 논항 노드의 경우에는 통사적 관계만을 기술한다.
도 5에 도시된 원시언어구문트리에 바탕을 두고 생성된 원시언어구조정보는 다음과 같다.
색인어
have:v
원시언어구조정보
(?<$this>(subj<<man:n>>)(obj<idea:n>(ndet<no:det>(nobj)))
여기서, 원시언어구문트리의 숙어노드(510, 516, 518) 각각은 '(? <$this>)', '(obj <idea:n>)', '(ndet <no:det>)'로 표시된다. <$this>는 색인어("have:v")로 대치되는 부분임을 표시해준다. 또한, 주어와 같이 의미적 제약이 있는 연어노드(512)는 '(subj <<man:n>>)'로 표시되는데, 이는 주어의 위치에 'man'과 유사한 어휘가 들어감을 나타낸다. 논항노드(512, 522)는 각각 '(subj <<people:n>>)'과 '(nobj)'로 표시된다.
도 3을 다시 참조하면, 단계(360)에서는 사용자가 입력한 목표언어문장에 대응하는 목표언어문장구조를 생성한다. 목표언어문장구조를 생성하기 위해, 먼저 목표언어 품사부착기를 이용하여 각 어휘에 품사를 부착한다. 목표언어 품사 부착기는 기계번역의 생성단계에러 사용되는 목표언어형태소사전을 이용하여 목표언어 문장의 형태소 각각에 대해 품사를 부착하는 기능을 수행하는 프로그램이다. 품사부착기에 대한 보다 자세한 설명은 "Makoto Nagao, 자연언어 처리, 제 3장 형태소해석"을 참고하기 바라며, 목표언어구조에서 다양한 품사를 나타내는 기호 일부는 <표 3>에 기재되어 있다.
품사 설명
js 주격조사
jp 목적격조사
ec 연결어미
pv 동사
f 외래어
mm 관형사
... ...
예를 들어, "man이 meantㄴ지를 모른다."라는 목표언어문장에 대한 품사 부착 결과는 "man/f+가/js meant/f+ㄴ지/ec+를/jo 모르/pv"이다. 다음에, 품사가 부착된 목표언어문장에서 원시언어로 표시되어 있는 논항노드를 원시언어 트리에서 찾아서 이를 슬롯이름으로 치환함으로써 목표언어 구조를 생성한다. 예를 들어, 상기 목표언어 예시 문장에서 찾아진 논항노드는 "man/f", "meant/f"이며, 이를 슬롯이름으로 치환한 것은 각각 "$subj", "$nobj"가 된다. 전술한 방법에 따라 생성된 최종의 목표언어구조정보는 "$subj+가/js $nobj+ㄴ지/ec+를/jo 모르/pv"가 될 것이다.
전술한 단계(350 및 360)에서 각각 생성된 원시언어구조정보 및 목표언어구조정보는 후술할 유효성 검사를 거쳐서 사용자가 입력한 원시언어문장 및 목표언어문장과 함께 변환사전 DB의 새로운 엔트리로서 저장될 것이다.
다음 단계(370)에서는, 전술한 단계들에 의해 생성된 변환사전 DB 엔트리의 유효성을 검사한다. 전술한 단계들에 의해 생성된 사전 엔트리는 변환이 가능한 것일 수도 있고 그렇지 않을 수도 있다. 변환방식의 기계번역에서 번역의 단위가 되는 것은 구(phrase)이다. 따라서, 새로운 엔트리가 기계번역시에 유효하게 이용되기 위해서는 원시언어 구조가 구를 이루고 있어야 한다. 따라서, 단계(370)에서는 새롭게 생성된 사전 엔트리의 원시언어 구조가 구를 이루고 있는지를 검사한다.
본원 발명의 바람직한 실시예에 따라 원시언어구조의 유효성을 검사하는 절차가 도 6에 도시되어 있다. 도시된 바와 같이, 단계(610)에서, 먼저 모든 논항노드의 부모노드가 숙어노드인지를 검사한다. 그렇지 않다면, 원시언어가 구(phrase)를 이루지 않는 것이므로 무효 엔트리로 판정한다(630). 다음에, 숙어노드의 부모노드가 숙어노드가 아닌 경우가 두개이상 있는지를 판단한다(620). 그렇다면, 원시언어의 숙어 노드들이 두개 이상의 구를 이루고 있는 것을 의미하므로 무효한 엔트리로 판정되고(630), 그렇지 않다면, 상기 엔트리는 유효한 엔트리로 판정된다(640). 무효한 엔트리로 판정되면, 사용자에게 자신이 입력한 원시언어, 목표언어 문장쌍을 다시 보여줌으로써 수정할 수 있는 기회를 줄 수 있다.
도 7a 및 7b는 유효하지 않은 (즉, 구를 이루고 있지 않은) 원시언어구조의 일예를 도시한 것이다. 도면에서, 사선 빗금으로 표시된 노드는 숙어노드, 바둑무늬로 표시된 노드는 논항노드이며 점선으로 표시된 노드는 연어노드로 추출된 노드임을 의미한다. 도 7a에서는, 논항노드인 "the:det"의 부모노드가 숙어노드가 아닌 경우를 보여주고 있으며, 도 7b에서는 숙어노드의 부모노드가 숙어노드가 아닌 경우가 "have:v"와 "no:det" 두개인 경우를 보여주고 있다.
마지막으로, 도 3을 다시 참조하면, 단계(380)에서는 전술한 단계(370)에 의해 유효한 엔트리로 판정된 새로운 엔트리의 "숙어노드목록"정보를 이용하여 변환사전 DB에 이미 존재하고 있는 엔트리들중 동일한 "숙어노드목록"정보를 갖는 엔트리들을 검색한다. 새로운 엔트리의 "숙어노드목록"정보에 대응하는 목표언어와 동일한 목표언어에 대응하는 "숙어노드목록"정보를 갖는 엔트리가 이미 변환사전 DB에 저장되어 있다면, 새로운 엔트리는 중복엔트리이기 때문에 변환사전 DB의 일관성 유지를 위해 저장되지 않을 것이다. 대안적인 실시예에서는, 사용자에게 새롭게 생성된 엔트리와 동일한 "숙어노드목록"정보를 갖는 엔트리들을 표시해주고, 사용자로 하여금 새롭게 생성된 엔트리가 기존 엔트리와 유사한지를 판단하도록 해줄 수 있다.
예를 들어, 새로운 사전 엔트리 생성을 위해 사용자가 "I *put *on the +shirts"라는 원시언어문장과 "I가 shirts를 입다"라는 목표언어문장을 입력한 경우에, "put on"이라는 숙어노드목록을 갖는 새로운 엔트리가 생성된다. 그 후에, "put on"이라는 숙어노드목록 정보를 갖고 도 2에 도시된 변환사전을 검색하면, "put on"이 "입다"와 "신다"라는 2개의 뜻으로 번역됨을 각각 나타내는 2개의 엔트리가 검색된다. "put on" 이 "입다"라는 뜻으로 목표언어문장으로 번역되는 엔트리가 이미 존재하므로, 새로운 엔트리는 변환사전 DB(150)에 저장될 필요가 없을 것이다. 이렇게 함으로써, 변환사전 DB에 중복된 엔트리가 저장되는 것을 방지하고 변환사전의 일관성을 유지할 수 있다.
본원발명에 따르면, 원시언어와 목표언어에 대한 많은 어휘적, 통사적 지식을 요구하는 변환사전 개발을 원시언어 문장과 그에 대응하는 목표언어 문장과 이들간의 대응관계를 기술하는 것으로 간략화하는 것을 가능하게 함으로써 사전개발에 소요되는 시간과 비용을 절감하게 할 뿐 아니라, 유효성 검사 및 유사 엔트리 추출기능을 통하여 새롭게 입력되는 사전 엔트리의 유효성과 기존 사전 엔트리와의 일관성을 사용자가 보다 편리하게 검사할 수 있게 해줌으로써 변환 사전의 유지, 보수에 소요되는 비용을 줄일 수 있게 한다.

Claims (15)

  1. 변환방식 기계번역시스템에서 사용되는 변환사전을 생성하는 방법에 있어서,
    사용자로부터 숙어 및 연어가 표시된 원시언어문장 및 이에 대응하는 목표언어문장을 수신하여 저장하는 단계와,
    상기 저장된 원시언어문장에 대한 구문분석을 수행하여 상기 원시언어문장 내의 각 어휘별 품사 및 통사적관계 정보를 포함하는 원시언어구문트리를 생성하는 단계와,
    상기 생성된 원시언어구문트리로부터 숙어, 연어 및 논항에 해당하는 노드들을 추출해내는 단계와,
    상기 원시언어구문트리로부터 추출된 노드들의 최소공통조상노드를 추출해내는 단계와,
    상기 최소공통조상노드를 색인어로 하는 원시언어구조정보를 생성하는 단계와,
    상기 목표언어문장의 각 형태소에 대해 품사 정보를 첨가하고 상기 목표언어문장내의 원시언어 각각을 이에 대응하는 상기 원시언어구문트리내의 통사적관계정보로서 대체함으로써 목표언어구조정보를 생성하는 단계와,
    상기 생성된 원시언어구조정보 및 상기 목표언어구조정보를 상기 저장된 원시언어문장 및 목표언어문장과 함께 새로운 엔트리로서 변환사전에 저장하는 단계
    를 포함하는 변환사전생성방법.
  2. 제1항에 있어서, 상기 생성된 원시언어구조정보가 구(phrase)를 이루고 있는지 검사함으로써 상기 원시언어구조정보의 유효성을 판단하는 단계를 더 포함하는 변환사전생성방법.
  3. 제2항에 있어서, 상기 생성된 원시언어구조정보의 유효성을 판단하는 단계는, 상기 원시언어구문트리로부터 추출된 모든 논항노드의 부모노드가 숙어노드인지를 검사하는 단계와, 상기 원시언어구문트리로부터 추출된 숙어노드중 부모노드가 숙어노드가 아닌 노드가 2개 이상인지를 판단하는 단계를 포함하는 변환사전생성방법.
  4. 제1항에 있어서, 상기 변환사전에 기저장된 변환사전 엔트리들중에서 상기 생성된 원시언어구조정보의 숙어와 동일한 숙어를 포함하는 엔트리를 검색하는 단계와,
    상기 생성된 원시언어구조정보의 숙어에 대응하는 목표언어와 상기 검색된 엔트리내 원시언어구조정보의 숙어에 대응하는 목표언어가 동일하다면, 상기 생성된 원시언어구조정보를 포함하는 새로운 엔트리를 상기 변환사전에 저장하지 않는 단계
    를 더 포함하는 변환사전생성방법.
  5. 제1항에 있어서, 상기 변환사전의 엔트리 항목은, 사용자로부터 수신된 상기 원시언어문장 및 목표언어문장 항목, 상기 생성된 원시언어구조정보 및 목표언어구조정보 항목, 상기 최소공통조상노드정보에 해당하는 색인어항목 및 상기 원시언어구조정보내의 숙어항목을 포함하는 변환사전생성방법.
  6. 제1항에 있어서, 상기 수신된 목표언어문장은 상기 원시언어문장의 숙어에 대응하는 목표언어와 논항에 대응하는 원시언어로 이루어지는 변환사전생성방법.
  7. 제1항에 있어서, 상기 숙어, 연어 및 논항에 해당하는 노드를 추출해내는 단계는, 상기 원시언어문장내에서 사용자에 의해 숙어 및 연어로 각각 표시된 어휘에 대응하는 노드를 상기 숙어노드 및 연어노드로서 각각 추출해내는 단계와, 상기 목표언어문장내의 원시언어에 대응하는 노드를 상기 논항노드로 추출하는 단계를 포함하는 변환사전생성방법.
  8. 변환방식 기계번역시스템에서 사용되는 변환사전을 생성하기 위한 장치에 있어서,
    사용자로부터 숙어 및 연어가 표시된 원시언어문장 및 이에 대응하는 목표언어문장을 수신 및 저장하기 위한 수단과,
    상기 저장된 원시언어문장에 대한 구문분석을 수행하여 상기 원시언어문장 내의 각 어휘별 품사 및 통사적관계 정보를 포함하는 원시언어구문트리를 생성하기위한 수단과,
    상기 생성된 원시언어구문트리로부터 숙어, 연어 및 논항에 해당하는 노드들을 추출해내기 위한 수단과,
    상기 원시언어구문트리로부터 추출된 노드들의 최소공통조상노드를 추출해내기 위한 수단과,
    상기 최소공통조상노드를 색인어로 하는 원시언어구조정보를 생성하기 위한 수단과,
    상기 목표언어문장의 각 형태소에 대해 품사 정보를 첨가하고 상기 목표언어문장내의 원시언어 각각을 이에 대응하는 상기 원시언어구문트리내의 통사적관계정보로서 대체함으로써 목표언어구조정보를 생성하기 위한 수단과,
    상기 생성된 원시언어구조정보 및 상기 목표언어구조정보를 상기 저장된 원시언어문장 및 목표언어문장과 함께 새로운 엔트리로서 변환사전에 저장하기 위한 수단
    를 포함하는 변환사전생성장치.
  9. 제8항에 있어서, 상기 생성된 원시언어구조정보가 구(phrase)를 이루고 있는지 검사함으로써 상기 원시언어구조정보의 유효성을 판단하기 위한 수단을 더 포함하는 변환사전생성장치.
  10. 제9항에 있어서, 상기 생성된 원시언어구조정보의 유효성을 판단하기 위한수단은, 상기 원시언어구문트리로부터 추출된 모든 논항노드의 부모노드가 숙어노드인지를 검사하기 위한 수단과, 상기 원시언어구문트리로부터 추출된 숙어노드중 부모노드가 숙어노드가 아닌 노드가 2개 이상인지를 판단하기 위한 수단을 포함하는 변환사전생성장치.
  11. 제8항에 있어서, 상기 변환사전에 기저장된 변환사전 엔트리들중에서 상기 생성된 원시언어구조정보의 숙어와 동일한 숙어를 포함하는 엔트리를 검색하기 위한 수단과,
    상기 생성된 원시언어구조정보의 숙어에 대응하는 목표언어와 상기 검색된 엔트리내 원시언어구조정보의 숙어에 대응하는 목표언어가 동일하다면, 상기 생성된 원시언어구조정보를 포함하는 새로운 엔트리를 상기 변환사전에 저장하지 않기 위한 수단
    을 더 포함하는 변환사전생성장치.
  12. 제8항에 있어서, 상기 변환사전의 엔트리 항목은, 사용자로부터 수신된 상기 원시언어문장 및 목표언어문장 항목, 상기 생성된 원시언어구조정보 및 목표언어구조정보 항목, 상기 최소공통조상노드정보에 해당하는 색인어항목 및 상기 원시언어구조정보내의 숙어항목을 포함하는 변환사전생성장치.
  13. 제8항에 있어서, 상기 수신된 목표언어문장은 상기 원시언어문장의 숙어에대응하는 목표언어와 논항에 대응하는 원시언어로 이루어지는 변환사전생성장치.
  14. 제8항에 있어서, 상기 숙어, 연어 및 논항에 해당하는 노드를 추출해내기 위한 수단은, 상기 원시언어문장내에서 사용자에 의해 숙어 및 연어로 각각 표시된 어휘에 대응하는 노드를 상기 숙어노드 및 연어노드로서 각각 추출해내기 위한 수단과, 상기 목표언어문장내의 원시언어에 대응하는 노드를 상기 논항노드로 추출하기 위한 수단을 포함하는 변환사전생성장치.
  15. 변환방식 기계번역시스템에서 사용되는 변환사전을 생성하는 방법을 데이터처리시스템에서 수행시키기 위한 프로그램을 기록한 컴퓨터판독가능매체에 있어서, 상기 방법은,
    사용자로부터 숙어 및 연어가 표시된 원시언어문장 및 이에 대응하는 목표언어문장을 수신하여 저장하는 단계와,
    상기 저장된 원시언어문장에 대한 구문분석을 수행하여 상기 원시언어문장 내의 각 어휘별 품사 및 통사적관계 정보를 포함하는 원시언어구문트리를 생성하는 단계와,
    상기 생성된 원시언어구문트리로부터 숙어, 연어 및 논항에 해당하는 노드들을 추출해내는 단계와,
    상기 원시언어구문트리로부터 추출된 노드들의 최소공통조상노드를 추출해내는 단계와,
    상기 최소공통조상노드를 색인어로 하는 원시언어구조정보를 생성하는 단계와,
    상기 목표언어문장의 각 형태소에 대해 품사 정보를 첨가하고 상기 목표언어문장내의 원시언어 각각을 이에 대응하는 상기 원시언어구문트리내의 통사적관계정보로서 대체함으로써 목표언어구조정보를 생성하는 단계와,
    상기 생성된 원시언어구조정보 및 상기 목표언어구조정보를 상기 저장된 원시언어문장 및 목표언어문장과 함께 새로운 엔트리로서 변환사전에 저장하는 단계
    를 포함하는 컴퓨터판독가능매체.
KR10-2002-0031861A 2002-06-07 2002-06-07 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 KR100530154B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2002-0031861A KR100530154B1 (ko) 2002-06-07 2002-06-07 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US10/455,098 US7330810B2 (en) 2002-06-07 2003-06-05 Method and apparatus for developing a transfer dictionary used in transfer-based machine translation system
JP2003161335A JP4319860B2 (ja) 2002-06-07 2003-06-05 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
US11/949,406 US7487082B2 (en) 2002-06-07 2007-12-03 Apparatus for developing a transfer dictionary used in transfer-based machine translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0031861A KR100530154B1 (ko) 2002-06-07 2002-06-07 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20030094632A true KR20030094632A (ko) 2003-12-18
KR100530154B1 KR100530154B1 (ko) 2005-11-21

Family

ID=29728615

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0031861A KR100530154B1 (ko) 2002-06-07 2002-06-07 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치

Country Status (3)

Country Link
US (2) US7330810B2 (ko)
JP (1) JP4319860B2 (ko)
KR (1) KR100530154B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
WO2012030053A2 (ko) * 2010-09-02 2012-03-08 에스케이텔레콤 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
KR101142322B1 (ko) * 2009-03-31 2012-05-17 (재)국토연구원 Asn.1 컴파일러 장치
US8219382B2 (en) 2006-08-25 2012-07-10 Electronics And Telecommunications Research Institute Domain-adaptive portable machine translation device for translating closed captions using dynamic translation resources and method thereof

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
CN100437557C (zh) * 2004-02-04 2008-11-26 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
JP4654776B2 (ja) * 2005-06-03 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US20080027911A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language Search Tool
JP5239863B2 (ja) * 2006-09-07 2013-07-17 日本電気株式会社 自然言語処理システムおよび辞書登録システム
US8600736B2 (en) * 2007-01-04 2013-12-03 Thinking Solutions Pty Ltd Linguistic analysis
US7792838B2 (en) * 2007-03-29 2010-09-07 International Business Machines Corporation Information-theory based measure of similarity between instances in ontology
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8812304B2 (en) * 2008-08-12 2014-08-19 Abbyy Infopoisk Llc Method and system for downloading additional search results into electronic dictionaries
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
BR112013000101A2 (pt) 2010-07-02 2016-05-17 Procter & Gamble filamentos compreendendo mantas de não tecido com agente ativo e métodos de fabricação dos mesmos
CN106776590A (zh) * 2016-12-22 2017-05-31 北京金山办公软件股份有限公司 一种获取词条译文的方法及系统
CN107590130B (zh) * 2017-09-30 2019-06-14 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN109960812B (zh) * 2017-12-23 2021-05-04 华为技术有限公司 语言处理方法及设备
WO2024025184A1 (ko) * 2022-07-26 2024-02-01 최선종 동사의 문형별 및 단어의 품사별 영어 해석편 제공시스템 및 그것을 기록한 매체

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6089275A (ja) * 1983-10-21 1985-05-20 Hitachi Ltd 翻訳方式
JPH01169577A (ja) 1987-12-24 1989-07-04 Sharp Corp 翻訳辞書名の出力方式
JP2814634B2 (ja) 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
JPH04326471A (ja) * 1991-04-26 1992-11-16 Nippon Telegr & Teleph Corp <Ntt> 対訳マスタ辞書メンテナンス方法
ES2101613B1 (es) 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
JP2745370B2 (ja) 1993-02-23 1998-04-28 日本アイ・ビー・エム株式会社 機械翻訳方法及び機械翻訳装置
JPH08329089A (ja) 1995-05-31 1996-12-13 Oki Software Kansai:Kk 機械翻訳方法および装置
JPH09259127A (ja) 1996-03-21 1997-10-03 Sharp Corp 翻訳装置
KR100286649B1 (ko) * 1996-06-27 2001-04-16 이구택 연어패턴에 기초한 어휘 변환방법
JP3913838B2 (ja) 1997-06-23 2007-05-09 松下電器産業株式会社 機械翻訳装置及び機械翻訳プログラムを記録した情報記録媒体
JP2001209643A (ja) 2000-01-25 2001-08-03 Joyport Kk 機械翻訳システムとその翻訳サーバ及びそのクライアント
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219382B2 (en) 2006-08-25 2012-07-10 Electronics And Telecommunications Research Institute Domain-adaptive portable machine translation device for translating closed captions using dynamic translation resources and method thereof
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
US8121829B2 (en) 2007-08-09 2012-02-21 Electronics And Telecommunications Research Institute Method and apparatus for constructing translation knowledge
KR101142322B1 (ko) * 2009-03-31 2012-05-17 (재)국토연구원 Asn.1 컴파일러 장치
WO2012030053A2 (ko) * 2010-09-02 2012-03-08 에스케이텔레콤 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
WO2012030053A3 (ko) * 2010-09-02 2012-04-19 에스케이텔레콤 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법

Also Published As

Publication number Publication date
US20030233226A1 (en) 2003-12-18
US7487082B2 (en) 2009-02-03
US20080077389A1 (en) 2008-03-27
JP4319860B2 (ja) 2009-08-26
US7330810B2 (en) 2008-02-12
JP2004070928A (ja) 2004-03-04
KR100530154B1 (ko) 2005-11-21

Similar Documents

Publication Publication Date Title
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US5895446A (en) Pattern-based translation method and system
US5640575A (en) Method and apparatus of translation based on patterns
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
EP1349079A1 (en) Machine translation
JPS62163173A (ja) 機械翻訳方法
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
JP2005535007A (ja) 文書検索システム用の知識抽出のための自己学習システムの合成方法
JPH03278174A (ja) 異言語交信用翻訳方法およびシステム
EP1497752A2 (en) Machine translation
KR20160138077A (ko) 기계 번역 시스템 및 방법
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR950013129B1 (ko) 기계번역장치 및 방법
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
Chorozoglou et al. Review of Parsing in Modern Greek-A New Approach
JP2009116584A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2004164672A (ja) 表現変換方法及び表現変換装置
Nouar et al. Deep Semantic Parsing Method to Capture the Structure of Multi-Relation Questions over Linked Data.
JP3892227B2 (ja) 機械翻訳システム
JP2752025B2 (ja) 機械翻訳装置
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
Sathiyamurthy et al. Multilingual acquiring of e-content definition based on universal networking language
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20020607

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20040219

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20020607

Comment text: Patent Application

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20051027

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20051114

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20051111

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20081031

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20081031

Start annual number: 4

End annual number: 4

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee