KR100481598B1 - 복합 형태소 분석 장치 및 방법 - Google Patents
복합 형태소 분석 장치 및 방법 Download PDFInfo
- Publication number
- KR100481598B1 KR100481598B1 KR10-2003-0033372A KR20030033372A KR100481598B1 KR 100481598 B1 KR100481598 B1 KR 100481598B1 KR 20030033372 A KR20030033372 A KR 20030033372A KR 100481598 B1 KR100481598 B1 KR 100481598B1
- Authority
- KR
- South Korea
- Prior art keywords
- analysis
- morpheme
- word
- complex
- unit
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
품사 인덱스 | 품사명 |
0123...137 | 인명고유명사 지명고유명사 기타고유명사 용언불가능보통명사 . . . 감탄사 |
1차 기본 형태소 사전 구축 형식 | 1차 사전 구축 예 |
1. Key : 키워드2. Trie Index : 자소/음절 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨 | 1. Key : 영상2. Trie Index : ㅇ→ㅕ→ㅇ→ㅅ→ㅏ→ㅇ3. Content : 120012, n, 231, 영상, 1 |
2차 복합 형태소 사전 구축 형식 | 2차 사전 구축 예 |
1. Key : 키워드2. Trie Index : 기본형태소 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨, 띄어쓰기 정보 | 1. Key : ㄹ수있2. Trie Index : ㄹ→수→있3. Content : d01210, e, 1084, ㄹ수있, 1, ㄹ_수_있 |
1차 기본 형태소 사전 구축 형식 | 1차 사전 구축 예 |
1. Key : 키워드2. Trie Index : 자소/음절 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨 | 1. Key : 영상2. Trie Index : ㅇ→ㅕ→ㅇ→ㅅ→ㅏ→ㅇ3. Content : 120012, n, 231, 영상, 1 |
2차 복합 형태소 사전 구축 형식 | 2차 사전 구축 예 |
1. Key : 키워드2. Trie Index : 기본형태소 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨, 띄어쓰기 정보 | 1. Key : ㄹ수있2. Trie Index : ㄹ→수→있3. Content : d01210, e, 1084, ㄹ수있, 1, ㄹ_수_있 |
Claims (8)
- 한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스를 이용하는 한국어 문장의 복합 형태소를 분석하는 방법에 있어서,문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리 단계와,상기 전처리 단계에서 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 단계와,띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 단계와,문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 단계와를 포함하는 복합 형태소 분석 방법.
- 제 1 항의 방법에 있어서,상기 전처리 단계에서 상기 기분석 사전 데이터베이스에 저장된 어절이 상기 입력 문장에 포함되지 않는 경우에 상기 어절에 대해 상기 어절 내 형태소 분석 단계를 적용하도록 하는 복합 형태소 분석 방법.
- 제 2 항의 방법에 있어서,상기 전처리 단계는 상기 입력 문장에 포함되어 있는 특수기호를 처리하고 중복된 공백 문자나 줄넘김 기호를 정규화하는 복합 형태소 분석 방법.
- 제 2 항의 방법에 있어서,상기 전처리 단계는 상기 입력 문장에 포함되어 있는 특수기호를 처리하고 중복된 공백 문자나 줄넘김 기호를 정규화하는 복합 형태소 분석 방법.
- 제 1 항의 방법에 있어서,상기 어절 내 형태소 분석 단계는분석 대상이 되는 어절에 대해 조합형 코드 변환을 수행하는 단계와,상기 변환된 조합형 코드에 대해 음소 단위 트라이 구조의 형태소 사전을 이용하여 상기 분석 알고리즘을 수행하는 단계와,상기 분석 알고리즘에 의해 생성된 형태소 후보들 중에서 상기 어절 내 결합 규칙에 위배된 형태소 후보를 삭제하는 단계와를 포함하는 복합 형태소 분석 방법.
- 제 5 항의 방법에 있어서,상기 어절 외 형태소 분석 단계는 상기 어절 내 형태소 분석 단계에서 생성된 상기 형태소 후보들을 결합하여 복합 형태소를 생성하며, 상기 복합 형태소가 상기 띄어쓰기 정보에 적합한지를 판단하여 복합 형태소 후보를 생성하는 복합 형태소 분석 방법.
- 제 6 항의 방법에 있어서,상기 형태소 태깅 단계는 상기 어절 외 형태소 분석 단계에서 생성된 상기 복합 형태소 후보들과 상기 어절 내 형태소 분석 단계에서 생성된 형태소 후보들에 태깅 가중치를 부여하여 상기 복합 형태소 후보들 간의 우선 순위를 재조정하는 복합 형태소 분석 방법.
- 한국어 문장의 복합 형태소를 분석하는 장치에 있어서,한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스와,문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리부와,상기 전처리부에서 상기 입력 문장에 대한 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 어절 내 형태소 분석부와,상기 입력 문장에 대해 띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 어절 외 형태소 분석부와,상기 입력 문장에 대해 문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 품사 태깅부와를 포함하는 복합 형태소 분석 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0033372A KR100481598B1 (ko) | 2003-05-26 | 2003-05-26 | 복합 형태소 분석 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0033372A KR100481598B1 (ko) | 2003-05-26 | 2003-05-26 | 복합 형태소 분석 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040101678A KR20040101678A (ko) | 2004-12-03 |
KR100481598B1 true KR100481598B1 (ko) | 2005-04-08 |
Family
ID=37378331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-0033372A KR100481598B1 (ko) | 2003-05-26 | 2003-05-26 | 복합 형태소 분석 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100481598B1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102085214B1 (ko) | 2019-10-02 | 2020-03-04 | (주)디앤아이파비스 | 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039901A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039904A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039899A (ko) | 2020-02-06 | 2021-04-12 | (주)디앤아이파비스 | 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039903A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039900A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039902A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100617317B1 (ko) * | 2004-12-15 | 2006-08-30 | 한국전자통신연구원 | 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치 |
KR100835706B1 (ko) * | 2007-07-09 | 2008-06-05 | 한국과학기술정보연구원 | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 |
KR20090066470A (ko) * | 2007-12-20 | 2009-06-24 | 한국과학기술정보연구원 | 기 분석 데이터를 이용한 한국어 형태소 분석 시스템 및방법 |
KR101497411B1 (ko) * | 2008-09-09 | 2015-03-03 | 에스케이플래닛 주식회사 | 문체 변환 장치, 문체 변환 방법, 저장 매체, 자동 대화 서비스 시스템 및 방법 |
US20120047175A1 (en) * | 2009-04-29 | 2012-02-23 | Google Inc. | Short Point-Of-Interest Title Generation |
KR101997783B1 (ko) * | 2017-08-18 | 2019-07-08 | 동아대학교 산학협력단 | 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법 |
KR102152086B1 (ko) * | 2018-06-12 | 2020-09-04 | (주)아이브릭스 | 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법 |
KR102117281B1 (ko) * | 2018-10-01 | 2020-06-01 | 주식회사 아카에이아이 | 빈도 테이블을 이용한 챗봇 발언 생성 방법 |
KR102640811B1 (ko) * | 2023-09-01 | 2024-02-27 | (주)유알피 | 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 |
KR102640803B1 (ko) * | 2023-09-01 | 2024-02-27 | (주)유알피 | 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR890013549A (ko) * | 1988-02-05 | 1989-09-23 | 엘리 웨이스 | 품사결정과 이용방법 |
KR950015053A (ko) * | 1993-11-30 | 1995-06-16 | 김광호 | 한국어 문서 해석방법 및 장치 |
JPH11338863A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 |
KR20000021962A (ko) * | 1998-09-30 | 2000-04-25 | 정선종 | 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법 |
KR20000033993A (ko) * | 1998-11-26 | 2000-06-15 | 정선종 | 워드프로세서의 형태소 정보를 이용한 문서 정렬장치 및 방법 |
KR20010057781A (ko) * | 1999-12-23 | 2001-07-05 | 오길록 | 다중어 형태소 분석장치 및 그 방법 |
-
2003
- 2003-05-26 KR KR10-2003-0033372A patent/KR100481598B1/ko not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR890013549A (ko) * | 1988-02-05 | 1989-09-23 | 엘리 웨이스 | 품사결정과 이용방법 |
KR950015053A (ko) * | 1993-11-30 | 1995-06-16 | 김광호 | 한국어 문서 해석방법 및 장치 |
JPH11338863A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 |
KR20000021962A (ko) * | 1998-09-30 | 2000-04-25 | 정선종 | 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법 |
KR20000033993A (ko) * | 1998-11-26 | 2000-06-15 | 정선종 | 워드프로세서의 형태소 정보를 이용한 문서 정렬장치 및 방법 |
KR20010057781A (ko) * | 1999-12-23 | 2001-07-05 | 오길록 | 다중어 형태소 분석장치 및 그 방법 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102085214B1 (ko) | 2019-10-02 | 2020-03-04 | (주)디앤아이파비스 | 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039901A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039904A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039903A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039900A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR20210039902A (ko) | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템 |
KR20210039899A (ko) | 2020-02-06 | 2021-04-12 | (주)디앤아이파비스 | 특허문서의 단어 세트 획득 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20040101678A (ko) | 2004-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6721697B1 (en) | Method and system for reducing lexical ambiguity | |
KR100481598B1 (ko) | 복합 형태소 분석 장치 및 방법 | |
US6278968B1 (en) | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
JP3429184B2 (ja) | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 | |
US6442524B1 (en) | Analyzing inflectional morphology in a spoken language translation system | |
US6223150B1 (en) | Method and apparatus for parsing in a spoken language translation system | |
US6243669B1 (en) | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
US20080221863A1 (en) | Search-based word segmentation method and device for language without word boundary tag | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
KR100853173B1 (ko) | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 | |
US20050065776A1 (en) | System and method for the recognition of organic chemical names in text documents | |
JP2007323475A (ja) | 自然言語における多義解消装置及びコンピュータプログラム | |
EP3267327A1 (en) | Entailment pair expansion device, computer program therefor, and question-answering system | |
Alhasan et al. | POS tagging for arabic text using bee colony algorithm | |
JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
US20050086214A1 (en) | Computer system and method for multilingual associative searching | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Mohri et al. | Structural zeros versus sampling zeros | |
Govilkar et al. | Part of speech tagger for Marathi language | |
KR100431190B1 (ko) | 주제 적응 품사 태깅 시스템 및 방법 | |
Zayyan et al. | Automatic diacritics restoration for modern standard Arabic text | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
Raza et al. | Saraiki language word prediction and spell correction framework | |
Van Huyssteen et al. | Learning compound boundaries for Afrikaans spelling checking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20030526 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20050315 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20050329 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20050330 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20080307 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20090303 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20100226 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20110228 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20110228 Start annual number: 7 End annual number: 7 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |