KR20020054254A - 사전구조를 이용한 한국어 형태소 분석방법 - Google Patents
사전구조를 이용한 한국어 형태소 분석방법 Download PDFInfo
- Publication number
- KR20020054254A KR20020054254A KR1020000083385A KR20000083385A KR20020054254A KR 20020054254 A KR20020054254 A KR 20020054254A KR 1020000083385 A KR1020000083385 A KR 1020000083385A KR 20000083385 A KR20000083385 A KR 20000083385A KR 20020054254 A KR20020054254 A KR 20020054254A
- Authority
- KR
- South Korea
- Prior art keywords
- dictionary
- word
- noun
- checking
- function
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000006835 compression Effects 0.000 claims abstract description 9
- 238000007906 compression Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 28
- 230000000877 morphologic effect Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 description 14
- 238000013519 translation Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000007799 cork Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (8)
- 형태소 분석 장치에 적용되는 사전구조(AVL+Trie)를 이용한 한국어 형태소 분석 방법에 있어서,어절 단위로 단어를 추출하는 제 1 단계;상기 추출된 단어를 압축 불용어 사전을 참조하여 검색하는 제 2 단계;상기 추출된 단어를 명사사전을 참조하여 검색하는 제 3 단계;상기 명사사전 참조 검색 후 남은 음절을 체크하여 부적합 오류가 발생하였는지를 확인하는 제 4 단계;상기 제 4 단계의 확인 결과, 부적합 오류가 발생하면 미등록어로 처리하는 제 5 단계; 및상기 제 4 단계의 확인 결과, 부적합 오류가 발생하지 않으면 명사를 추출하여 데이터베이스에 저장하는 제 6 단계를 포함하는 형태소 분석 방법.
- 제 1 항에 있어서,사전에 없는 불용어를 임시 저장하는 제 7 단계;불용어 사전을 참조하여 상기 불용어 사전에 등록되어 있는 불용어인지를 확인하는 제 8 단계;상기 제 8 단계의 확인 결과, 불용어 사전에 등록되어 있으면 발생 빈도가 높은 불용어를 상기 압축 불용어 사전에 저장하는 제 9 단계; 및상기 제 8 단계의 확인 결과, 불용어 사전에 없으면 신조어로 간주하여 관리자 모듈로 이동하는 제 10 단계를 더 포함하는 형태소 분석 방법.
- 제 1 항 또는 제 2 항에 있어서,상기 제 2 단계는,상기 압축 불용어 사전을 참조하여 상기 추출된 단어와 완전일치하는지를 확인하는 제 11 단계;상기 제 11 단계의 확인 결과, 완전일치하면 다음 단어를 추출하는 과정으로 진행하는 제 12 단계; 및상기 제 11 단계의 확인 결과, 일치하지 않으면 상기 제 3 단계로 진행하는 제 12 단계를 포함하는 형태소 분석 방법.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,상기 3 단계는,명사사전을 참조하여 상기 추출된 단어가 최장일치하는지 확인하는 제 13 단계;상기 제 13 단계의 확인 결과, 최장일치하면 상기 제 4 단계로 진행하는 제 14 단계; 및상기 제 13 단계의 확인 결과, 최장일치하지 않으면 미등록어로 처리하는 제 15 단계를 포함하는 형태소 분석 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 명사사전을 참조하는 과정은,전문분야 명사사전에서는 최장일치방법으로, 일반분야 명사사전에서는 최단일치방법으로 확인하는 것을 특징으로 하는 형태소 분석 방법.
- 제 2 항에 있어서,상기 불용어를 압축 불용어 사전에 저장하는 과정은,하기의 [수학식 1]과 같이 결정된 임계(Threshold)값에 따라 출현빈도가 높은 불용어를 선택하여 상기 압축 불용어 사전에 저장하는 것을 특징으로 하는 형태소 분석 방법.[수학식 1]여기서, "n"은 명사, "N"은 명사사전, "d"는 불용어, "D"는 불용어 사전, "k"와 "q"는 각 단어의 출현빈도수, 그리고 "max"는 최고 빈도값을 각각 나타낸다.
- 대용량 프로세서를 구비한 형태소 분석 시스템에,어절 단위로 단어를 추출하는 제 1 기능;상기 추출된 단어를 압축 불용어 사전을 참조하여 검색하는 제 2 기능;상기 추출된 단어를 명사사전을 참조하여 검색하는 제 3 기능;상기 명사사전 참조 검색 후 남은 음절을 체크하여 부적합 오류가 발생하였는지를 확인하는 제 4 기능;상기 제 4 기능의 확인 결과, 부적합 오류가 발생하면 미등록어로 처리하는 제 5 기능; 및상기 제 4 기능의 확인 결과, 부적합 오류가 발생하지 않으면 명사를 추출하여 데이터베이스에 저장하는 제 6 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 제 6 항에 있어서,사전에 없는 불용어를 임시 저장하는 제 7 기능;불용어 사전을 참조하여 상기 불용어 사전에 등록되어 있는 불용어인지를 확인하는 제 8 기능;상기 제 8 기능의 확인 결과, 불용어 사전에 등록되어 있으면 발생 빈도가 높은 불용어를 상기 압축 불용어 사전에 저장하는 제 9 기능; 및상기 제 8 기능의 확인 결과, 불용어 사전에 없으면 신조어로 간주하여 관리자 모듈로 이동하는 제 10 기능을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000083385A KR20020054254A (ko) | 2000-12-27 | 2000-12-27 | 사전구조를 이용한 한국어 형태소 분석방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000083385A KR20020054254A (ko) | 2000-12-27 | 2000-12-27 | 사전구조를 이용한 한국어 형태소 분석방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20020054254A true KR20020054254A (ko) | 2002-07-06 |
Family
ID=27687072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000083385A KR20020054254A (ko) | 2000-12-27 | 2000-12-27 | 사전구조를 이용한 한국어 형태소 분석방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20020054254A (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100831037B1 (ko) * | 2006-09-29 | 2008-05-20 | 한국전자통신연구원 | 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치 |
KR101283726B1 (ko) * | 2007-05-03 | 2013-07-08 | 엔에이치엔(주) | 동영상 관련 정보 제공방법 및 제공 시스템 |
CN103942190A (zh) * | 2014-04-16 | 2014-07-23 | 安徽科大讯飞信息科技股份有限公司 | 文本分词方法及系统 |
KR20180104899A (ko) * | 2017-03-14 | 2018-09-27 | 한국전자통신연구원 | 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
KR102570594B1 (ko) * | 2022-07-29 | 2023-08-25 | 솔닥 주식회사 | 인공지능 기반의 비대면 진료 영상 처리 장치, 방법 및 프로그램 |
WO2024117315A1 (ko) * | 2022-11-30 | 2024-06-06 | 주식회사 미리내테크놀로지스 | 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 이용한 지식엔진구축방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6020234A (ja) * | 1983-07-15 | 1985-02-01 | Fujitsu Ltd | 日本語形態素解析方式 |
KR960018972A (ko) * | 1994-11-29 | 1996-06-17 | 조백제 | 어절구조 특성을 이용한 형태소 분석 시스팀 및 분석방법 |
JPH11338863A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 |
KR20000021962A (ko) * | 1998-09-30 | 2000-04-25 | 정선종 | 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법 |
KR20000033993A (ko) * | 1998-11-26 | 2000-06-15 | 정선종 | 워드프로세서의 형태소 정보를 이용한 문서 정렬장치 및 방법 |
KR20000039406A (ko) * | 1998-12-12 | 2000-07-05 | 이계철 | 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법 |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
-
2000
- 2000-12-27 KR KR1020000083385A patent/KR20020054254A/ko not_active Application Discontinuation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6020234A (ja) * | 1983-07-15 | 1985-02-01 | Fujitsu Ltd | 日本語形態素解析方式 |
KR960018972A (ko) * | 1994-11-29 | 1996-06-17 | 조백제 | 어절구조 특성을 이용한 형태소 분석 시스팀 및 분석방법 |
JPH11338863A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 |
KR20000021962A (ko) * | 1998-09-30 | 2000-04-25 | 정선종 | 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법 |
KR20000033993A (ko) * | 1998-11-26 | 2000-06-15 | 정선종 | 워드프로세서의 형태소 정보를 이용한 문서 정렬장치 및 방법 |
KR20000039406A (ko) * | 1998-12-12 | 2000-07-05 | 이계철 | 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법 |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100831037B1 (ko) * | 2006-09-29 | 2008-05-20 | 한국전자통신연구원 | 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치 |
KR101283726B1 (ko) * | 2007-05-03 | 2013-07-08 | 엔에이치엔(주) | 동영상 관련 정보 제공방법 및 제공 시스템 |
CN103942190A (zh) * | 2014-04-16 | 2014-07-23 | 安徽科大讯飞信息科技股份有限公司 | 文本分词方法及系统 |
CN103942190B (zh) * | 2014-04-16 | 2017-08-25 | 科大讯飞股份有限公司 | 语音合成中文本分词方法及系统 |
KR20180104899A (ko) * | 2017-03-14 | 2018-09-27 | 한국전자통신연구원 | 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 |
US10691892B2 (en) | 2017-03-14 | 2020-06-23 | Electronics And Telecommunications Research Institute | Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
KR102570594B1 (ko) * | 2022-07-29 | 2023-08-25 | 솔닥 주식회사 | 인공지능 기반의 비대면 진료 영상 처리 장치, 방법 및 프로그램 |
WO2024117315A1 (ko) * | 2022-11-30 | 2024-06-06 | 주식회사 미리내테크놀로지스 | 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 이용한 지식엔진구축방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7516125B2 (en) | Processor for fast contextual searching | |
CA2426104C (en) | An information retrieval system | |
US7389224B1 (en) | Natural language search method and apparatus, including linguistically-matching context data | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
US8135717B2 (en) | Processor for fast contextual matching | |
US5752051A (en) | Language-independent method of generating index terms | |
US5940624A (en) | Text management system | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
US20040117352A1 (en) | System for answering natural language questions | |
US7676358B2 (en) | System and method for the recognition of organic chemical names in text documents | |
WO2002080036A1 (en) | Method of finding answers to questions | |
JP2011118689A (ja) | 検索方法及びシステム | |
Chen et al. | Named entity extraction for information retrieval | |
US20070112839A1 (en) | Method and system for expansion of structured keyword vocabulary | |
JP3594701B2 (ja) | キーセンテンス抽出装置 | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
Chien et al. | Internet Chinese information retrieval using unconstrained mandarin speech queries based on a client-server architecture and a PAT-tree-based language model | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
Grishman | Information extraction and speech recognition | |
EP0592402B1 (en) | A text management system | |
Boucham et al. | A language independent approach to multilingual document representation including Arabic | |
JP2897191B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
KR20010004090A (ko) | 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20001227 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20030730 Patent event code: PE09021S01D |
|
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20030802 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20031114 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20030730 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |