[go: up one dir, main page]

KR100433584B1 - 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법 - Google Patents

온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법 Download PDF

Info

Publication number
KR100433584B1
KR100433584B1 KR10-2000-0075438A KR20000075438A KR100433584B1 KR 100433584 B1 KR100433584 B1 KR 100433584B1 KR 20000075438 A KR20000075438 A KR 20000075438A KR 100433584 B1 KR100433584 B1 KR 100433584B1
Authority
KR
South Korea
Prior art keywords
shopping mall
detailed information
ontology
database
product
Prior art date
Application number
KR10-2000-0075438A
Other languages
English (en)
Other versions
KR20020045971A (ko
Inventor
김성훈
장철수
노명찬
김중배
이경호
함호상
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2000-0075438A priority Critical patent/KR100433584B1/ko
Publication of KR20020045971A publication Critical patent/KR20020045971A/ko
Application granted granted Critical
Publication of KR100433584B1 publication Critical patent/KR100433584B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 온토로지(ontology)와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법에 관한 것이다.
본 발명에서는 쇼핑몰 상품 상세 정보 페이지 URL 정보를 기반으로, 문서수집 로봇을 이용하여 가져온 HTML문서를 순수한 비태그 문자열들과 <TR, <P, <BR 태그들만으로 구성된 문서로 변환하는 전처리 단계와; 상기 전처리 단계를 통해 변환된 문서에서 지식 데이터베이스의 온토로지 정보를 기반으로 상품의 분류명과 온토로지 값을 추출하는 온토로지 기반 검색 단계와; 상기 전처리 단계를 통해 변환된 문서에서 상품의 모델명만을 추출하는 단계를 이용하여 상품의 일반적인 단순 정보 뿐만 아니라, 상세한 정보들까지 추출할 수 있다.
이로 인해, 정확하고 빠르게 상품에 관한 상세 정보를 얻음으로써, 인력과 시간을 많이 필요로 하는 작업을 단순화 할 수 있다.

Description

온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법 {Method for product detailed information extraction of internet shopping mall with ontology and wrapper data}
본 발명은 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세정보 추출 방법에 관한 것으로써, 보다 상세하게 설명하면, 지식 데이터베이스의 온토로지 정보와 래퍼(wrapper)의 규칙을 기반으로 HTML 문서상의 상품에 관한 상세 정보를 빠르고 정확하게 추출하는 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법에 관한 것이다.
일반 텍스트로 이루어진 문서에서 사용자가 어떤 정보를 얻고자 하거나 혹은 인터넷 웹 상에서의 사용자 질의를 통해 얻어진 문서에서 필요한 정보를 얻고자 한다면, 대부분 사용자는 해당 문서를 읽고, 자신이 원하는 정보를 얻어내는 방법을 생각한다. 이렇게 웹 상에 존재하는 수많은 문서들을 모두 직접 읽어서 정보를 파악해야 한다면 사용자는 많은 시간을 투자해야 할 것이다. 그러나 해당 문서가 데이터베이스 형태로 구성되어 있거나, 완벽한 데이터베이스의 형태는 아니지만 어느 정도의 규칙을 갖고 구성(semi-structured document)되어 있다면, 사용자가 모든 문서를 읽지 않고 자동으로 필요한 정보를 추출할 수 있다. 이렇게 인터넷 웹 상에서 얻을 수 있는 수많은 문서들이나 혹은 인터넷 웹 상은 아니지만 문자열로 저장된 문서상에서 정보를 얻어내는 기술을 정보 추출(information extraction) 이라고 한다.
이와 같은 정보 추출에서, 정보를 얻고자 하는 문서에 공통적으로 존재하는 규칙이 있을 경우, 이 규칙을 이용하면 손쉽게 정보를 얻을 수 있다. 일반적으로 인터넷 웹 상에 존재하는 문서들은 대부분 HTML 태그를 이용하여 구성된다. 즉, HTML 문서들이 여러 종류의 태그를 이용하여 일정한 형태를 갖고 정보가 표현된다면, 문서에서 그 규칙을 찾아내어 필요한 정보를 손쉽게 추출할 수 있을 것이다. 예를 들어, 어떤 문서에는 <B> 태그와 <B/> 태그 사이에는 언제나 문서의 제목이 들어있다고 하면 그 규칙만으로 자동으로 문서에서 제목을 추출하게 된다. 또한, HTML 태그로 구성되어 있지 않더라도 'Chap.' 이라는 단어 뒤에는 단원 제목이 나온다 라는 등의 규칙을 이용하여 역시 자동으로 문서에서 정보를 추출 할 수 있다. 이러한 방법을 통해 해당 정보를 자동으로 추출하기 위해서는 문서에 존재하는 규칙을 인식할 수 있어야 하는데 이때 이용되는 것을 래퍼(Wrapper)라고 한다. 즉, 래퍼를 이용하면 래퍼의 규칙에 맞는 문서에서는 필요한 정보를 자동으로 추출할 수 있는데, 이러한 래퍼만을 이용하는 정보 추출 방법은 기존의 정보 추출 방법에서 가장 많이 이용하는 방법이다. 그러나 이러한 방법은 래퍼의 형식이 문서의 형태에 따라 결정되고, 문서에 어떤 규칙도 없고, 제공되는 문서가 수시로 변경된다면, 해당 문서에 대한 래퍼의 구성은 불가능할 뿐만 아니라, 해당 문서에서 추출되는 정보를 의미 기반으로 추출하는 것은 불가능하다는 단점이 있다.
정보 추출 방법에서 많이 사용하는 또 다른 방법은 온토로지(ontology)와 같은 사전을 이용하는 방법이다. 이 방법은 정보를 얻고자 하는 문서에서 온토로지와 같은 사전의 모든 데이터를 비교 검색하여 사전에 존재하는 데이터가 있을 경우 이를 추출하는 방법이다. 그러나 이 방법은 정보 추출을 위하여 대용량의 사전이 필요할 뿐만 아니라, 시스템의 검색 수행 시간이 많이 소모된다는 단점이 있다.
또한, 상기의 래퍼 또는 온토로지를 이용하여 인터넷 쇼핑몰의 상품 정보를추출하는 기존의 방법들의 가장 큰 단점은 추출된 정보의 형태가 단순하다는 것이다. 이것은 인터넷 쇼핑몰의 HTML문서들이 서로 다른 형태를 가지고 있어서 래퍼를 이용하기 어렵고, 만약 래퍼를 이용한다 하더라도 단순한 형태의 래퍼만을 이용할 수 있기 때문이다. 또한 온토로지를 이용하는 대부분의 시스템은 쇼핑몰의 대표 URL만을 입력한 후 관련된 모든 HTML문서를 수집하여 이를 분석하는 방법을 사용함으로써 수행 시간이 많이 소모되는 단점을 가지고 있다.
상기한 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 온토로지와 규칙 정보를 이용하여 정의된 상품의 상세한 정보를 빠르고 정확하게 추출함으로써, 인터넷 쇼핑몰의 다양한 상품 정보를 빠르고 손쉽게 추출할 수 있는 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법을 제공하기 위한 것이다.
도 1은 본 발명의 일 실시예에 따른 온토로지와 규칙정보를 이용한 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법의 전체 흐름도,
도 2는 입력된 HTML 문서를 정보 추출을 위한 형태로 변환하는 전처리 과정을 도시한 흐름도,
도 3은 전처리 문서에서 상품의 지식 데이터베이스의 데이터를 기반으로 온토로지 정보를 추출하는 방법을 도시한 흐름도,
도 4는 상품의 상세 정보 중에서 모델명만을 추출하는 방법을 도시한 흐름도이다.
상기한 목적을 달성하기 위한 본 발명은, 지식 데이터베이스와 데이터베이스를 구비한 상세 정보 추출 시스템을 통한, 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법에 있어서, 상기 쇼핑몰 상품의 해당 URL 정보를 이용하여 상기 인터넷 쇼핑몰 상품에 관련된 HTML 페이지를 찾는 제 1 단계와 ; 상기 HTML 페이지를 특정 태그와 순수한 문자열들로 구성된 문서로 전 처리하는 제 2 단계 ; 상기 지식데이터베이스 내의 온토로지 및 동의어를 이용하여 상기 전처리 된 문서로부터 모델명을 제외한 상기 쇼핑몰 상품의 상세 정보를 추출하여 상기 데이터베이스에 저장하는 제 3 단계 : 상기 전처리 된 문서의 규칙 정보를 기반으로 상기 모델명만을 추출하여 상기 데이터베이스에 저장하는 제 4 단계를 포함한다.
양호하게는, 지식 데이터베이스와 데이터베이스를 구비한 상세 정보 추출 시스템을 통한, 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법을 수행하기 위해 컴퓨터로 실행할 수 있는 프로그램을 저장한 기록매체에 있어서, 상기 쇼핑몰 상품의 해당 URL 정보를 이용하여 상기 인터넷 쇼핑몰 상품에 관련된 HTML 페이지를 찾는 제 1 단계와 ; 상기 HTML 페이지를 특정 태그와 순수한 문자열들로 구성된 문서로 전 처리하는 제 2 단계 ; 상기 지식데이터베이스 내의 온토로지 및 동의어를 이용하여 상기 전처리 된 문서로부터 모델명을 제외한 상기 쇼핑몰 상품의 상세 정보를 추출하여 상기 데이터베이스에 저장하는 제 3 단계 ; 상기 전처리 된 문서의 규칙 정보를 기반으로 상기 모델명만을 추출하여 상기 데이터베이스에 저장하는 제 4 단계를 포함하는 것을 특징으로 하는 프로그램을 저장한 컴퓨터로 판독할 수 있는 기록매체가 제공된다.
이하 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법을 보다 자세하게 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 온토로지와 규칙정보를이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법의 전체 흐름도이다.
먼저, 상세 정보 추출 시스템 관리자가 입력한 상세 정보 추출을 원하는 해당 쇼핑몰의 URL(Uniform Resource Locator : 인터넷 주소 혹은 도메인 명, 이하 URL 이라함) 정보를 수신한다(S110). 수신된 해당 쇼핑몰의 URL 정보를 이용하여 상세 정보 추출 시스템 관리자는 문서수집 로봇을 이용하여 해당 쇼핑몰로부터 상품 정보 HTML 문서를 가져온(S120) 후, 가져온 해당 HTML 문서를 온토로지(ontology) 검색과 모델명 검색을 위한 문서로 전 처리한다(S130). 전처리 된 문서는 먼저, 지식 데이터베이스에 입력된 상품의 분류명과 온토로지를 이용하여 상세한 정보들의 검색(S140) 단계를 수행하는 반면, 상품의 상세 정보 중, 특별히 기본이 되는 모델명을 추출하기 위한 모델명 검색 단계를 수행한다(S150).
이 때, 가져온 해당 HTML 문서를 온토로지 검색과 모델명 검색을 위한 문서로 전 처리하는 단계(S130)의 목적은, HTML 문서에서 <TR, <P, <BR을 제외한 모든 태그를 제거하고, 순수하게 HTML 태그와 관계없는 문자열과 상기 태그들만으로 구성된 문서로 구성함으로써, 검색할 데이터의 양을 줄여 정보 추출을 위한 시간을 단축하기 위한 것이다.
또한, 본 발명에서 모델명만을 추출하는 단계를 별도로 명시한 후, 래퍼(WRAPPER)만을 이용하는 것은, 모델명은 상품의 상세한 정보 중 가장 기본이 되는 단위이며 이는, 다른 상세한 정보들처럼 온토로지 값을 이용할 수 없으며, 상품 HTML 페이지 상에 본 발명의 방법과 같은 형태로 규칙이 존재하기 때문이다.
도 2 내지 도 4는 본 발명에 따른 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법의 세부적인 동작 과정을 도시한 흐름도이다. 도시된 도면을 참조하면서 본 발명에 따른 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법에 대해 자세히 알아보기로 한다. 도 2는 입력된 HTML 문서를 정보 추출을 위한 형태로 변환하는 전처리 과정을 도시한 흐름도이다.
우선, 상세 정보 추출 시스템 내의 문서수집 로봇을 통해 찾아낸 HTML 문서를 한 라인씩 분리한(S210) 후, 라인별로 분리된 HTML 문서 내의 각각의 라인에 HTML 태그 문자를 포함하는지를 검색한다(S220). 검색 결과, 각각의 라인에 HTML 태그 문자를 포함하면, HTML 태그 문자가 포함된 해당 태그 라인을 검출하는(S230) 반면, 검색 결과, HTML 태그 문자가 포함되어 있지 않으면, HTML 태그 문자를 포함하지 않는 라인들을 검색한(S270) 후, 검색된 비태그 문자들을 포함하는 라인들을 해당 데이터베이스에 저장한다(S280). 한편, HTML 태그 문자를 포함하는 해당 라인이 검출되면, 해당 라인이 <TR, <P, <BR 의 특정 태그 문자를 포함하는지를 검색한다(S240). 검색 결과, 상기와 같은 특정 태그 문자를 포함하지 않는 라인이면, 해당 라인을 제거(S250)하는 반면, 검색 결과, 상기와 같은 특정 태그 문자를 포함하는 라인이면, 해당 라인을 데이터베이스에 저장한다(S260). 이와 같이, 해당 라인들을 데이터베이스에 저장한 후, 입력되어 변환될 라인이 남아있는지의 여부를 검색한다(S290). 검색 결과, 입력될 라인이 아직도 남아 있으면, 상기와 같은 과정을 반복하며, 그렇지 않을 경우, 전처리 단계를 종료한다.
도 3은 전처리 된 문서에서 상품의 지식 데이터베이스의 데이터를 기반으로 온토로지 정보를 추출하는 방법을 도시한 흐름도이다.
먼저, 상세 정보 추출 시스템은 상품의 지식 데이터베이스로부터 추출 대상 상품과 관련된 분류명들과 해당 분류명의 동의어들을 찾아낸(S301) 후, 전처리 결과로 작성된 해당 HTML 문서를 한 라인씩 읽어들인다(S302). 읽어들인 라인에서 해당 분류명의 동의어와 문자열을 비교하여 목적에 가장 근접한 동의어를 검색한다(S303). 검색 결과, 상세 정보 추출 시스템이 찾는 해당 동의어가 읽어들인 라인에 존재하는지를 검색한다(S304). 검색 결과, 해당 동의어가 존재하면, 지식 데이터베이스로부터 해당 분류명과 관련된 온토로지 값들을 불러온(S305) 후 불러온 온토로지 값들과 해당 문자열의 앞뒤를 비교하여 해당 온토로지를 검색하는(S307) 반면,검색 결과, 해당 동의어가 존재하지 않으면, 검색 상품의 모든 온토로지를 검색한다(S307). 다음, 온토로지 값이 존재하는지를 판단한다(S308). 검색 결과, 해당 온토로지 값이 존재하면, 분류명과 찾은 온토로지 값을 데이터베이스에 저장하는(S309) 반면, 검색 결과, 해당 온토로지 값이 존재하지 않으면, 검색 상품에 관한 모든 온토로지를 검색한다(S307). 이와 같이, 분류명과 찾은 온토로지 값을 데이터베이스에 저장하면, 입력되어 검색될 라인이 아직도 남아있는지를 검색한다(S310). 검색 결과, 입력되어 검색될 라인이 아직도 남아 있으면, 상기 과정을 반복 수행하는 반면, 검색 결과, 입력되어 검색될 라인이 남아 있지 않으면, 온토로지 검색 단계를 종료한다.
도 4는 상품의 상세 정보 중에서 모델명만을 추출하는 방법을 도시한 흐름도이다. 도 2에 도시된 흐름도를 거쳐 전처리 된 문서를 라인별로 읽어들인(S410) 후, 읽어들인 해당 라인에 "(" 문자가 존재하는지를 검색한다(S420). 검색 결과, 읽어들인 해당 라인에 "(" 문자가 존재가 존재하면, "(" 문자와 ")" 사이의 문자열을 추출(S430)한 후, 추출된 문자열에서 "-" 문자가 존재하는지를 검색하는(S440) 반면, 읽어들인 해당 라인에 "(" 문자가 존재하지 않으면, 바로 읽어들인 해당 라인에 "-" 문자가 존재하는지를 검색한다(S440). 검색 결과, "-" 문자가 존재하면, "-" 문자를 기준으로 상기 단계(S430)에서 추출된 문자열을 분리한(S450) 후, 분리된 문자가 영문과 숫자의 조합으로 구성되어 있는지를 분석한다(S460). 분석 결과, 분리된 문자가 영문과 숫자의 조합으로 구성되어 있으면, 분리된 문자를 해당 모델명으로서, 데이터베이스에 저장한(S470) 후, 아직도 처리할 문자열들이 남아있는지의 여부를 판단한다(S480). 판단 결과, 처리할 문자열이 남아있으며, 상기 과정들을 다시 반복하는 반면, 판단 결과, 처리할 문자열이 남아있지 않으면, 검색 상품의 모델명 검색 단계를 종료한다. 한편, 읽어들인 라인에 "-" 문자가 존재하지 않거나, 혹은, 분리된 문자가 영문과 숫자의 조합으로 구성되어 있지 않으면, 아직도 처리할 문자열들이 남아있는지의 여부를 검색한다(S480).
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, 의미가 확장된 온토로지 기반 데이터와 동의어를 이용함으로써, 검색 상품의 상세한 정보를 정확하게 추출할 수 있을 뿐만 아니라, 대상 URL 정보를 기반으로 대상 HTML 문서를 찾는 시간을 단축하고, 불필요한 태그 정보를 전처리 과정으로 삭제함으로써, 처리할 데이터의 양을 줄여 상세한 정보 추출을 위한 시간을 단축할 수 있는 효과가 있다.

Claims (6)

  1. 지식데이터베이스(a)와 데이터베이스(b)를 구비한 상세 정보 추출 시스템을 이용하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법에 있어서,
    상기 쇼핑몰 상품의 해당 URL(Uniform Resource Locator) 정보를 이용하여 상기 인터넷 쇼핑몰 상품에 관련된 HTML(HyperText Markup Language) 페이지를 검색하는 제 1 단계;
    상기 검색된 HTML 페이지를 특정 태그 및 순수한 문자열들로 구성된 문서로 전처리하는 제 2 단계;
    상기 지식데이터베이스(a)에 저장된 분류명들 및 동의어들로부터, 상기 전처리된 문서의 입력 라인에서 해당 분류명의 동의어와 문자열을 비교하여 이에 근접한 동의어를 검색하는 제 3 단계;
    상기 제 3 단계에서 검색된 동의어가 읽어들인 라인에 존재하면, 상기 지식데이터베이스(a)에 저장된 온토로지(Ontology) 값들과 해당 문자열을 비교하여 해당 온토로지 값이 존재하는지를 판단하는 제 4 단계;
    상기 제 4 단계에서의 판단 결과, 해당 온토로지 값이 존재하면, 상기 분류명과 온토로지 값을 상기 데이터베이스(b)에 저장 및 갱신하는 제 5 단계; 및
    상기 저장 및 갱신된 데이터베이스(b)를 이용하여 인터넷 쇼핑몰 상품 상세 정보를 추출하는 제 6 단계;
    를 포함하는 것을 특징으로 하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계는,
    상기 HTML 페이지를 라인별로 분리한 후, 분리된 라인별로 특정 태그를 제외한 HTML 태그를 제거하는 서브 단계; 및
    상기 특정 태그만이 포함된 라인과, 상기 HTML 태그가 포함되지 않은 라인을 상기 데이터베이스(b에 저장 및 갱신하는 서브 단계;
    를 포함하는 것을 특징으로 하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 제 2 단계에서 전처리된 문서를 읽어들여서 각 라인별로 "(" 문자와 ")" 문자를 검색하는 제 2-1 단계;
    상기 검색된 "(" 문자와 ")" 문자 사이의 문자열을 추출한 후, 추출된 문자열에서 "-" 문자를 검색하는 제 2-2 단계; 및
    상기 검색된 "-" 문자를 기준으로 상기 문자열들을 분리한 후, 분리된 문자열들이 영문과 숫자의 조합으로 구성되어 있으면, 이 문자열을 모델명으로 인식한 후, 상기 데이터베이스(b)에 저장 및 갱신하는 제 2-3 단계;
    를 포함하는 것을 특징으로 하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법.
  5. 제 1 항에 있어서,
    상기 특정 태그는 <TR, <P, <BR 태그를 포함하는 것을 특징으로 하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법.
  6. 지식데이터베이스(a)와 데이터베이스(b)를 구비한 상세 정보 추출 시스템을 이용하는 인터넷 쇼핑몰 상품에 관한 상세 정보 추출 방법을 컴퓨터로 실행할 수 있는 프로그램을 기록한 기록 매체에 있어서,
    상기 쇼핑몰 상품의 해당 URL(Uniform Resource Locator) 정보를 이용하여 상기 인터넷 쇼핑몰 상품에 관련된 HTML(HyperText Markup Language) 페이지를 검색하는 제 1 단계;
    상기 검색된 HTML 페이지를 특정 태그 및 순수한 문자열들로 구성된 문서로 전처리하는 제 2 단계;
    상기 지식데이터베이스(a)에 저장된 분류명들 및 동의어들로부터, 상기 전처리된 문서의 입력 라인에서 해당 분류명의 동의어와 문자열을 비교하여 이에 근접한 동의어를 검색하는 제 3 단계;
    상기 제 3 단계에서 검색된 동의어가 읽어들인 라인에 존재하면, 상기 지식데이터베이스(a)에 저장된 온토로지(Ontology) 값들과 해당 문자열을 비교하여 해당 온토로지 값이 존재하는지를 판단하는 제 4 단계;
    상기 제 4 단계에서의 판단 결과, 해당 온토로지 값이 존재하면, 상기 분류명과 온토로지 값을 상기 데이터베이스(b)에 저장 및 갱신하는 제 5 단계; 및
    상기 저장 및 갱신된 데이터베이스(b)를 이용하여 인터넷 쇼핑몰 상품 상세 정보를 추출하는 제 6 단계;
    를 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록매체.
KR10-2000-0075438A 2000-12-12 2000-12-12 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법 KR100433584B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0075438A KR100433584B1 (ko) 2000-12-12 2000-12-12 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0075438A KR100433584B1 (ko) 2000-12-12 2000-12-12 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법

Publications (2)

Publication Number Publication Date
KR20020045971A KR20020045971A (ko) 2002-06-20
KR100433584B1 true KR100433584B1 (ko) 2004-06-04

Family

ID=27681068

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0075438A KR100433584B1 (ko) 2000-12-12 2000-12-12 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법

Country Status (1)

Country Link
KR (1) KR100433584B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155817A1 (ko) * 2017-02-24 2018-08-30 (주)위세아이텍 이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020064249A (ko) * 2002-07-04 2002-08-07 이은석 컨텐츠 자동확장기능을 이용한 전자상거래시스템 및 이의운용방법
KR100709984B1 (ko) * 2005-05-20 2007-04-23 엔에이치엔(주) 질의어를 다양한 로직에 따라 처리하여 매칭되는 결과를출력하는 질의어 매칭 방법 및 시스템
WO2006123918A1 (en) * 2005-05-20 2006-11-23 Nhn Corporation Query matching system and method, and computer readable recording medium recording program for implementing the method
KR100623628B1 (ko) * 2005-05-20 2006-09-19 엔에이치엔(주) 질의어 매칭 시스템, 방법 및 상기 방법을 실행하기 위한프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체
KR100729103B1 (ko) * 2006-05-29 2007-06-14 주식회사 케이티 비구조 웹문서로부터 온톨로지 인스턴스를 자동으로추출하기 위한 시스템 및 그 방법
KR100800460B1 (ko) * 2006-07-18 2008-02-04 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (ja) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk 情報検索装置及びその方法
KR19990031784A (ko) * 1997-10-14 1999-05-06 정선종 전자상거래 상품정보 검색용 자연언어 질의어 처리방법
KR20000049333A (ko) * 1999-10-28 2000-08-05 한상천 지능형 인터넷 쇼핑몰 상품비교검색엔진

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (ja) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk 情報検索装置及びその方法
KR19990031784A (ko) * 1997-10-14 1999-05-06 정선종 전자상거래 상품정보 검색용 자연언어 질의어 처리방법
KR20000049333A (ko) * 1999-10-28 2000-08-05 한상천 지능형 인터넷 쇼핑몰 상품비교검색엔진

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155817A1 (ko) * 2017-02-24 2018-08-30 (주)위세아이텍 이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법
KR20180097895A (ko) * 2017-02-24 2018-09-03 (주)위세아이텍 이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법
KR101965598B1 (ko) 2017-02-24 2019-08-13 (주)위세아이텍 이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법

Also Published As

Publication number Publication date
KR20020045971A (ko) 2002-06-20

Similar Documents

Publication Publication Date Title
US10764353B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN103177075B (zh) 基于知识的实体检测和消歧
US8140579B2 (en) Method and system for subject relevant web page filtering based on navigation paths information
US7953592B2 (en) Semantic analysis apparatus, semantic analysis method and semantic analysis program
JP6543283B2 (ja) パッセージ型質問応答装置、方法、及びプログラム
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
Sivakumar Effectual web content mining using noise removal from web pages
CN107577788A (zh) 一种自动结构化数据的电商网站主题爬虫方法
US20160034484A1 (en) Document tagging and retrieval using entity specifiers
CN118468881A (zh) 一种自动提取关键词的语义检索方法及系统
TWI682286B (zh) 利用文字解析結果與自然語言輸入的文件搜尋系統
CN109165373B (zh) 一种数据处理方法及装置
CN118095265A (zh) 一种直播数据的llm智能分析方法、装置、设备和介质
CN108153728B (zh) 一种关键词确定方法及装置
KR100433584B1 (ko) 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법
WO2012091541A1 (en) A semantic web constructor system and a method thereof
JP5179564B2 (ja) クエリセグメント位置決定装置
CN112989163A (zh) 一种垂直搜索方法和系统
WO2010119794A1 (en) Information processing apparatus and information processing method
US20080033953A1 (en) Method to search transactional web pages
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR20000063488A (ko) 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20001212

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20030630

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20040221

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20040519

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20040520

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20070502

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20080428

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20090504

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20100430

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20110511

Start annual number: 8

End annual number: 8

PR1001 Payment of annual fee

Payment date: 20120509

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20130424

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20130424

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20140430

Start annual number: 11

End annual number: 11

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20160409