[go: up one dir, main page]

KR20010082966A - 관련 웹 사이트 제공 방법 및 시스템 - Google Patents

관련 웹 사이트 제공 방법 및 시스템 Download PDF

Info

Publication number
KR20010082966A
KR20010082966A KR1020000008551A KR20000008551A KR20010082966A KR 20010082966 A KR20010082966 A KR 20010082966A KR 1020000008551 A KR1020000008551 A KR 1020000008551A KR 20000008551 A KR20000008551 A KR 20000008551A KR 20010082966 A KR20010082966 A KR 20010082966A
Authority
KR
South Korea
Prior art keywords
url
urls
extracting
domain
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020000008551A
Other languages
English (en)
Other versions
KR100371805B1 (ko
Inventor
백윤주
백인혁
Original Assignee
백윤주
주식회사 원큐
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 백윤주, 주식회사 원큐 filed Critical 백윤주
Priority to KR10-2000-0008551A priority Critical patent/KR100371805B1/ko
Publication of KR20010082966A publication Critical patent/KR20010082966A/ko
Application granted granted Critical
Publication of KR100371805B1 publication Critical patent/KR100371805B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 관련 웹 사이트 제공 방법 및 이를 수행하기 위한 시스템이다.
본 발명에 따르면, 북 마크 DB는 복수의 웹 사이트의 URL를 저장하고, URL 표준화부는 북마크 DB에 저장된 URL을 정규화하여 표준 URL DB를 구축하며, 관련 URL 추출부는 표준 URL DB로부터 각 웹 사이트간의 관련성을 추출하여 관련 URL DB를 구축한다. 또한 URL 표제어 구축부는 서버 에이전트를 통해 각 URL을 방문하여 관련 URL 표제어를 구하여 관련 URL 표제어DB를 구축하며, 서비스 제공부는 관련 URL DB와 URL 표제어 DB에 저장된 정보를 근거로 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 사이트를 사용자에게 제공한다.
그 결과, 축적된 인터넷 북마크 DB 정보를 이용하면 인터넷 사이트들에 대한 관련성 순위를 작성하여 사용자들에게 방문하고 있는 인터넷 사이트와 관련성이 높은 사이트들을 실시간으로 추천할 수 있다.

Description

관련 웹 사이트 제공 방법 및 시스템{Method and system for providing related web sites for the current visitting of client}
본 발명은 관련 웹 사이트 제공 방법 및 이를 수행하기 위한 시스템에 관한 것으로, 보다 상세하게는 인터넷 북 마크 DB를 이용하여 관련 웹 사이트를 추출하여 사용자측에 제공하는 방법 및 이를 수행하기 위한 시스템에 관한 것이다.
1980년 초까지만 해도 주로 연구소용으로 소규모의 전문가 그룹에 의해 활용되던 인터넷은 WWW(World Wide Web)의 출현에 힘입어 그 용도가 일반 상업용으로 확대되어 폭발적인 사용 증가를 보이고 있다. 1999년 11월말 기준으로 미국의 인터넷 사용자는 1억 1천만 여명으로 전세계 인터넷 인구 2억 5900만 여명 가운데 43%를 차지하고 있고, 한국의 인터넷 사용자는 568만 8천명으로 세계 10위를 차지하고 있다(출처 : 얼머넥(Almanac)사, 미국). 국내 인구수를 고려해볼 때 2002년에는 국민의 절반 이상이 인터넷을 사용하게 될 것으로 예상된다.
인터넷에 억세스하길 원하는 개개의 PC 사용자는 통상적으로 웹 브라우저로알려진 어플리케이션(Application) 소프트웨어를 이용하여 억세스한다. 웹 브라우저는 인터넷을 통해 웹 서버로 알려진 다른 컴퓨터로의 접속을 형성하고, 이용자의 PC상에 디스플레이되는 정보를 웹 서버로부터 수신한다. 웹 서버로부터 웹 브라우저로 전송되는 정보는 일반적인 하이퍼 텍스트 마크 업 언어(Hyper Text Markup Language : HTML)로 불리는 특수 언어를 이용하여 포맷되며, 통상적으로 웹 페이지로 알려진 페이퍼로 편성된다.
한편 인터넷 사용자의 관심은 뉴스 및 미디어, 엔터테인먼트, 금융, 쇼핑, 과학 기술, 문화 등 전 분야에 걸쳐 제공되고 있는 수많은 인터넷 사이트 중에서 자신에게 맞는 사이트를 빨리 찾아내어 해당 서비스를 이용하는 것이다. 이러한 사용자의 욕구를 충족시키기 위한 대표적인 방법으로 야후(Yahoo)나 라이코스(Lycos)같은 인터넷 검색 업체의 서비스를 이용하는 방법이 있다.
이들 검색 업체는 수동 또는 자동화된 검색 로봇을 이용하여 인터넷 사이트의 자료를 찾아 분류하여 DB화하고, 사용자가 검색하고자하는 단어를 입력하면 구축된 DB를 검색하여 입력된 단어와 매칭되는 사이트 정보를 제공하거나 사용자에게 검색 업체가 구축한 분류 트리를 제시하여 사용자 자신이 분류 트리를 따라 내려가며 자신이 원하는 사이트를 찾아내는 검색 방식을 제공하고 있다.
직접적인 인터넷 검색 업체 이외에 최근 등장하여 활발히 이용되고 있는 허브 사이트 방식을 이용하여 원하는 인터넷 사이트에의 접근도 가능하다. 이러한 허브 사이트는 관련있는 웹 사이트들을 한 웹 사이트에서 안내하는 사이트이다.
사용자는 검색 서비스를 이용하거나, 다른 경로를 통해 찾아낸 자신이 즐겨방문하는 인터넷 사이트를 자신의 로컬 디스크 내에 북마크 형태로 저장하여 나중에 손쉽게 해당 사이트를 방문할 수 있다.
이에 본 발명의 기술과 과제는 이러한 점에 착안한 것으로, 본 발명의 목적은 사용자가 인터넷을 항해하는 도중에 사용자가 현재 방문하고 있는 웹 사이트와 관련성이 높은 웹 사이트들을 추출하여 사용자에게 실시간으로 관련 리스트를 제공하기 위한 관련 웹 사이트 제공 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기한 관련 웹 사이트 제공 방법을 수행하기 위한 시스템을 제공하는 것이다.
도 1은 본 발명의 실시예에 따른 관련 웹 사이트 추출 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 관련 웹 사이트 제공 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시예에 따른 URL 표준화 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따라 관련 URL을 추출하는 과정을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따라 URL 표제어를 추출하는 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따라 동일 URL을 판별하는 과정을 설명하기 위한 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
100 : 북 마크 DB 200 : URL 표준화부
210 : 판별 대상 DB 220 : 동일 URL 판별부
230 : 중복 도메인 DB 240 : URL 표준화부
250 : 표준 URL DB 300 : 관련 URL 추출부
310 : URL 관련 추출부 320 : 관련 URL DB
400 : URL 표제어 구축부 410 : URL 표제어 추출부
420 : URL 표제어 DB 500 : 서비스 제공부
510 : 웹 서버
상기한 본 발명의 목적을 실현하기 위한 하나의 특징에 따른 관련 웹 사이트 제공 방법은,
(a) 인터넷 북마크 DB로부터 각 웹 사이트의 URL을 정규화하여 하나 이상의 표준 URL을 생성하는 단계;
(b) 상기 표준 URL로부터 각 웹 사이트간의 관련성을 추출하여 하나 이상의 관련 URL을 생성하는 단계;
(c) 서버 에이전트를 통하여 각 URL을 방문하여 하나 이상의 관련 URL 표제어를 생성하는 단계; 및
(d) 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 사이트들을 상기 단계(b)에서 생성한 하나 이상의 관련 URL과 상기 단계(c)에서 생성한하나 이상의 관련 URL 표제어로부터 검색하여 상기 사용자에게 실시간으로 제공하는 단계를 포함한다.
또한 상기한 본 발명의 다른 목적을 실현하기 위한 하나의 특징에 따른 관련 웹 사이트 추출 시스템은,
하나 이상의 웹 사이트의 URL를 저장하는 인터넷 북 마크 DB;
상기 인터넷 북마크 DB에 저장된 URL을 정규화하여 표준 URL DB를 구축하는 URL 표준화부;
상기 표준 URL DB로부터 각 웹 사이트간의 관련성을 추출하여 관련 URL DB를 구축하는 관련 URL 추출부;
서버 에이전트를 통하여 각 URL을 방문하여 관련 URL의 표제어를 추출하며, 관련 URL 표제어 DB를 구축하는 URL 표제어 구축부; 및
상기 관련 URL DB와 상기 URL 표제어 DB에 저장된 정보를 근거로 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 하나 이상의 사이트를 상기 사용자에게 제공하는 서비스 제공부를 포함한다.
이러한 관련 웹 사이트 제공 방법 및 이를 수행하기 위한 시스템에 의하면, 사용자가 현재 방문중인 인터넷상의 웹 사이트와 관련성이 높은 웹 사이트들을 추출하여 해당 사용자에게 실시간으로 관련 리스트를 제공할 수 있다.
그러면, 통상의 지식을 지닌 자가 본 발명을 용이하게 실시할 수 있도록 실시예에 관해 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 관련 웹 사이트 추출 시스템을 설명하기 위한 도면이다.
도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 관련 웹 사이트 추출 시스템은 북 마크 DB(100), URL 표준화부(200), 관련 URL 추출부(300), URL 표제어 구축부(400), 서비스 제공부(500)를 포함한다.
북 마크 DB(100)는 인터넷 사용자들의 북마크 정보로써, 가입자들은 자신의 북마크를 인터넷상에서 온라인으로 억세스하기 위해 자신의 북마크, 바람직하게는 유.알.엘(Uniform Resource Locator; 이하 URL이라 칭함.) 주소를 저장한다.
이때 URL은 웹 서버가 인터넷상에 존재하는 어떤 특정 정보나 파일, 자원을 검색하고 해석하는데 필요한 네트워크 서비스와의 인터넷상의 어떠한 파일이나 서비스도 표현 및 데이터를 직접 받아올 수 있다.
예를 들어, 'http://www.trumpet.com.ar/'라고 표현되었을 때 'http'는 프로토콜을 의미하고, 'www.trumpet.com.ar'은 접속하려고 하는 곳을 의미한다. URL에서 ':'까지는 접근하기 위한 방법을 나타내고, 콜론(:) 이후에 데이터의 위치나 서비스를 제공하는 서버의 주소를 나타낸다. 그리고, 나머지 부분은 접속될 포트 번호에 접근할 파일명을 나타낸다.
URL 표준화부(200)는 판별 대상 DB(210), 동일 URL 판별부(220), 중복 도메인 DB(230), URL 표준화부(240), 표준 URL DB(250)를 포함하여, 인터넷 북마크 DB(100)에 저장된 URL들을 정규화하여 이를 표준 URL DB(250)에 저장한다.
보다 상세히는, 동일 URL 판별부(220)는 북마크 DB(100)내의 각 URL에 들어있는 도메인 네임에서 동일 대상인지 판별해야 할 필요가 있는 도메인 네임을 추출하고, 이를 판별대상 DB(210)에 저장한 후 판별 대상 DB(210)로부터 판별 대상 도메인을 읽어내어 동일한 사이트를 나타내는 지를 인터넷을 통해 검색하여 중복 도메인 DB(230)에 저장된 정보를 업 데이트한다.
URL 표준화부(240)는 북마크 DB(100)와 중복 도메인 DB(230)를 참조하여 여러 형태로 표현되고 있는 URL을 표준 포맷으로 전환하고, 표준 URL DB(250)는 URL 표준화부(240)에 의해 표준 포맷으로 전환된 URL 및 URL의 폴더 고유 번호를 저장한다.
관련 URL 추출부(300)는 URL 관련 추출부(310), 관련 URL DB(320)를 포함하며, 표준 URL DB(250)에 저장된 표준 URL들로부터 URL 및 폴더 정보를 읽어 각 URL에 대해 관련성이 높은 URL들을 찾아 관련성이 높은 상위 N개에 대해 <URL, 관련 정보> 정보를 관련 URL DB(320)에 저장한다.
URL 표제어 구축부(400)는 URL 표제어 추출부(410), URL 표제어 DB(420)를 포함하여, 서버 에이전트를 통하여 인터넷 상의 각 URL들을 방문하여 URL 표제어를 추출하여 URL 표제어 DB(420)에 저장한다.
보다 상세히는, URL 표제어 추출부(410)는 관련 URL DB(320)내의 URL들에 대해 URL 표제가 작성되어 있지 않거나, 또는 URL 표제 작성 시점이 일정 기간이 경과되어 다시 확인해야 하는 경우 인터넷상에서 해당 URL을 읽어 표제를 URL 표제어 DB(420)에 저장한다.
서비스 제공부(500)는 관련 URL DB(320)와 URL 표제어 DB(420)가 구축되면 웹 서버(510)를 통해 상기 관련 URL정보와 URL 표제어 정보를 근거로 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 하나 이상의 사이트를 사용자에게 제공한다. 물론 사용자가 방문하고 있는 웹 사이트와 관련성이 있는 사이트가 검색되지 않는 경우에는 서비스를 제공하지 않을 수도 있다.
사용자의 PC에서 작동하고 있는 클라이언트부(600)는 사용자가 현재 방문하고 있는 인터넷 웹 사이트 URL 정보를 웹 서버(510)에 문의하고, 웹 서버(510)는 해당 URL에 해당하는 관련 URL 및 관련 정도, 관련 URL DB(320) 및 URL 표제어 DB(420)를 조회하여 검색된 관련 URL, 표제어, 관련정도 데이터 등을 클라이언트부(600)에 전송하여 클라이언트부(600)가 실시간으로 해당 정보를 사용자에게 표시할 수 있게 한다.
이상에서 설명한 전체 동작 과정에서 구성 모듈들에 의해 자동적으로 정보가 수정되는 부분중 판별 대상 DB(210), 중복 도메인 DB(230), URL 표제어 DB(420)는 자동화에 의한 정보가 불충분할 수 있을 가능성이 있으므로 관리자에 의해 수동으로 해당 DB를 수정할 수 있게 한다.
도 2는 본 발명의 실시예에 따른 관련 웹 사이트 제공 방법을 설명하기 위한 흐름도이다.
도 1과 도 2를 참조하면, 먼저 인터넷 북마크 DB(100)로부터 각 웹 사이트의 URL을 정규화하여 하나 이상의 표준 URL을 생성하여 표준 URL DB(250)에 저장한다(단계 S100).
이어 표준 URL DB(250)에 저장된 표준 URL 정보로부터 각 웹 사이트간의 관련성을 추출하여 하나 이상의 관련 URL을 생성하여 연관 URL DB(320)에 저장한다(단계 S200).
이어 서버 에이전트를 통하여 각 URL을 방문하여 하나 이상의 관련 URL 표제어를 생성하여 URL 표제어 DB(420)에 저장한다(단계 S300).
이어 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 가장 높은 사이트들을 단계 S200에서 생성한 하나 이상의 관련 URL과 단계 S300에서 생성한 하나 이상의 관련 URL 표제어로부터 검색하여 상기 사용자에게 실시간으로 제공한다(단계 S400).
도 3은 본 발명의 실시예에 따른 URL 표준화 과정을 설명하기 위한 흐름도이다.
도 3에 도시한 바와 같이, URL 표준화 과정은 먼저 URL 서비스가 HTTP 또는 HTTPS 인지의 여부를 체크하여(단계 S210), URL 서비스가 HTTP 또는 HTTPS가 아닌 경우에는 표준화 대상에서 제외한 후(단계 S220) 실행을 종료한다. 물론 응용에 따라 다른 서비스, 예를 들어 FTP를 더 포함시킬 수도 있다.
상기 단계 S210에서 URL 서비스가 HTTP 또는 HTTPS인 경우에는 서비스명을 제거한다(단계 S230). 예를 들어, 'http://www.microsoft.com' 과 같이 표시되어 있는 경우, 'http://' 부분을 제거한다.
이어 중복 도메인 DB를 참조하여 URL의 도메인 네임에 해당하는 대표 도메인이 있는지의 여부를 체크하여(단계 S240), 중복 도메인 DB에 대표 도메인이 있는 경우에는 URL내의 도메인 네임을 대표 도메인으로 대치한다(단계 S245).
상기 단계 S240에서 중복 도메인 DB에 대표 도메인이 없는 경우 또는 단계S245 이후에 URL의 최종 파일명이 기본 웹 파일인지의 여부를 체크한다(단계 S250).
단계 S250에서 URL의 최종 파일명이 기본 웹 파일인 경우에는 URL내의 최종 파일명을 제거한다(단계 S255). 예를 들어 기본 웹 파일이 'default.asp' 또는 'index.html' 등인 경우에는 이를 제거한다.
단계 S250에서 URL의 최종 파일명이 기본 웹 파일이 아닌 경우 또는 단계 S255 이후에 디렉토리 표시 부분을 제거하여 표준 URL을 생성한다(단계 S260). 즉, 필요한 경우 URL의 호스트명으로 축약한다거나 최종 패스 단계의 상위 디렉토리만으로 제한하는 등 여러 가지 방법을 사용할 수 있다.
그 예로써 'www.microsoft.com/'에서 슬래쉬(/)를 제거하여 상위 디렉토리 단계인 'www.microsoft.com'로 축약할 수 있다.
이상의 과정을 거친 표준화된 URL을 이용하여 웹 서비스에서 실시간으로 관련 URL을 검색하거나 표준 URL DB(250)에 저장하는데 사용할 수 있다.
도 2에서 설명한 관련 URL 생성 단계는 구축된 표준 URL DB(250)를 이용하여 각 URL들에 대해 관련성이 높은 URL들을 구하여 DB화하는 것으로 상세한 과정은 도 4에 설명되어 있는 알고리즘을 따른다.
도 4는 본 발명의 실시예에 따라 관련 URL을 추출하는 과정을 설명하기 위한 흐름도이다.
도 1과 도 4를 참조하면, 표준 URL DB(250)에서 상이한 URL들은 관련 URL DB 구축의 대상이므로 관련 URL DB내의 상이한 URL(본 발명의 설명의 편의를 위해제1URL군(u1)이라 하자)들에 대해 각각 다음의 과정을 진행한다.
먼저 표준 URL DB(250)에서 제1 URL군(u1)이 속해 있는 모든 폴더들을 구하고, 이를 F1이라 한다(단계 S310). 이는 어떤 사용자는 제1 URL군(u1)을 폴더 A로 분류할 수 있지만, 다른 사용자는 동일 URL을 폴더 B로 분류할 수 있기 때문이다. 즉, 이렇게 구한 F1의 모든 폴더들은 제1 URL군(u1)을 포함하고 있다.
이어 단계 S310에서 구한 F1의 각 폴더에 대해 이 폴더에 속하는 모든 URL들을 찾아 제2 URL군(u2)에 넣는다(단계 S320). 즉, 제2 URL군(u2)에 속한 모든 URL들은 하나 이상의 사용자에 의해 제1 URL군(u1)과 같은 폴더로 분류되고 있다는 것이다.
이어 단계 S320에서 구한 제2 URL군(u2)에서 상이한 URL들을 찾아 제3 URL군(u3)에 넣는다(단계 S330).
이어 제3 URL군(u3)에 속하는 모든 URL에 대해 제2 URL군(u2)에 나타나는 빈도수를 구하고(단계 S340), 상기 빈도수를 정렬하여 상위 N개의 URL과 해당 빈도수수를 관련 URL DB(320)에 저장한다(단계 S350).
이상에서 설명한 바와 같이, 관련 URL 추출의 기본 가정은 북마크 DB에 들어있는 URL과 폴더의 데이터는 사용자가 동일 카테고리의 URL들을 동일 폴더에 분류해 놓는다는 것이다. 일반적으로 사용자는 자신의 북마크를 구축할 때 동일 카테고리의 URL들은 동일 폴더에 분류한다고 볼 수 있기 때문에 이러한 가정은 유효하다할 수 있다.
그렇기 때문에 DB 전체적으로 특정의 제1 URL과 또 다른 특정의 제2 URL이동일 폴더에 나타나는 빈도수가 높다면 제1 URL과 제2 URL은 상관 관계가 높다고 볼 수 있으며, 제1 URL에 대해 일반적으로 사용자에게 제2 URL은 의미있는 사이트이다.
도 2의 단계 S300에서 설명한 URL 표제어 DB 구축은 사용자에게 URL을 제시할 때 URL 자체와 함께 URL이 무엇을 의미하는지를 설명하기 위해 URL의 표제어를 찾아내고 DB에 저장하는 것이다. 즉, 관련 URL DB에 저장되어 있는 URL들에 대해 각 URL의 표제어를 찾아내는 과정으로 도 5와 같은 단계로 진행된다.
도 5는 본 발명의 실시예에 따라 URL 표제어를 추출하는 과정을 설명하기 위한 흐름도이다.
도 1과 도 5를 참조하면, 먼저 대상이 되는 URL의 표제어가 URL 표제어 DB에 들어있는지 검사한다(단계 S410).
표제어가 기존 DB에 들어 있는 경우에는 최종 확인 일자가 정의된 일자가 경과했는지의 여부를 체크하여(단계 S420), 경과한 경우에는 URL 표제어 DB 구축을 종료한다.
단계 S420에서 최종 확인 일자가 정의된 일자가 경과하지 않은 경우에는, URL 표제어 DB에 URL의 표제어가 들어있지 않은지, 또는 URL 표제어의 최종 수정일이 정의된 일자를 경과하지 않았고 URL 표제어가 자동으로 업 데이트되었는지의 여부를 체크한다(단계 S430).
단계 S430에서 URL 표제어 DB에 URL의 표제어가 들어있는 경우에는 단계 S410으로 피드백하고, 또한 URL 표제어의 최종 수정일이 정의된 일자를 경과하였거나 또는 URL 표제어가 자동으로 업 데이트되지 않은 경우에도 단계 S410으로 피드백한다
또한 단계 S430에서 URL 표제어 DB에 URL의 표제어가 들어있지 않은 경우, 또는 URL 표제어의 최종 수정 일자가 정의된 일자가 경과하지 않은 경우 및 URL 표제어가 자동으로 생성된 경우에는 최종 확인 일자가 정의된 일자를 초과한 URL에 대해서 해당 웹 서버를 방문하여 HTML을 읽고(단계 S440), URL 데이터를 수신하여 표제어를 추출한다(단계 S450).
단계 S450에서 추출된 표제어를 URL 표제어 DB에 업그레이드한다(단계 S460).
URL 표준화 과정에서 동일한 사이트를 나타내는 서로 다른 도메인 네임을 가진 URL을 하나로 표준화하면 관련성 계산의 정확성을 향상시킬 수 있다. 이를 위한 처리가 동일 URL 판별 과정으로써 서로 다른 도메인 네임이지만 같은 사이트를 나타내는 경우 <도메인 네임, 대표 도메인 네임>으로 중복 도메인 DB를 구축한다. 그 과정은 도 6에 나타낸 바와 같다.
도 6은 본 발명의 실시예에 따라 동일 URL을 판별하는 과정을 설명하기 위한 흐름도이다.
도 1과 도 6을 참조하면, 먼저 판별 대상 도메인을 수동 또는 자동으로 선택한다(단계 S510). 이때 자동으로 대상 도메인을 선택하는 경우는 도메인 네임에서 특정 단어가 동일한 경우 대상 도메인으로 선정한다. 예를 들어, 'kr.yahoo.com'과 'yahoo.co.kr'은 구분어인 '.com'과 '.co.kr' 앞의 단어인 'yahoo'가 공통이므로판별 대상에 포함한다. 또한 수동으로 대상 도메인을 선택하는 경우는 필요에 따라 관리자가 판별 대상 DB에 직접 입력한 경우이다. 이때 시간에 따라 뉴스 사이트 등과 같이 시간에 따라 내용이 바뀌는 사이트도 있으므로 판별 대상 사이트인 d1, d2를 처리한 후에는 d1과 같은 판별 대상이 되는 다른 사이트인 d3이 판별 대상 DB에 있는 경우에는 우선 처리한다.
이어 데이터의 끝인지의 여부를 체크하여(단계 S520), 데이터의 끝인 경우에는 실행을 완료하고, 데이터의 끝이 아닌 경우에는 사이트 d1, d2로부터 HTML 컨텐트를 읽는다(단계 S530).
이어 대상 도메인 d1, d2의 동일 여부를 체크하여(단계 S540), 단계 S540에서 대상 도메인 d1, d2가 상이한 경우에는 단계 S410으로 피드백하고, 대상 도메인 d1, d2가 동일한 경우에는 중복 도메인을 업 데이트한다(단계 S550). 단계 S540의 두 URL의 내용이 같은지를 비교하는 것은 두 파일 내용의 정확성이 정해진 정확도 이상이라면 동일한 것으로 처리한다.
이상에서는 사용자가 방문하고 있는 인터넷 웹 사이트와 일정 관련성을 추출하여 관련 사이트 정보를 제공하는 것을 설명하였으나, 해당 관련성이 검색되지 않는 경우에는 사용자에게 해당 서비스를 제공하지 않을 수도 있다.
이상에서 언급한 바와 같이, URL 표준화 과정에서 동일한 사이트를 나타내는 서로 다른 도메인 네임을 가진 URL을 하나로 표준화하면 관련성 계산의 정확성을 향상시킬 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
이상 설명한 바와 같이, 본 발명에 따르면 사용자에 의해 직접 분류된 인터넷 북 마크 DB 정보를 이용하여 인터넷 사이트들에 대한 관련성 순위를 작성하여 사용자들에게 현재 방문하고 있는 인터넷 사이트와 관련성이 높은 사이트들을 실시간으로 추천할 수 있다.

Claims (10)

  1. (a) 인터넷 북마크 DB로부터 각 웹 사이트의 URL을 정규화하여 하나 이상의 표준 URL을 생성하는 단계;
    (b) 상기 표준 URL로부터 각 웹 사이트간의 관련성을 추출하여 하나 이상의 관련 URL을 생성하는 단계;
    (c) 서버 에이전트를 통하여 각 URL을 방문하여 하나 이상의 관련 URL 표제어를 생성하는 단계; 및
    (d) 사용자가 현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 사이트들을 상기 단계(b)에서 생성한 하나 이상의 관련 URL과 상기 단계(c)에서 생성한 하나 이상의 관련 URL 표제어로부터 검색하여 상기 사용자에게 실시간으로 제공하는 단계
    를 포함하는 관련 웹 사이트 제공 방법.
  2. 제1항에 있어서, 상기 단계(a)는,
    (a-1) URL 서비스가 HTTP/HTTPS인지의 여부를 체크하여 상기 HTTP/HTTPS가 아닌 경우에는 표준화 대상에서 제외하는 단계;
    (a-2) 상기 단계(a-1)에서 URL 서비스가 HTTP/HTTPS인 경우에는 서비스 명을 제거하여 중복 도메인 DB에 대표 도메인의 존재 여부를 체크하는 단계;
    (a-3) 상기 단계(a-2)에서 대표 도메인이 존재하는 경우에는 URL내의 도메인네임을 대표 도메인으로 대체하는 단계;
    (a-4) 상기 단계(a-2)에서 대표 도메인이 존재하지 않은 경우 및 상기 단계(a-3)후에 URL의 최종 파일명이 기본 웹 파일인지의 여부를 체크하는 단계;
    (a-5) 상기 단계(a-4)에서 상기 URL의 최종 파일명이 기본 웹 파일인 경우에는 URL 내의 최종 파일명을 제거하는 단계; 및
    (a-6) 상기 단계(a-4)에서 상기 URL의 최종 파일명이 기본 웹 파일이 아닌 경우 및 최종 파일명을 제거한 이후에 디렉토리 표시를 제거하여 표준 URL을 생성하는 단계를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 방법.
  3. 제1항에 있어서, 상기 단계(b)는,
    (b-1) 표준 URL인 제1 URL이 속한 모든 폴더들을 추출하는 단계;
    (b-2) 상기 단계(b-1)에서 구한 모든 폴더들에 속한 제2 URL을 추출하는 단계;
    (b-3) 상기 단계(b-2)에서 구한 제2 URL로부터 상이한 제3 URL을 추출하는 단계;
    (b-4) 상기 제3 URL에 속하는 모든 URL에 대해 제2 URL에 나타나는 빈도수를 추출하는 단계; 및
    (b-5) 상기 단계(b-4)에서 구한 모든 URL에 대해서 빈도수로 정렬하여 상위 N개의 URL 및 그 빈도수를 저장하는 단계를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 방법.
  4. 제1항에 있어서, 상기 단계(c)는,
    (c-1) 상기 하나 이상의 관련 URL로부터 제1 URL을 읽어 데이터의 끝인지의 여부를 체크하여 데이터의 끝인 경우에는 종료하는 단계;
    (c-2) 상기 단계(c-1)에서 데이터의 끝이 아닌 경우에는 상기 제1 URL의 신규 여부를 체크하여 비신규인 경우에는 상기 단계(c-1)로 피드백하는 단계;
    (c-3) 상기 단계(c-2)에서 상기 제1 URL이 신규한 경우에는 인터넷 웹 사이트로부터 HTML을 읽는 단계;
    (c-4) 상기 단계(c-3)에서 읽은 HTML로부터 표제어를 추출하는 단계; 및
    (c-5) 상기 추출된 표제어를 업 데이트하는 단계를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 방법.
  5. 하나 이상의 웹 사이트의 URL를 저장하는 인터넷 북 마크 DB;
    상기 인터넷 북마크 DB에 저장된 URL을 정규화하여 표준 URL DB를 구축하는 URL 표준화부;
    상기 표준 URL DB로부터 각 웹 사이트간의 관련성을 추출하여 관련 URL DB를 구축하는 관련 URL 추출부;
    서버 에이전트를 통하여 각 URL을 방문하여 관련 URL의 표제어를 추출하며, 관련 URL 표제어 DB를 구축하는 URL 표제어 구축부; 및
    상기 관련 URL DB와 상기 URL 표제어 DB에 저장된 정보를 근거로 사용자가현재 방문하고 있는 인터넷 웹 사이트와 관련성이 높은 하나 이상의 사이트를 상기 사용자에게 제공하는 서비스 제공부
    를 포함하는 관련 웹 사이트 제공 시스템.
  6. 제5항에 있어서, 상기 서비스 제공부는,
    상기 하나 이상의 사이트를 실시간으로 제공하는 것을 특징으로 하는 관련 웹 사이트 제공 시스템.
  7. 제5항에 있어서, 상기 URL 표준화부는,
    판별 대상 DB;
    서로 다른 도메인 네임이지만 실제로 동일한 웹 사이트를 지정하는 경우 이들 도메인들에 대해 대표 도메인 네임을 저장하는 중복 도메인 DB;
    상기 북마크 DB내의 각 URL에 들어있는 도메인 네임에서 동일 대상인지 판별해야 할 필요가 있는 도메인 네임을 추출하고, 이를 상기 판별대상 DB에 저장한 후 상기 판별 대상 DB로부터 판별 대상 도메인을 읽어내어 동일한 사이트를 나타내는 지의 여부를 인터넷을 통해 검색하여 상기 중복 도메인 DB에 저장된 정보를 업 데이트하는 동일 URL 판별부;
    상기 북마크 DB와 상기 중복 도메인 DB를 참조하여 표준 포맷의 URL을 추출하는 URL 표준화부; 및
    상기 URL 표준화부에 의해 표준 포맷으로 전환된 URL 및 URL의 폴더 고유 번호를 저장하는 표준 URL DB를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 시스템.
  8. 제5항에 있어서, 상기 관련 URL 추출부는,
    상기 URL 표준화부에서 생성된 URL 및 폴더 정보를 읽어 각 URL에 대해 관련성 순위로 배열하고, 배열된 상위 N개에 대해 <URL, 관련 정도> 정보를 출력하는 URL 관련 추출부; 및
    상기 URL 관련 추출부로부터 출력되는 정보를 저장하는 관련 URL DB를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 시스템.
  9. 제5항에 있어서, 상기 URL 표제어 구축부는,
    상기 관련 URL 추출부에 의해 구축된 관련 URL DB에 제1 URL 표제어가 작성되지 않거나 제1 URL 표제 작성 시점이 일정 기간이 경과되어 재확인해야 하는 경우 인터넷상에세 URL을 읽어 제2 URL 표제어를 추출하는 URL 표제어 추출부; 및
    상기 제2 URL 표제어를 저장하는 URL 표제어 DB를 포함하는 것을 특징으로 하는 관련 웹 사이트 제공 시스템.
  10. 제5항에 있어서, 상기 서비스 제공부는,
    사용자로부터 현재 URL를 제공받아 이와 관련된 URL 정보를 상기 사용자측에 제공하는 웹 서버인 것을 특징으로 하는 관련 웹 사이트 제공 시스템.
KR10-2000-0008551A 2000-02-22 2000-02-22 관련 웹 사이트 제공 방법 및 시스템 Expired - Fee Related KR100371805B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0008551A KR100371805B1 (ko) 2000-02-22 2000-02-22 관련 웹 사이트 제공 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0008551A KR100371805B1 (ko) 2000-02-22 2000-02-22 관련 웹 사이트 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20010082966A true KR20010082966A (ko) 2001-08-31
KR100371805B1 KR100371805B1 (ko) 2003-02-11

Family

ID=19648841

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0008551A Expired - Fee Related KR100371805B1 (ko) 2000-02-22 2000-02-22 관련 웹 사이트 제공 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100371805B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100391391B1 (ko) * 2000-06-14 2003-07-12 (주) 제이.에스.씨.앤.아이 저작권 침해 방지를 위한 정보추출 에이전트 시스템 및그의 정보제공 방법
KR100792109B1 (ko) * 2006-03-27 2008-01-04 하상호 모바일 웹서버에서의 사용자인터페이스 기반의 범용 웹정보 추출을 위한 래퍼 생성장치 및 그 방법
KR100902757B1 (ko) * 2007-12-24 2009-06-15 엔에이치엔(주) Url기반의 검색결과 제공방법 및 시스템
KR101454466B1 (ko) * 2013-08-02 2014-10-23 주식회사 알에스엔 Html파일로부터 비정형 메타 데이터를 추출하는 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100391391B1 (ko) * 2000-06-14 2003-07-12 (주) 제이.에스.씨.앤.아이 저작권 침해 방지를 위한 정보추출 에이전트 시스템 및그의 정보제공 방법
KR100792109B1 (ko) * 2006-03-27 2008-01-04 하상호 모바일 웹서버에서의 사용자인터페이스 기반의 범용 웹정보 추출을 위한 래퍼 생성장치 및 그 방법
KR100902757B1 (ko) * 2007-12-24 2009-06-15 엔에이치엔(주) Url기반의 검색결과 제공방법 및 시스템
KR101454466B1 (ko) * 2013-08-02 2014-10-23 주식회사 알에스엔 Html파일로부터 비정형 메타 데이터를 추출하는 장치

Also Published As

Publication number Publication date
KR100371805B1 (ko) 2003-02-11

Similar Documents

Publication Publication Date Title
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN100390786C (zh) 信息解析方法以及装置
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20050149538A1 (en) Systems and methods for creating and publishing relational data bases
US20050198559A1 (en) Document information management system, document information management program, and document information management method
JP2008507041A (ja) 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ
JP5552582B2 (ja) コンテンツ検索装置
KR100434902B1 (ko) 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
JP2009271799A (ja) 企業相関情報抽出システム
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
KR20000063422A (ko) 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법
KR20000054312A (ko) 맞춤 웹정보 구축 제공 방법
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP4469432B2 (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR100616152B1 (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에 자동송출하는 제어방법
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2008077353A (ja) キーワード分類方法、サーバコンピュータ、及びプログラム
CN1922606B (zh) 用于面向用户的互联网导航的动态关键字处理系统和方法

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

N231 Notification of change of applicant
PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 7

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 9

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

FPAY Annual fee payment

Payment date: 20130111

Year of fee payment: 11

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 11

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 12

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 12

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 13

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 13

FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 14

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 14

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 15

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 15

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 16

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 16

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 17

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 17

PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20200129

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20200129

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000