WO2006038282A2 - Server and computer program - Google Patents
Server and computer program Download PDFInfo
- Publication number
- WO2006038282A2 WO2006038282A2 PCT/JP2004/014616 JP2004014616W WO2006038282A2 WO 2006038282 A2 WO2006038282 A2 WO 2006038282A2 JP 2004014616 W JP2004014616 W JP 2004014616W WO 2006038282 A2 WO2006038282 A2 WO 2006038282A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- web page
- information
- page
- user
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Definitions
- the present invention relates to a sano that is connected to a client via a network so as to be communicable and provides page information similar to a web page displayed on a client's web browser to the client, and a computer program. .
- Patent Document 1 Japanese Patent Laid-Open No. 2003-85202
- an object of the present invention is to provide a similar page search technique that reflects a determination regarding the similarity of page contents.
- the present invention relates to page information similar to a first web page that is connected to a client via a network and is displayed on the web browser of the client.
- a server provided to the client, comprising: a bookmark database for managing a plurality of bookmark information used in the web browser; means for obtaining information on the first web page; and the bookmark information.
- a first counting means for multiplying the number of the same folders in the plurality of bookmark information for a second web page registered in the same folder as the first web page; Based on the same number of folders counted by the first counting means, the first web page and the second web page.
- First similarity determination means for determining the first similarity with the first web page, and information about the second web page in order of the determined first similarity is similar to the first web page
- the page information includes transmission means for transmitting to the client.
- FIG. 1 is a diagram corresponding to an example of an overall configuration of a system corresponding to an embodiment of the present invention.
- FIG. 2 is a diagram corresponding to an example of a configuration of a client 101 corresponding to the embodiment of the present invention.
- FIG. 3 is a diagram corresponding to an example of a configuration of a server 103 corresponding to the embodiment of the present invention.
- FIG. 4A is a diagram showing an example of registered contents of a user database corresponding to the embodiment of the present invention.
- FIG. 4B shows an example of registered contents of the bookmark database corresponding to the embodiment of the present invention.
- FIG. 4C is a diagram showing an example of registration contents of an image database corresponding to the embodiment of the present invention.
- FIG. 5 is a diagram showing an example of a screen display form in the client 101 corresponding to the embodiment of the present invention.
- FIG. 6 is a flowchart corresponding to an example of a similar page screen information generation / provision process executed in the server 103 according to the embodiment of the present invention.
- FIG. 7A is a diagram showing an example of a bookmark configuration corresponding to the embodiment of the present invention.
- FIG. 7B is a diagram showing another example of the configuration of the bookmark corresponding to the embodiment of the present invention.
- FIG. 8 is a table for explaining similar points Psl corresponding to the embodiment of the present invention.
- FIG. 9 is a table for explaining similar points Ps2 corresponding to the embodiment of the present invention.
- FIG. 10 is a flowchart of processing corresponding to the second embodiment of the present invention.
- FIG. 11 is a table for explaining a high-probability word corresponding to the second embodiment of the present invention.
- FIG. 1 is a block diagram showing the overall configuration of a similar web page search system corresponding to this embodiment.
- Clients 101a, 10 lb, and 101c (hereinafter collectively referred to as “client 101”) that are operated by a user to browse content, a server 103 that searches for similar pages, and a content server 107 that publishes content.
- client 101 that are operated by a user to browse content
- server 103 that searches for similar pages
- a content server 107 that publishes content.
- a user database 104, a bookmark database 105, and an image database 106 are connected to the server 103.
- the client 101 is an information processing apparatus that can be operated by a user to browse content published on the Internet. Includes mobile phones. It is assumed that the client 101 has so-called Internet browser software installed.
- the client 101 is connected to the Internet 102 via a LAN which is an access means including a network cable such as Ethernet (registered trademark).
- the access means to the network 102 is not limited to an Ethernet (registered trademark) cable.
- the access means may be constituted by a communication cable conforming to the RS232C interface or a wireless communication means such as a wireless LAN.
- the server 103 and the content server 107 described later are also provided with similar access means.
- the Internet 102 is a network in which networks all over the world are connected to each other.
- the Internet 102 may be a network that can be connected only within a specific thread and fabric such as an intranet.
- the server 103 is an information processing apparatus that provides a similar web page search service to the client 101, and manages information stored in the user database 104, bookmark database 105, and image database 106.
- the server 103 is connected to the user database 104, the bookmark database 105, and the image database 106 by, for example, LAN.
- the user database 104, the bookmark database 105, and the image database 106 are information processing apparatuses each installed with a predetermined database and software, and manage various data.
- the user database 104 manages information such as user registration information and bookmarks for each user.
- the image database 105 manages thumbnail image data obtained by reducing images in the display mode of the web page.
- the content server 107 is an information processing apparatus that provides content such as a web page, and for example, software such as a web server is installed.
- the server 103, the user database 104, the bookmark database 105, and the image database 106 are described as being realized by physically independent information processing apparatuses. The embodiment is not limited to this. For example, these may be realized by a single information processing apparatus.
- User database 104, bookmark database 105, and image data may be connected to the server 103 via a LAN or the like.
- the server 106 may be configured to be able to communicate with the server 103 via the Internet 102 or an intranet (not shown).
- FIG. 2 is a block diagram illustrating an example of the hardware configuration of the client 101.
- the user database 104, the bookmark database 105, and the image database 106 as the information processing apparatus described above may be configured in the same or equivalent hardware configuration.
- reference numeral 200 denotes a CPU, which is stored in a hard disk device (hereinafter referred to as HD) 205 and executes an application program, an operating system (OS), a control program, etc. Control to temporarily store information, files, etc. necessary for execution.
- HD hard disk device
- OS operating system
- control program etc. Control to temporarily store information, files, etc. necessary for execution.
- Reference numeral 201 denotes a ROM that stores therein various data such as a program such as a basic I / O program, font data used for document processing, and template data.
- 202 is a RAM for temporarily storing various data, and functions as the main memory, work area, etc. of the CPU 200.
- [0023] 203 is an external storage drive for realizing the access to the recording medium, it can be force s load media (recording medium) 204 a program stored in such in the computer system.
- media 204 for example, a flexible disk (FD), CD-ROM, CDR, CD-RW, PC card, DVD, IC memory card, MO, memory stick, etc. can be used.
- Reference numeral 205 denotes an external storage device, and this embodiment uses an HD that functions as a large-capacity memory.
- the HD 205 stores application programs, OS, control programs, related programs, and the like.
- Reference numeral 206 denotes an instruction input device, which corresponds to a keyboard, a pointing device (such as a mouse), a touch panel, or the like. Using the instruction input device 206, the user instructs the client 101 to input a command or the like for controlling the device.
- Reference numeral 207 denotes a display which displays a command input from the instruction input device 206, a response output from the client 101 in response thereto, and the like.
- Reference numeral 209 denotes a system bus, which controls the flow of data in the information processing apparatus.
- 20 8 is an interface (hereinafter referred to as IZF), and exchanges data with external devices via this IZF208.
- IZF an interface
- the program may be loaded into the RAM 202 from the HD 205 in which the program is already installed. It is also possible to record the program according to the present embodiment in the ROM 201, configure it as a part of the memory map, and execute it directly by the CPU 200.
- FIG. 3 is a block diagram showing a device configuration of the server 103. Functions and applications of CPU200, ROM201, RAM202, external storage drive 203, media 204, HD205, instruction input device 206, display 207, I / F 208, system bus 209, and their relationship are shown in Fig. 2. Are the same as or equivalent to those described above. Note that in FIG. 3, database 310 is connected to system bus 209. Here, the database 310 is a generic term for the user database 104, the bookmark database 105, and the image database 106.
- FIG. 4A is a diagram for explaining an example of the structure of user data stored in the user database 104.
- User data is composed of various information related to the characteristics and attributes of individual users.
- 401 is a user ID, which is an identifier given to the unique to uniquely identify each user.
- a password 402 is used for authentication when each user accesses his / her registration information or uses a bookmark.
- 403 is the user's name
- 404 is the user's email address
- 405 is the age
- 406 is the gender
- 407 is the user's active 408 is occupation type
- 409 is unmarried
- 410 is residence type
- 411 is annual income
- 412 is private car ownership
- 413 hobby.
- Each data is provided in advance by the user and registered as user data. Further, the above contents are given as an example of user data, and it is not necessary that all of them are registered, and other information that characterizes the user may be registered.
- the bookmark is created and updated by the user. All bookmark data is stored in the bookmark database 105 connected to the server 103 for each user, and when the user starts a web browser on the client 101. Then, it is downloaded to the client 101 and displayed on the web browser.
- Bookmarks are stored in a well-known directory structure and URL (Universal Resource
- Locator and a folder that stores the URL as a specific unit. That is, each URL is registered in a directory tree for each user (hereinafter referred to as a bookmark directory) and may be directly under the bookmark directory or in a folder created arbitrarily.
- FIG. 4B is a diagram illustrating an example of management of information related to a URL registered in a bookmark.
- ID 421 of the user who uses the bookmark is registered. Thereby, the correspondence between the user and the bookmark can be taken.
- 422 is each URL to be registered.
- a URL database may be prepared to manage all URLs in a unified manner. In that case, a unique identification number (ID) will be attached to each URL. Therefore, register the URL identification number in the URL 422 field shown in Fig. 4B.
- ID unique identification number
- Reference numeral 423 denotes a bookmark name given to each URL.
- the bookmark name 423 may be a name arbitrarily set when the user registers the bookmark, or may be a name originally assigned to the page.
- 424 indicates the date and time when the page corresponding to the URL was created
- 425 indicates the date and time when the URL was most recently updated
- 426 indicates the date and time when the user last referenced the page
- 427 the number of times the user refers to the page is registered.
- 428 is a reduced image of the page (thumbnail (Storage location in the image database 105) is registered. This storage location 428 may be omitted when an identification number is registered in the URL 422 according to the configuration of the image database 106 described later.
- the server 103 periodically monitors the update of each page registered as a bookmark, and updates the contents of the update date and time 423 when there is an update. Further, a reduced image of the updated page is generated, and the contents of the corresponding reduced image stored in the image database 105 are updated.
- the image database 106 registers the reduced image of the page corresponding to the URL registered in the bookmark database 105! /.
- the image database 106 is configured as shown in FIG. 4C.
- ⁇ Z: ⁇ '' is the root directory
- folders ⁇ image0001 '', ⁇ image0002 '' and ⁇ image0041 '' are registered directly under the root directory
- JPEG image data ⁇ 001. “jpg”, “031.jpg”, and “005.jpg” are stored.
- the reduced image data of the page is stored in the image database 106. Therefore, in the bookmark database 105, it is possible to correspond to the registered URL simply by registering the link information. A reduced image to be identified can be uniquely specified.
- the image database 106 uses the identification number of the corresponding URL as the file name of the image data as it is, and stores it in the folder in units of an appropriate number of files. It can be realized just by storing it. For example, if an image is stored in one folder for every 1000 files, URL identification numbers “10000 .jpg” and “19999.jpg” can be stored in a folder with a folder name “10000”. wear. In this case, the bookmark database 105 does not need to have the image storage location 428 in FIG. 4B, and the corresponding reduced image is searched by searching for an image having a file name that matches the identification number registered in the URL 422. Can be identified.
- the image data registered in the image database 106 may be displayed in the bookmark when the web browser is started in the user client 101.
- the image data is mainly stored in the web browser. A page similar to the page that appears and speaks. This is used when presenting the page to the user.
- FIG. 1 An example of the display form of the web browser in the client in this embodiment is as shown in FIG.
- reference numeral 500 denotes the entire browser screen. Normally, web browsers have menu bars and buttons. In Figure 5, these are omitted, and a display example of only the part where web pages are displayed is shown.
- the screen 500 includes a first area 501 for displaying a page mainly viewed by the user (hereinafter referred to as “main page”) and a page similar to the main page (hereinafter referred to as “similar page”). It is divided into a second area 502 for displaying a reduced image.
- the screen information displayed in the second area 502 is hereinafter referred to as similar page screen information.
- the form in which the area in the screen 500 is divided is not limited to the form shown in FIG. 5, and the second area may be provided in any one of the upper, lower, and right areas in the screen 500, for example.
- FIG. 5 a page of “Yuhi Bank” is displayed in the first area 501.
- a similar page 504 is displayed, and a scroll button 503 for scrolling the screen is displayed.
- the scroll button 503 By operating the scroll button 503, the reduced image of the page displayed in the second area 502 can be arbitrarily scrolled.
- Each reduced image can accept a selection based on a user's mouse operation. For example, when a page 504 described as "ABC bank" is click-selected, the page 504 is displayed as the first page. Displayed in area 1 501 of 1.
- FIG. 6 is a flowchart corresponding to an example of the generation / provision processing of similar page screen information executed in the server 103.
- step S601 information on the main page displayed in the first area is acquired.
- the information to be acquired here is information that can be specified by the main page. If it is already registered in the user's bookmark, it can be the bookmark name 423! /, UR
- L may be sufficient.
- the server 103 and the client 101 regularly communicate with each other in order to obtain the information on the main page, and the contents of the main page displayed in the first area 501 are displayed on the client side.
- the client 101 notifies the server 103 of information about the new main page.
- the client 101 may receive the main page designation from the user, and transmit the main page information to the server 103 in response to accepting the instruction.
- a search button for similar pages is arranged in the browser, and a request for provision of screen information of a similar page of the page currently displayed as the main page is accepted by operating the search button. Can do.
- step S602 the server 103 searches the bookmarks of the user registered in the bookmark database 105 for bookmarks in which the main page information specified in step S601 is registered.
- FIGS. 7A and 7B are diagrams showing an example of bookmark registration for user A ( Figure 7A) and user B ( Figure 7B), which are different from the user who requested the provision of similar page screen information. Is
- FIG. 7A it can be seen that the URL “www.yuuhi.com” of the page of “Yuhi Bank” is registered in the bookmark.
- FIG. 7B the page of “Yuhi Bank” is not registered, including the folder named “Bank”. Therefore, in such a case, only the bookmark of user A corresponds to the target bookmark, and the bookmark of user B does not correspond to the target bookmark.
- step S603 all bookmarks found in step S602 are displayed. Therefore, the main page is registered, and information on other pages in the folder is acquired for each user.
- the URL of “Yuhi Bank” is registered in a folder named “Bank”. Therefore, in step S603, for user A, information on other pages registered in the folder name “bank” is acquired.
- the URL of the main page is registered directly under the root, the page registered directly under the root can be obtained in the same way.
- step S604 ranking is performed on the basis of the number of folders stored and stored for each of the information on the other pages extracted in step S603.
- ABC bank having the URL "www.abcbank.co.jp" is registered in the bookmark of user A in FIG. 7A. If this ABC bank was registered in the same folder as “Yuhi Bank” in the bookmarks of other users C and D not shown in FIGS. 7A and 7B, at least ABC bank was stored. The number of folders is 3. In this way, the total number of registered pages stored in the same folder as “Yuhi Bank” is calculated for each page.
- step S605 based on the result obtained in step S604, a similar point Psl representing the degree of similarity with the main page for other page information is calculated.
- the similarity point Psl indicates that the higher the number of points, the higher the similarity with the main page.
- FIG. 8 is a table showing an example of the number of registered folders and similar points Psl calculated for other pages registered in the same folder as the main page.
- 801 is the URL of the other page
- 802 is the number of folders in which the corresponding URL is registered
- 803 is the similar point Psl calculated based on the number of folders.
- the power of simply matching the similar point Psl with the number of registered folders may be weighted in descending order of the number of registered folders (that is, when the number of registered folders is 1st, Calculate the similar point Psl by multiplying the number by 1.5 and multiply it by 1.4 if it is in the second place.) 0 Such weighting is for example similar pages to multiple similar points This is effective when trying to determine the total. First, similar Point Psl is determined.
- step S606 the folder names in which the main page is registered are extracted for all the bookmarks. That is, in the case of FIG. 7A, since the folder name where “Yuhi Bank” is registered is “bank”, the folder name “bank” is extracted for user A.
- step S607 the number of extracted folder names, that is, the number of folders in which each folder name is used is calculated as a point Pf. For example, if “Yuhi Bank” is registered in the folder named “Bank” and there are 50 users !, the point Pf can be set to “50”.
- step S608 an Internet search is performed using the folder name as a keyword for a folder name whose point Pf is greater than the predetermined threshold TM.
- This search can be performed using a general purpose search engine.
- the search is preferably performed using a plurality of different search engines.
- the threshold TM is determined according to the number of users registered in the user database 104, in other words, the number of bookmarks registered. Also, without setting a threshold, you can use as a keyword the folder name of the top number (for example, 10, 50, 100, etc.) in descending order of point Pf! /.
- step S609 information on other pages (that is, other than the main page) is extracted from the pages listed in the search results set with the folder name as a keyword, and the order in which the pages are listed. Weighting is used to calculate the similarity point Ps2.
- FIG. 9 is a table for explaining a specific example for calculating a similar point Ps2 by performing a search with a predetermined keyword using a predetermined search engine among a plurality of available search engines.
- 901 is a folder name used as a keyword for search.
- two cases of “bank” and “finance” are listed as examples.
- 90 2 is a URL listed in the search result when a search is performed for each keyword 901.
- Reference numeral 903 indicates the order in which the corresponding URL is listed in the search result! For example, ABC Bank, which is given the URL “www.abcbank.co.jp”, is listed first in the search results when the keyword is “Bank” for a given search engine.
- 904 represents the weight for each keyword.
- the point Pf calculated in step S607 may be used as it is, or a result obtained by processing the point Pf by further weighting may be used. In any case, a value that reflects the value of point Pf is used.
- “100” is given as the keyword weight 904, assuming that the name “bank” is the most frequently used as the folder name.
- the name of “financial” is not as large as that of a bank, it was used as a folder name as it is, so “60” is given as keyword weight 904! /.
- reference numeral 905 denotes a rank weight, and a weight given according to the order listed in each search result is registered.
- the weights from 10 to 2 are given from 1st to 9th, and the weight is 1 after 10th. Therefore, ABC Bank was ranked first in the keyword “Bank”, so “10” was given as the ranking weight 905, and “3” was given in the keyword “Finance”, so “8” was given as the ranking weight 905. ! /
- reference numeral 906 denotes the calculation result of the similar point Ps2 '.
- FIG. 9 illustrates the case of a predetermined search engine. Even when a search engine other than this is used, each search engine is based on the information shown in FIG. Therefore, the similar point Ps2 is calculated.
- step S609 the similar point Ps2 obtained in step S609 is given as the sum of the similar points Ps2 'calculated for each URL.
- step S610 the similar points Psl and Ps2 calculated in step S605 and step S609 are converted to calculate the final similar point PS, and the similarity to the main page is high. Determine the page.
- step S611 similar page screen information is generated using the reduction information of each page in the order of pages determined to have a high similarity in step S610, and is transmitted to the client.
- similar page information is used as similar page screen information.
- the information is provided to the client 101 as information including a reduced image of the page, but the form for providing similar page information is not necessarily based on the image, only the page name, URL, or page. You may carry out by the text etc. which describe the outline
- information on a page similar to the page displayed on the web browser is displayed on the same screen. You can easily find the pages you are interested in, which can dramatically improve the efficiency of information collection.
- the present invention can determine similar pages using the characteristics of bookmarks. This brings about a special utility as described below.
- similar points Psl and Ps2 calculated by two calculation methods are used to determine a similar page.
- the similar point Ps3 is further calculated, and the similar page can be determined by the sum of Psl ⁇ Ps3.
- FIG. 10 is a flowchart of the similarity point calculation process corresponding to the present embodiment.
- step S1001 is equivalent to the processing in step S601 of FIG. 6, and acquires information on the main page displayed in the first area of FIG.
- a word with a high probability of hitting the main page hereinafter referred to as a “high probability word” when the Internet search is executed using the word as a keyword among the words described in the accepted main page. ").
- high-probability words are extracted by performing morphological analysis on the description in the page, and by assigning points to each word based on the content rate, font size, layout position, etc. Probability is high and can be determined as a word.
- the word 1103 such as “Bank”, “Finance”, “BANK” is a high point 1104
- These words 1103 correspond to high-probability words and are used for keyword searches.
- the point 1104 of each word 1103 can be used for weighting each page hit in the subsequent keyword search.
- step S 1003 an Internet search is performed using the high probability word determined in step S 1003 as a keyword.
- step S 1004 according to the result of the Internet search in step S 1003, the listed pages are ranked by weighting corresponding to each keyword, and the similar point Ps 3 is calculated.
- the similar point Ps3 can be obtained. Since Ps3 obtained here can be used to determine the similarity between the main page and other pages in the same way as Psl and Ps2 in the first embodiment, the similarity is calculated up to Psl force Ps3. Judgment can be made based on the total. Information on similar pages obtained as a result can be provided to the user in the same manner as in the first embodiment.
- a page including information common to the page displayed mainly on the web browser is extracted as a similar page and provided to the user.
- the user can easily find the page that he / she is interested in, and the efficiency of information collection can be greatly improved.
- the server 103 Since the bookmark information of the user referring to the main page is registered in the bookmark database 105, the server 103 displays the page information included in the bookmark information in FIG. 6 and FIG. Exclude from processing target and execute each processing.
- pages already registered in the bookmark are excluded from the page information provided to the user. That's fine.
- pages already registered in the bookmark are excluded, and similar points Ps2 and Ps3 are calculated. You may do it. It is also possible to sort the display order so that the display order when providing to the user is reversed, without excluding the pages registered in the bookmark.
- the page remaining in the history is excluded from the processing target and a similar page is determined and the user is notified. It can also be provided. In this case as well, it is sufficient to sort the display order so that the display order when providing to the user is reversed, without excluding the pages remaining in the history.
- an unknown page is preferentially provided to a user with respect to a similar page of a page registered by a user or a page that has already been referred to. It becomes possible.
- filtering when filtering is performed using registration information such as a bookmark, filtering based on the force user data described above is also possible.
- the user database 105 stores age 405, sex 40, area attribute 407, occupation 408, hobby 413, etc. for all users. Assuming that the user referring to the main page is a male in his twenties, for example, and his / her hobby is making a personal computer. If this is done, pages that are registered in bookmarks by users with similar preferences are very likely to be useful to users browsing the main page, so effective results can be obtained. High nature.
- the information required for each area may be different. For example, even if a user has a hobby of eating and drinking, the contents registered in bookmarks are naturally different for users living in the Kyushu region and users living in Hokkaido, and one information is not always useful for the other. Absent. In such a case, by using the regional attribute 407, the search range can be limited for each region, and information on similar pages that are more effective for the user can be provided.
- the user's information registered in the user database 105 is used to restrict the bookmarks used when calculating the similar points, thereby limiting the user.
- the server 103 receives information (for example, age 405, gender 406, Predetermined information is selected from the regional attributes (407, hobbies 413, etc.), and users having information common to the selected information are narrowed down in the user database 104. In this way, after narrowing down the users in advance, the processing in step S602 and step S606 in FIG. 6 is executed.
- information for example, age 405, gender 406, Predetermined information is selected from the regional attributes (407, hobbies 413, etc.
- the bookmark information used to calculate the similarity points is limited to those of users who have a specific relationship with the user who is referring to the main page. Search for similar pages used.
- the above processing (for example, processing according to the flowcharts shown in FIGS. 6 and 10 above) is stored as a program in a storage medium such as a CD-R, ROM, DVD-ROM, or MO, and is stored in this storage medium.
- a storage medium such as a CD-R, ROM, DVD-ROM, or MO.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
明 細 書 Specification
サーバ及びコンピュータプログラム Server and computer program
技術分野 Technical field
[0001] 本発明は、クライアントとネットワークを介して通信可能に接続され、クライアントのゥ エブブラウザ上に表示されたウェブページに類似するページ情報を、当該クライアン トに提供するサーノ 、及びコンピュータプログラムに関する。 TECHNICAL FIELD [0001] The present invention relates to a sano that is connected to a client via a network so as to be communicable and provides page information similar to a web page displayed on a client's web browser to the client, and a computer program. .
背景技術 Background art
[0002] 近年、 WWWなどのインターネットの急激な広がりにより、広域ネットワークを介して 一般ユーザが情報を容易に獲得できるようになつている。しかし、インターネットにお いて参照可能なホームページの数は非常に膨大、かつ、常に増加し続けており、全 てのページをフォローすることは事実上不可能であるため、一般ユーザにとってイン ターネットを有効に活用することは必ずしも容易ではない。 In recent years, with the rapid spread of the Internet such as the WWW, general users can easily obtain information via a wide area network. However, the number of homepages that can be accessed on the Internet is extremely large and constantly increasing, and it is virtually impossible to follow all the pages. Effective utilization is not always easy.
[0003] このような状況を改善する一手段として検索エンジンの利用が挙げられる力 検索 エンジンによれば、ユーザが入力したキーワードに関連するページが検索結果として 提示されるので、ユーザは自分が見た 、ページにアクセスすることができる。 [0003] The ability to use a search engine as a means of improving such a situation According to a search engine, a page related to a keyword entered by the user is presented as a search result. You can also access the page.
[0004] し力しながら、このような検索エンジンの利用において所望の検索結果を得るため には、キーワードの選択や組み合わせについての習熟が必要となり、必ずしも全ての ユーザにとって利用しやす 、ものとは言えな 、。 [0004] However, in order to obtain a desired search result in the use of such a search engine, it is necessary to master selection and combination of keywords, which is not necessarily easy to use for all users. I can't say it.
[0005] また、単なるキーワード検索とは別に、互いに類似するページを検索して提供する 方法が提案されている。例えば、ウェブページに含まれるラベル情報に基づいて互 いに類似するページを決定し、ユーザに提供するシステムが提案されている(特許文 献 1を参照。)。 [0005] In addition to a simple keyword search, a method for searching and providing similar pages has been proposed. For example, a system has been proposed in which similar pages are determined based on label information contained in a web page and provided to the user (see Patent Document 1).
特許文献 1:特開 2003— 85202号 Patent Document 1: Japanese Patent Laid-Open No. 2003-85202
発明の開示 Disclosure of the invention
発明が解決しょうとする課題 Problems to be solved by the invention
[0006] しカゝしながら、上述の類似ウェブページ検索技術は、ラベルによる類似度の判定で あるため結果が画一的であり、また、ページ内容の類似性に関する考察を反映した 類似度の判定ができない。 [0006] However, since the similar web page search technique described above is a determination of the similarity based on the label, the result is uniform and reflects the consideration on the similarity of the page contents. The similarity cannot be determined.
[0007] そこで、本発明ではページ内容の類似性に関する判断を反映した類似ページ検索 技術を提供可能とすることを目的とする。 [0007] Accordingly, an object of the present invention is to provide a similar page search technique that reflects a determination regarding the similarity of page contents.
課題を解決するための手段 Means for solving the problem
[0008] 以上の課題を解決するための本発明は、クライアントとネットワークを介して通信可 能に接続され、前記クライアントのウェブブラウザ上に表示された第 1のウェブページ に類似するページ情報を、前記クライアントに提供するサーバであって、前記ウェブ ブラウザにおいて利用されるブックマーク情報を複数管理するブックマークデータべ ースと、前記第 1のウェブページの情報を取得する手段と、前記ブックマーク情報に おいて前記第 1のウェブページと同一のフォルダ内に登録されている第 2のウェブべ ージにつ 、て、複数の前記ブックマーク情報における前記同一のフォルダ数を係数 する第 1の計数手段と、前記第 1の計数手段により計数された前記同一のフォルダ数 に基づいて、前記第 1のウェブページと第 2のウェブページとの第 1の類似度を決定 する第 1の類似度決定手段と、決定された前記第 1の類似度の高い順に前記第 2の ウェブページに関する情報を、前記第 1のウェブページに類似するページ情報として 、前記クライアントに送信する送信手段とを備える。 [0008] In order to solve the above problems, the present invention relates to page information similar to a first web page that is connected to a client via a network and is displayed on the web browser of the client. A server provided to the client, comprising: a bookmark database for managing a plurality of bookmark information used in the web browser; means for obtaining information on the first web page; and the bookmark information. A first counting means for multiplying the number of the same folders in the plurality of bookmark information for a second web page registered in the same folder as the first web page; Based on the same number of folders counted by the first counting means, the first web page and the second web page. First similarity determination means for determining the first similarity with the first web page, and information about the second web page in order of the determined first similarity is similar to the first web page The page information includes transmission means for transmitting to the client.
発明の効果 The invention's effect
[0009] 以上のように、本発明によればページ内容の類似性に関する判断を反映した類似 ページ検索技術を提供できる。 [0009] As described above, according to the present invention, it is possible to provide a similar page search technique that reflects a determination regarding similarity of page contents.
図面の簡単な説明 Brief Description of Drawings
[0010] [図 1]本発明の実施形態に対応するシステムの全体構成の一例に対応する図である FIG. 1 is a diagram corresponding to an example of an overall configuration of a system corresponding to an embodiment of the present invention.
[図 2]本発明の実施形態に対応するクライアント 101の構成の一例に対応する図であ る。 FIG. 2 is a diagram corresponding to an example of a configuration of a client 101 corresponding to the embodiment of the present invention.
[図 3]本発明の実施形態に対応するサーバ 103の構成の一例に対応する図である。 FIG. 3 is a diagram corresponding to an example of a configuration of a server 103 corresponding to the embodiment of the present invention.
[図 4A]本発明の実施形態に対応するユーザデータベースの登録内容の一例を示す 図である。 FIG. 4A is a diagram showing an example of registered contents of a user database corresponding to the embodiment of the present invention.
[図 4B]本発明の実施形態に対応するブックマークデータベースの登録内容の一例を 示す図である。 FIG. 4B shows an example of registered contents of the bookmark database corresponding to the embodiment of the present invention. FIG.
[図 4C]本発明の実施形態に対応する画像データベースの登録内容の一例を示す図 である。 FIG. 4C is a diagram showing an example of registration contents of an image database corresponding to the embodiment of the present invention.
[図 5]本発明の実施形態に対応するクライアント 101における画面表示形態の一例を 示す図である。 FIG. 5 is a diagram showing an example of a screen display form in the client 101 corresponding to the embodiment of the present invention.
[図 6]本発明の実施形態に対応するサーバ 103において実行される類似ページ画面 情報の生成'提供処理の一例に対応するフローチャートである。 FIG. 6 is a flowchart corresponding to an example of a similar page screen information generation / provision process executed in the server 103 according to the embodiment of the present invention.
[図 7A]本発明の実施形態に対応するブックマークの構成の一例を示す図である。 FIG. 7A is a diagram showing an example of a bookmark configuration corresponding to the embodiment of the present invention.
[図 7B]本発明の実施形態に対応するブックマークの構成の他の一例を示す図である FIG. 7B is a diagram showing another example of the configuration of the bookmark corresponding to the embodiment of the present invention.
[図 8]本発明の実施形態に対応する類似ポイント Pslを説明するための表である。 FIG. 8 is a table for explaining similar points Psl corresponding to the embodiment of the present invention.
[図 9]本発明の実施形態に対応する類似ポイント Ps2を説明するための表である。 FIG. 9 is a table for explaining similar points Ps2 corresponding to the embodiment of the present invention.
[図 10]本発明の第 2の実施形態に対応する処理のフローチャートである。 FIG. 10 is a flowchart of processing corresponding to the second embodiment of the present invention.
[図 11]本発明の第 2の実施形態に対応する高確率ワードを説明するための表である 発明を実施するための最良の形態 FIG. 11 is a table for explaining a high-probability word corresponding to the second embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
[0011] 以下に、添付する図面を参照して本発明の実施形態を説明する。ただし、この実施 の形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれら のみに限定する趣旨のものではない。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. However, the constituent elements described in this embodiment are merely examples, and are not intended to limit the scope of the present invention.
[0012] <システム構成 > [0012] <System configuration>
図 1は、本実施形態に対応する類似ウェブページの検索システムの全体構成を示 すブロック図である。ユーザが操作してコンテンツの閲覧を行うクライアント 101a、 10 lb、 101c (以下、これらを総称して「クライアント 101」という。)、類似ページの検索を 行うサーバ 103、コンテンツを公開するコンテンツサーバ 107が、それぞれインターネ ット 102に接続されている。また、サーバ 103には、ユーザデータベース 104、ブック マークデータベース 105、画像データベース 106が接続されている。 FIG. 1 is a block diagram showing the overall configuration of a similar web page search system corresponding to this embodiment. Clients 101a, 10 lb, and 101c (hereinafter collectively referred to as “client 101”) that are operated by a user to browse content, a server 103 that searches for similar pages, and a content server 107 that publishes content. Are connected to the Internet 102, respectively. In addition, a user database 104, a bookmark database 105, and an image database 106 are connected to the server 103.
[0013] クライアント 101は、ユーザが操作して、インターネット上に公開されたコンテンツを 閲覧可能な情報処理装置であり、ノートパソコン、デスクトップパソコン、携帯情報端 末、携帯電話等を含む。クライアント 101には、所謂インターネット 'ブラウザのソフトゥ エアがインストールされて 、るものとする。 [0013] The client 101 is an information processing apparatus that can be operated by a user to browse content published on the Internet. Includes mobile phones. It is assumed that the client 101 has so-called Internet browser software installed.
[0014] クライアント 101は、イーサネット(登録商標)等のネットワークケーブルを含むァクセ ス手段である LANによってインターネット 102に接続されている。尚、ネットワーク 10 2へのアクセス手段はイーサネット(登録商標)ケーブルに限定されるものではなぐ 例えば、 RS232Cインタフェースに準じた通信ケーブルや、無線 LAN等の無線通信 手段によって構成されていてもよい。後述するサーバ 103、コンテンツサーバ 107も 同様のアクセス手段を備えて 、るものとする。 [0014] The client 101 is connected to the Internet 102 via a LAN which is an access means including a network cable such as Ethernet (registered trademark). The access means to the network 102 is not limited to an Ethernet (registered trademark) cable. For example, the access means may be constituted by a communication cable conforming to the RS232C interface or a wireless communication means such as a wireless LAN. The server 103 and the content server 107 described later are also provided with similar access means.
[0015] インターネット 102は、世界中のネットワークが互いに接続されたネットワークである 力 例えば、イントラネットのように特定の糸且織内においてのみ接続可能なネットヮー クであってもよい。 [0015] The Internet 102 is a network in which networks all over the world are connected to each other. For example, the Internet 102 may be a network that can be connected only within a specific thread and fabric such as an intranet.
[0016] サーバ 103は、クライアント 101に類似ウェブページの検索サービスを提供する情 報処理装置であり、ユーザデータベース 104、ブックマークデータベース 105、画像 データベース 106に格納されている情報を管理している。サーバ 103は、例えば、 L ANによって、ユーザデータベース 104、ブックマークデータベース 105、画像データ ベース 106に接続されて!ヽる。 The server 103 is an information processing apparatus that provides a similar web page search service to the client 101, and manages information stored in the user database 104, bookmark database 105, and image database 106. The server 103 is connected to the user database 104, the bookmark database 105, and the image database 106 by, for example, LAN.
[0017] ユーザデータベース 104、ブックマークデータベース 105、画像データベース 106 は、それぞれ所定のデータベース ·ソフトウェア力インストールされた情報処理装置で あり、各種データの管理を行う。ユーザデータベース 104は、ユーザの登録情報、ュ 一ザ毎のブックマーク等の情報を管理する。画像データベース 105は、ウェブページ の表示態様における画像を縮小したサムネイル画像データを管理する。 The user database 104, the bookmark database 105, and the image database 106 are information processing apparatuses each installed with a predetermined database and software, and manage various data. The user database 104 manages information such as user registration information and bookmarks for each user. The image database 105 manages thumbnail image data obtained by reducing images in the display mode of the web page.
[0018] コンテンツサーバ 107は、ウェブページ等のコンテンツを提供する情報処理装置で あり、例えば、ウェブサーバ等のソフトウェアがインストールされている。 The content server 107 is an information processing apparatus that provides content such as a web page, and for example, software such as a web server is installed.
[0019] 尚、本明細書では、便宜上、サーバ 103、ユーザデータベース 104、ブックマーク データベース 105及び画像データベース 106は、それぞれ物理的に独立した情報 処理装置によって実現されるものとして説明するが、本発明の実施形態はこれに限ら れるものではない。例えば、これらが単一の情報処理装置によって実現されてもよい 。また、ユーザデータベース 104、ブックマークデータベース 105及び画像データべ ース 106は、サーバ 103と LAN等によって接続されているものとして説明する力 例 えば、インターネット 102や非図示のイントラネット経由でサーバ 103と通信可能な形 態をとつてもよい。 In the present specification, for the sake of convenience, the server 103, the user database 104, the bookmark database 105, and the image database 106 are described as being realized by physically independent information processing apparatuses. The embodiment is not limited to this. For example, these may be realized by a single information processing apparatus. User database 104, bookmark database 105, and image data For example, the server 106 may be connected to the server 103 via a LAN or the like. For example, the server 106 may be configured to be able to communicate with the server 103 via the Internet 102 or an intranet (not shown).
[0020] <情報処理装置の構成 > [0020] <Configuration of information processing apparatus>
次に、本実施形態に対応する類似ウェブページ検索システムを構成する情報処理 装置の概略について説明する。図 2は、クライアント 101のハードウェア構成の一例を 示すブロック図である。上述した情報処理装置としてのユーザデータベース 104、ブ ックマークデータベース 105及び画像データベース 106も、同様或いは同等のハー ドウエア構成として構成しても良い。 Next, an outline of the information processing apparatus constituting the similar web page search system corresponding to the present embodiment will be described. FIG. 2 is a block diagram illustrating an example of the hardware configuration of the client 101. The user database 104, the bookmark database 105, and the image database 106 as the information processing apparatus described above may be configured in the same or equivalent hardware configuration.
[0021] 図 2において、 200は CPUであり、ハードディスク装置(以下、 HDと呼ぶ) 205に格 納されて 、るアプリケーションプログラム、オペレーティングシステム(OS)や制御プロ グラム等を実行し、 RAM202にプログラムの実行に必要な情報、ファイル等を一時 的に格納する制御を行う。 In FIG. 2, reference numeral 200 denotes a CPU, which is stored in a hard disk device (hereinafter referred to as HD) 205 and executes an application program, an operating system (OS), a control program, etc. Control to temporarily store information, files, etc. necessary for execution.
[0022] 201は ROMであり、内部には基本 I/Oプログラム等のプログラム、文書処理の際 に使用するフォントデータ、テンプレート用データ等の各種データを記憶する。 202 は各種データを一時記憶するための RAMであり、 CPU200の主メモリ、ワークエリア 等として機能する。 Reference numeral 201 denotes a ROM that stores therein various data such as a program such as a basic I / O program, font data used for document processing, and template data. 202 is a RAM for temporarily storing various data, and functions as the main memory, work area, etc. of the CPU 200.
[0023] 203は記録媒体へのアクセスを実現するための外部記憶ドライブであり、メディア( 記録媒体) 204に記憶されたプログラム等を本コンピュータシステムにロードすること 力 sできる。尚、メディア 204は、例えば、フレキシブルディスク(FD)、 CD— ROM、 CD R、 CD-RW, PCカード、 DVD, ICメモリカード、 MO、メモリスティック等を利用す ることがでさる。 [0023] 203 is an external storage drive for realizing the access to the recording medium, it can be force s load media (recording medium) 204 a program stored in such in the computer system. As the media 204, for example, a flexible disk (FD), CD-ROM, CDR, CD-RW, PC card, DVD, IC memory card, MO, memory stick, etc. can be used.
[0024] 205は外部記憶装置であり、本実施形態では大容量メモリとして機能する HDを用 いている。 HD205には、アプリケーションプログラム、 OS、制御プログラム、関連プロ グラム等が格納される。 Reference numeral 205 denotes an external storage device, and this embodiment uses an HD that functions as a large-capacity memory. The HD 205 stores application programs, OS, control programs, related programs, and the like.
[0025] 206は指示入力装置であり、キーボードやポインティングデバイス(マウス等)、タツ チパネル等がこれに相当する。指示入力装置 206を用いて、ユーザは、クライアント 1 01に対して、装置を制御するコマンド等を入力指示する。 [0026] 207はディスプレイであり、指示入力装置 206から入力したコマンドや、それに対す るクライアント 101の応答出力等を表示したりするものである。 Reference numeral 206 denotes an instruction input device, which corresponds to a keyboard, a pointing device (such as a mouse), a touch panel, or the like. Using the instruction input device 206, the user instructs the client 101 to input a command or the like for controlling the device. [0026] Reference numeral 207 denotes a display which displays a command input from the instruction input device 206, a response output from the client 101 in response thereto, and the like.
[0027] 209はシステムバスであり、情報処理装置内のデータの流れを司るものである。 20 8はインターフェイス(以下、 IZFという)であり、この IZF208を介して外部装置との データのやり取りを行う。 Reference numeral 209 denotes a system bus, which controls the flow of data in the information processing apparatus. 20 8 is an interface (hereinafter referred to as IZF), and exchanges data with external devices via this IZF208.
[0028] 尚、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の 代替として構成することもできる。 [0028] It should be noted that software that realizes functions equivalent to those of each of the above devices can be configured as an alternative to a hardware device.
[0029] 本実施形態では、メディア 204から本実施形態に係るプログラム及び関連データを 直接 RAM202にロードして実行させる例を示す力 これ以外にも、本実施形態に係 るプログラムを動作させる度に、既にプログラムがインストールされている HD205から RAM202にロードするようにしてもよい。また、本実施形態に係るプログラムを ROM 201に記録しておき、これをメモリマップの一部をなすように構成し、直接 CPU200 で実行することも可能である。 [0029] In the present embodiment, a power indicating an example in which the program and related data according to the present embodiment are directly loaded into the RAM 202 from the medium 204 and executed, in addition to this, every time the program according to the present embodiment is operated. Alternatively, the program may be loaded into the RAM 202 from the HD 205 in which the program is already installed. It is also possible to record the program according to the present embodiment in the ROM 201, configure it as a part of the memory map, and execute it directly by the CPU 200.
[0030] 図 3は、サーバ 103の機器構成を示すブロック図である。 CPU200、 ROM201、 R AM202、外部記憶ドライブ 203、メディア 204、 HD205、指示入力装置 206、ディ スプレイ 207、 I/F208,システムバス 209の機能及び用途、更には、これらの関係 は、図 2を用いて説明したものと同様或いは同等である。図 3では、データベース 310 がシステムバス 209に接続されていることに留意する。ここで、データベース 310は、 ユーザデータベース 104、ブックマークデータベース 105及び画像データベース 10 6を総称するものである。 FIG. 3 is a block diagram showing a device configuration of the server 103. Functions and applications of CPU200, ROM201, RAM202, external storage drive 203, media 204, HD205, instruction input device 206, display 207, I / F 208, system bus 209, and their relationship are shown in Fig. 2. Are the same as or equivalent to those described above. Note that in FIG. 3, database 310 is connected to system bus 209. Here, the database 310 is a generic term for the user database 104, the bookmark database 105, and the image database 106.
[0031] <ユーザデータの構造 > [0031] <User data structure>
図 4Aは、ユーザデータベース 104に格納されているユーザデータの構造の一例を 説明する図である。ユーザデータは、個々のユーザの特徴や属性に関する種々の情 報によって構成される。 FIG. 4A is a diagram for explaining an example of the structure of user data stored in the user database 104. User data is composed of various information related to the characteristics and attributes of individual users.
[0032] 図 4Aにおいて、 401はユーザ IDであり、各ユーザを一意に識別するためにュニー クに与えられた識別子である。 402はパスワードであり、各ユーザが自己の登録情報 にアクセスしたり、ブックマークを利用する際の認証に利用される。 403はユーザの氏 名、 404はユーザのメールアドレス、 405は年齢、 406は性別、 407は、ユーザが活 動又は居住する地域属性、 408は職種、 409は未既婚、 410は住居形態、 411は年 収、 412は自家用車の所有、 413は趣味である。それぞれのデータは予めユーザか ら提供されて、ユーザデータとして登録される。また、上記の内容はユーザデータの 一例として上げたものであって、これら全てが登録されている必要はないし、また、こ れら以外にもユーザを特徴づける情報を登録しても良い。 In FIG. 4A, 401 is a user ID, which is an identifier given to the unique to uniquely identify each user. A password 402 is used for authentication when each user accesses his / her registration information or uses a bookmark. 403 is the user's name, 404 is the user's email address, 405 is the age, 406 is the gender, and 407 is the user's active 408 is occupation type, 409 is unmarried, 410 is residence type, 411 is annual income, 412 is private car ownership, and 413 is hobby. Each data is provided in advance by the user and registered as user data. Further, the above contents are given as an example of user data, and it is not necessary that all of them are registered, and other information that characterizes the user may be registered.
[0033] <ブックマークの構成 > [0033] <Bookmark structure>
本実施形態においてブックマークはユーザにより作成'更新される力 ブックマーク のデータはすべてサーバ 103に接続されたブックマークデータベース 105に各ユー ザ毎に格納されており、ユーザがクライアント 101においてウェブブラウザを起動した 際に、クライアント 101にダウンロードされて、ウェブブラウザ上に表示される。 In this embodiment, the bookmark is created and updated by the user. All bookmark data is stored in the bookmark database 105 connected to the server 103 for each user, and when the user starts a web browser on the client 101. Then, it is downloaded to the client 101 and displayed on the web browser.
[0034] ブックマークは、公知のディレクトリ構造にぉ 、て、 URL (Universal Resource [0034] Bookmarks are stored in a well-known directory structure and URL (Universal Resource
Locator)及び当該 URLを特定のまとまりとして格納するフォルダにより構成される。 即ち、各 URLはユーザごとのディレクトリツリー(以下、ブックマークディレクトリという) の中に登録され、ブックマークディレクトリの直下であっても、任意に作成されたフォ ルダ内にあってもよい。 Locator) and a folder that stores the URL as a specific unit. That is, each URL is registered in a directory tree for each user (hereinafter referred to as a bookmark directory) and may be directly under the bookmark directory or in a folder created arbitrarily.
[0035] 図 4Bは、ブックマーク内に登録された URLに関する情報の管理の一例を示す図で ある。図 4Bにおいて、 421は、当該ブックマークを利用するユーザの IDが登録される 。これによりユーザとブックマークとの対応をとることができる。 422は登録対象となる 各 URLである。図 4Bでは、 URLそのものを登録する場合を記載している力 さらに U RLデータベースを用意して、全ての URLを統一的に管理しても良い。その場合には 、各 URLに固有の識別番号 (ID)が付されることとなるので、図 4Bに示す URL422 の欄には URLの識別番号を登録すればょ 、。 [0035] FIG. 4B is a diagram illustrating an example of management of information related to a URL registered in a bookmark. In FIG. 4B, ID 421 of the user who uses the bookmark is registered. Thereby, the correspondence between the user and the bookmark can be taken. 422 is each URL to be registered. In Fig. 4B, the power describing the case of registering the URL itself. Furthermore, a URL database may be prepared to manage all URLs in a unified manner. In that case, a unique identification number (ID) will be attached to each URL. Therefore, register the URL identification number in the URL 422 field shown in Fig. 4B.
[0036] 423は各 URLに与えられたブックマーク名である。このブックマーク名 423は、ユー ザがブックマーク登録する際に、任意に設定した名称であっても良いし、当該ページ に本来割り当てられている名称であっても良い。 424は、 URLに対応するページが作 成された日時を示し、 425は、当該 URLが最新に更新された日時を示し、 426は、ュ 一ザが最新にそのページを参照した日時を示し、 427は、ユーザによるそのページ の参照回数が、それぞれ登録されている。 428は、当該ページの縮小画像 (サムネィ ル画像)の格納先 (画像データベース 105における格納場所)が登録されている。こ の格納先 428は、後述する画像データベース 106の構成の仕方に応じて URL422 に識別番号が登録される場合には省略しても良い。 [0036] Reference numeral 423 denotes a bookmark name given to each URL. The bookmark name 423 may be a name arbitrarily set when the user registers the bookmark, or may be a name originally assigned to the page. 424 indicates the date and time when the page corresponding to the URL was created, 425 indicates the date and time when the URL was most recently updated, 426 indicates the date and time when the user last referenced the page, In 427, the number of times the user refers to the page is registered. 428 is a reduced image of the page (thumbnail (Storage location in the image database 105) is registered. This storage location 428 may be omitted when an identification number is registered in the URL 422 according to the configuration of the image database 106 described later.
[0037] ここで、サーバ 103は、ブックマーク登録されている各ページの更新を定期的に監 視して、更新があった場合には 423の更新日時の内容を更新する。また、更新後の ページの縮小画像を生成して、画像データベース 105に格納されている対応する縮 小画像の内容を更新する。 Here, the server 103 periodically monitors the update of each page registered as a bookmark, and updates the contents of the update date and time 423 when there is an update. Further, a reduced image of the updated page is generated, and the contents of the corresponding reduced image stored in the image database 105 are updated.
[0038] <画像データベースの構成 > [0038] <Image database configuration>
画像データベース 106は、ブックマークデータベース 105に登録されている URLに 対応するページの縮小画像を登録して!/、る。 The image database 106 registers the reduced image of the page corresponding to the URL registered in the bookmark database 105! /.
[0039] 例えば画像データベース 106は図 4Cのように構成される。ここで、「Z:¥」はルートデ ィレクトリであり、ルートディレクトリの直下にフォルダ「image0001」、「image0002」及び「 image0041」が登録されており、各フォルダ内に、 JPEG形式の画像データ「001.jpg」,「 031.jpg」及び「005.jpg」が格納されている。このようにディレクトリ構造において、ぺー ジの縮小画像データが画像データベース 106内に格納されているので、ブックマー クデータベース 105では、リンク情報を登録しておくだけで、登録されている URLに対 応する縮小画像を一意に特定することができる。 For example, the image database 106 is configured as shown in FIG. 4C. Here, `` Z: ¥ '' is the root directory, and folders `` image0001 '', `` image0002 '' and `` image0041 '' are registered directly under the root directory, and JPEG image data `` 001. “jpg”, “031.jpg”, and “005.jpg” are stored. As described above, in the directory structure, the reduced image data of the page is stored in the image database 106. Therefore, in the bookmark database 105, it is possible to correspond to the registered URL simply by registering the link information. A reduced image to be identified can be uniquely specified.
[0040] なお、画像データベース 106は、 URL422に識別番号を登録する場合であれば、 画像データのファイル名として対応する URLの識別番号をそのまま利用して、適当 なファイル数を単位にフォルダ内に格納しておくだけでも実現できる。例えば、 1000 0ファイル毎に 1フォルダに画像を格納することにすれば、 URLの識別番号「10000 . jpg」力ら「19999. jpg」までをフォルダ名「10000」のフォルダに格納することがで きる。また、この場合、図 4Bにおける画像格納先 428をブックマークデータベース 10 5に持たせる必要がなくなり、対応する縮小画像は URL422に登録されている識別 番号と一致するファイル名を有する画像を探索することにより特定できる。 [0040] If the identification number is registered in the URL 422, the image database 106 uses the identification number of the corresponding URL as the file name of the image data as it is, and stores it in the folder in units of an appropriate number of files. It can be realized just by storing it. For example, if an image is stored in one folder for every 1000 files, URL identification numbers “10000 .jpg” and “19999.jpg” can be stored in a folder with a folder name “10000”. wear. In this case, the bookmark database 105 does not need to have the image storage location 428 in FIG. 4B, and the corresponding reduced image is searched by searching for an image having a file name that matches the identification number registered in the URL 422. Can be identified.
[0041] 画像データベース 106に登録されている画像データは、ユーザのクライアント 101 においてウェブブラウザが起動された際にブックマーク中に表示されても良いが、本 発明の実施形態では、ウェブブラウザにメインで表示されて ヽるページに類似するぺ ージをユーザに提示する際に利用される。 [0041] The image data registered in the image database 106 may be displayed in the bookmark when the web browser is started in the user client 101. However, in the embodiment of the present invention, the image data is mainly stored in the web browser. A page similar to the page that appears and speaks. This is used when presenting the page to the user.
[0042] <表示画面例 > [0042] <Display screen example>
本実施形態におけるクライアントにおけるウェブブラウザの表示形態の一例は図 5 に示すようになる。 An example of the display form of the web browser in the client in this embodiment is as shown in FIG.
[0043] 図 5において 500は、ブラウザ画面全体を示す。通常、ウェブブラウザにはメニュー バーやボタンが設けられている力 図 5ではそれらを省略し、ウェブページが表示さ れる部分のみの表示例を記載している。画面 500は、ユーザが主として閲覧している ページ(以下、「メインページ」という。)を表示するための第 1の領域 501と当該メイン ページに類似するページ (以下、「類似ページ」という。)の縮小画像を表示するため の第 2の領域 502とに分割される。第 2の領域 502に表示される画面情報を、以下、 類似ページ画面情報という。なお、画面 500内の領域を分割する形態は図 5に示す 形態に限定されず、例えば画面 500内の上側、下側、右側のいずれかの領域に第 2 の領域を設けても良い。 In FIG. 5, reference numeral 500 denotes the entire browser screen. Normally, web browsers have menu bars and buttons. In Figure 5, these are omitted, and a display example of only the part where web pages are displayed is shown. The screen 500 includes a first area 501 for displaying a page mainly viewed by the user (hereinafter referred to as “main page”) and a page similar to the main page (hereinafter referred to as “similar page”). It is divided into a second area 502 for displaying a reduced image. The screen information displayed in the second area 502 is hereinafter referred to as similar page screen information. The form in which the area in the screen 500 is divided is not limited to the form shown in FIG. 5, and the second area may be provided in any one of the upper, lower, and right areas in the screen 500, for example.
[0044] 図 5において、第 1の領域 501には、「ゆうひ銀行」のページが表示されている。第 2 の領域 502は、類似ページ 504が表示されると共に、画面をスクロールするためのス クロールボタン 503が表示されている。このスクロールボタン 503の操作により、第 2 の領域 502に表示されているページの縮小画像を任意にスクロールすることができる In FIG. 5, a page of “Yuhi Bank” is displayed in the first area 501. In the second area 502, a similar page 504 is displayed, and a scroll button 503 for scrolling the screen is displayed. By operating the scroll button 503, the reduced image of the page displayed in the second area 502 can be arbitrarily scrolled.
[0045] また、各縮小画像はユーザのマウス操作に基づく選択を受け付けることができ、例 えば、「ABC銀行」と記載されたページ 504がクリック選択された場合には、当該ぺー ジ 504が第 1の領域 501に表示される。 [0045] Each reduced image can accept a selection based on a user's mouse operation. For example, when a page 504 described as "ABC bank" is click-selected, the page 504 is displayed as the first page. Displayed in area 1 501 of 1.
[0046] このように、本発明によれば第 1の領域 501に表示されたページに類似するページ の情報を視覚的に提供して、ユーザが関心を有するであろうページを随時提供して いくことができる。 [0046] As described above, according to the present invention, information on a page similar to the page displayed in the first area 501 is visually provided, and a page that the user may be interested in is provided at any time. I can go.
[0047] <類似ページ画面情報を提供するための処理 > [0047] <Process for providing similar page screen information>
次に、サーバ 103からクライアント 101に対して第 1の領域 501に表示されて 、るメ インページに類似するページの情報 (類似ページ画面情報)を提供するための処理 について具体的に説明する。 [0048] 図 6は、サーバ 103において実行される類似ページ画面情報の生成'提供処理の 一例に対応するフローチャートである。 Next, a process for providing the page information similar to the main page (similar page screen information) displayed in the first area 501 from the server 103 to the client 101 will be specifically described. FIG. 6 is a flowchart corresponding to an example of the generation / provision processing of similar page screen information executed in the server 103.
[0049] ステップ S601では、第 1の領域に表示されているメインページの情報を取得する。 In step S601, information on the main page displayed in the first area is acquired.
ここで取得する情報はメインページが特定できる情報で有れば何でもよぐユーザの ブックマークに既に登録されて 、る情報であればブックマーク名 423でもよ!/、し、 UR The information to be acquired here is information that can be specified by the main page. If it is already registered in the user's bookmark, it can be the bookmark name 423! /, UR
Lであってもよい。 L may be sufficient.
[0050] なお、メインページの情報を取得するために、サーバ 103とクライアント 101間では 定期的に通信を行っており、クライアント側で第 1の領域 501に表示されたメインべ一 ジの内容が変更されると、クライアント 101からサーバ 103へ新たなメインページに関 する情報が通知される。また、クライアント 101がユーザからメインページの指定を受 け付け、指示の受け付けに応じてサーバ 103ヘメインページの情報を送信してもよい 。この場合は、ブラウザに類似ページの検索ボタンなどを配置しておき、当該検索ボ タンの操作により、その時点においてメインページとして表示されているページの類 似ページの画面情報の提供依頼を受け付けることができる。 [0050] Note that the server 103 and the client 101 regularly communicate with each other in order to obtain the information on the main page, and the contents of the main page displayed in the first area 501 are displayed on the client side. When changed, the client 101 notifies the server 103 of information about the new main page. In addition, the client 101 may receive the main page designation from the user, and transmit the main page information to the server 103 in response to accepting the instruction. In this case, a search button for similar pages is arranged in the browser, and a request for provision of screen information of a similar page of the page currently displayed as the main page is accepted by operating the search button. Can do.
[0051] 次に、ステップ S602においてサーバ 103は、ブックマークデータベース 105に登 録されているユーザのブックマークについて、ステップ S601において特定されたメイ ンページの情報が登録されているブックマークを検索する。 [0051] Next, in step S602, the server 103 searches the bookmarks of the user registered in the bookmark database 105 for bookmarks in which the main page information specified in step S601 is registered.
[0052] 例えば、メインページとして「ゆうひ銀行」のページが表示されていた場合を考えると 、このページを登録しているブックマークが検索されることになる。図 7A及び図 7Bは 、ブックマークの登録の一例をユーザ A (図 7A)とユーザ B (図 7B)という、類似ぺー ジ画面情報の提供を依頼したユーザとは別の所定のユーザについて示した図である For example, considering a case where a page of “Yuhi Bank” is displayed as the main page, a bookmark that registers this page is searched. Figures 7A and 7B are diagrams showing an example of bookmark registration for user A (Figure 7A) and user B (Figure 7B), which are different from the user who requested the provision of similar page screen information. Is
[0053] 図 7Aでは、「ゆうひ銀行」のページの URL「www.yuuhi.com」がブックマークに登録 されていることが分かる。一方、図 7Bでは、銀行という名称のフォルダ内も含めて「ゆ うひ銀行」のページが登録されていない。従って、このような場合にはユーザ Aのブッ クマークのみが目的のブックマークに相当し、ユーザ Bのブックマークは目的のブック マークには相当しな 、こととなる。 In FIG. 7A, it can be seen that the URL “www.yuuhi.com” of the page of “Yuhi Bank” is registered in the bookmark. On the other hand, in FIG. 7B, the page of “Yuhi Bank” is not registered, including the folder named “Bank”. Therefore, in such a case, only the bookmark of user A corresponds to the target bookmark, and the bookmark of user B does not correspond to the target bookmark.
[0054] 次に、ステップ S603では、ステップ S602において見つかった全てのブックマーク につ 、て、メインページが登録されて 、るフォルダ内の他のページの情報を各ユー ザ毎に取得する。 [0054] Next, in step S603, all bookmarks found in step S602 are displayed. Therefore, the main page is registered, and information on other pages in the folder is acquired for each user.
[0055] 例えば、図 7Aに示すブックマークにおいて、「ゆうひ銀行」の URLは「銀行」という 名称のフォルダ内に登録されている。従って、ステップ S603において、ユーザ Aに ついてはフォルダ名「銀行」内に登録されている他のページの情報が取得される。こ こで、メインページの URLがルートの直下に登録されている場合には、同様にルート 直下に直接登録されているページを取得することができる。 For example, in the bookmark shown in FIG. 7A, the URL of “Yuhi Bank” is registered in a folder named “Bank”. Therefore, in step S603, for user A, information on other pages registered in the folder name “bank” is acquired. Here, if the URL of the main page is registered directly under the root, the page registered directly under the root can be obtained in the same way.
[0056] ステップ S604では、ステップ S603において抽出された他のページの情報のそれ ぞれにつ 、て、格納されて 、たフォルダ数に基づ 、て順位付けを行う。 [0056] In step S604, ranking is performed on the basis of the number of folders stored and stored for each of the information on the other pages extracted in step S603.
[0057] 例えば、図 7Aのユーザ Aのブックマークには「www.abcbank.co.jp」との URLを有す る ABC銀行が登録されている。この ABC銀行が、図 7A及び図 7Bには示されない他 のユーザ Cやユーザ Dのブックマークでも「ゆうひ銀行」と同一フォルダ内に登録され ていた場合には、少なくとも ABC銀行が格納されていたフォルダ数は 3となる。このよ うにして「ゆうひ銀行」と同一フォルダに格納されているページの登録総数を、各ぺー ジ毎に算出する。 [0057] For example, ABC bank having the URL "www.abcbank.co.jp" is registered in the bookmark of user A in FIG. 7A. If this ABC bank was registered in the same folder as “Yuhi Bank” in the bookmarks of other users C and D not shown in FIGS. 7A and 7B, at least ABC bank was stored. The number of folders is 3. In this way, the total number of registered pages stored in the same folder as “Yuhi Bank” is calculated for each page.
[0058] ステップ S605では、ステップ S604において得られた結果に基づいて、他のページ 情報についてメインページとの類似度を表す類似ポイント Pslを算出する。ここで、類 似ポイント Pslは、ポイント数が高 、ほどメインページとの類似度が高 、ことを示す。 In step S605, based on the result obtained in step S604, a similar point Psl representing the degree of similarity with the main page for other page information is calculated. Here, the similarity point Psl indicates that the higher the number of points, the higher the similarity with the main page.
[0059] 類似ポイント Pslの具体例を図 8を参照して説明する。図 8は、メインページと同一 フォルダ内に登録されていた他のページについて算出された登録フォルダ数及び類 似ポイント Pslの一例を示す表である。図 8において、 801は当該他のページの UR Lであり、 802は対応する URLが登録されているフォルダ数であり、 803は、当該フォ ルダ数に基づいて算定された類似ポイント Pslである。 [0059] A specific example of the similar point Psl will be described with reference to FIG. FIG. 8 is a table showing an example of the number of registered folders and similar points Psl calculated for other pages registered in the same folder as the main page. In FIG. 8, 801 is the URL of the other page, 802 is the number of folders in which the corresponding URL is registered, and 803 is the similar point Psl calculated based on the number of folders.
[0060] 図 8では、類似ポイント Pslを単純に登録フォルダ数と一致させている力 登録フォ ルダ数の多い順に重み付けをしても良い(即ち、登録フォルダ数が 1位の場合には、 フォルダ数に 1. 5を乗じた結果とし、 2位の場合には 1. 4を乗ずるといったようにして 類似ポイント Pslを算出する。 ) 0このような重み付けは、例えば類似ページを複数の 類似ポイントの合計により決定しょうとする場合に有効である。以上により、まず類似 ポイント Pslが決定される。 [0060] In FIG. 8, the power of simply matching the similar point Psl with the number of registered folders may be weighted in descending order of the number of registered folders (that is, when the number of registered folders is 1st, Calculate the similar point Psl by multiplying the number by 1.5 and multiply it by 1.4 if it is in the second place.) 0 Such weighting is for example similar pages to multiple similar points This is effective when trying to determine the total. First, similar Point Psl is determined.
[0061] 次に、ステップ S606では、メインページが登録されたフォルダ名を全てのブックマ ークについて抽出する。即ち、図 7Aの場合には、「ゆうひ銀行」が登録されているフ オルダ名は「銀行」であるから、ユーザ Aについてはフォルダ名「銀行」が抽出される。 [0061] Next, in step S606, the folder names in which the main page is registered are extracted for all the bookmarks. That is, in the case of FIG. 7A, since the folder name where “Yuhi Bank” is registered is “bank”, the folder name “bank” is extracted for user A.
[0062] ステップ S607では、抽出されたフォルダ名の数、即ち、各フォルダ名が使用されて いるフォルダ数をポイント Pfとして算出する。例えば、「ゆうひ銀行」をフォルダ名「銀 行」のフォルダに登録して 、たユーザが 50人!、るとすれば、ポイント Pfは「50」とする ことができる。 In step S607, the number of extracted folder names, that is, the number of folders in which each folder name is used is calculated as a point Pf. For example, if “Yuhi Bank” is registered in the folder named “Bank” and there are 50 users !, the point Pf can be set to “50”.
[0063] ステップ S608では、ポイント Pfが所定の閾置 TMより大きいフォルダ名について、 当該フォルダ名をキーワードとしてインターネット検索を行う。この検索は汎用の検索 エンジンを使用して行うことができる。また、検索は、複数の異なる検索エンジンを利 用して行うことが好ましい。閾置 TMは、ユーザデータベース 104に登録されているュ 一ザ数、言い換えれば登録されているブックマークの数に応じて決定される。また、 閾置を設定せずにポイント Pfの大きい順に上位の所定数 (例えば、 10、 50、 100等) のフォルダ名をキーワードとしてもよ!/、。 [0063] In step S608, an Internet search is performed using the folder name as a keyword for a folder name whose point Pf is greater than the predetermined threshold TM. This search can be performed using a general purpose search engine. The search is preferably performed using a plurality of different search engines. The threshold TM is determined according to the number of users registered in the user database 104, in other words, the number of bookmarks registered. Also, without setting a threshold, you can use as a keyword the folder name of the top number (for example, 10, 50, 100, etc.) in descending order of point Pf! /.
[0064] ステップ S609では、フォルダ名をキーワードに設定して行った検索結果にリストさ れたページのうち、他のページ (即ちメインページ以外)の情報を抽出し、ページがリ ストされた順番を利用して重み付けを行って、類似ポイント Ps2を算出する。 [0064] In step S609, information on other pages (that is, other than the main page) is extracted from the pages listed in the search results set with the folder name as a keyword, and the order in which the pages are listed. Weighting is used to calculate the similarity point Ps2.
[0065] 図 9は、利用可能な複数の検索エンジンのうち所定の検索エンジンを使って所定の キーワードによる検索を行い、類似ポイント Ps2を算出するための具体例を説明する ための表である。図 9において 901は、検索のためのキーワードとして利用されるフォ ルダ名である。ここでは「銀行」と「金融」の 2つの場合を例に挙げて記載している。 90 2は、それぞれのキーワード 901において検索を行った場合に、検索結果にリストさ れた URLである。 903は対応する URLが検索結果にお!、てリストされた順位を示し ている。例えば、「www.abcbank.co.jp」の URLが与えられている ABC銀行は、所定 の検索エンジンで、キーワードを「銀行」とした場合には検索結果の 1番目にリストされ たので、リスト順位 903が「1」となる力 「金融」をキーワードとした場合には 3番目にリ ストされたのでリスト順位 903は「3」となる。 [0066] 次に、 904は、各キーワードに対する重みを表す。この重み 904は、ステップ S607 において算出されたポイント Pfをそのまま利用しても良いし、ポイント Pfを更に重み付 けを与えるなどして処理した結果を利用しても良い。いずれにしても、ポイント Pfの値 を反映する値が利用される。図 9の場合、「銀行」の名称が最も多くフォルダ名として 使用されていたとして、キーワード重み 904として「100」が与えられている。また、「金 融」名称は、銀行ほどではないが、それなりにフォルダ名として使用されていたので、 キーワード重み 904として「60」が与えられて!/、る。 FIG. 9 is a table for explaining a specific example for calculating a similar point Ps2 by performing a search with a predetermined keyword using a predetermined search engine among a plurality of available search engines. In FIG. 9, 901 is a folder name used as a keyword for search. Here, two cases of “bank” and “finance” are listed as examples. 90 2 is a URL listed in the search result when a search is performed for each keyword 901. Reference numeral 903 indicates the order in which the corresponding URL is listed in the search result! For example, ABC Bank, which is given the URL “www.abcbank.co.jp”, is listed first in the search results when the keyword is “Bank” for a given search engine. The power that ranks 903 becomes “1” When “finance” is a keyword, it is listed third, so list rank 903 is “3”. Next, 904 represents the weight for each keyword. As the weight 904, the point Pf calculated in step S607 may be used as it is, or a result obtained by processing the point Pf by further weighting may be used. In any case, a value that reflects the value of point Pf is used. In the case of FIG. 9, “100” is given as the keyword weight 904, assuming that the name “bank” is the most frequently used as the folder name. Also, although the name of “financial” is not as large as that of a bank, it was used as a folder name as it is, so “60” is given as keyword weight 904! /.
[0067] 次に、 905は順位重みであり、各検索結果においてリストされた順番に応じて与え られる重みが登録されている。図 9の場合、 1位から 9位までは 10から 2までの重みが 与えられ、 10位以降はすべて重みが 1となる。よって、 ABC銀行はキーワード「銀行」 において 1位であったので、順位重み 905として「10」が与えられ、キーワード「金融」 では 3位であったので順位重み 905として「8」が与えられて!/、る。 [0067] Next, reference numeral 905 denotes a rank weight, and a weight given according to the order listed in each search result is registered. In the case of Fig. 9, the weights from 10 to 2 are given from 1st to 9th, and the weight is 1 after 10th. Therefore, ABC Bank was ranked first in the keyword “Bank”, so “10” was given as the ranking weight 905, and “3” was given in the keyword “Finance”, so “8” was given as the ranking weight 905. ! /
[0068] 次に 906は、類似ポイント Ps2'の算出結果が示されている。類似ポイント Ps2'は、 単純に、キーワード重み 904 X順位重み 905により求めることができる。よって、 ABC 銀行の場合、キーワード「銀行」については、 Ps2, = 1000、キーワード「金融」につ ヽては、 Ps2,=480となる。 [0068] Next, reference numeral 906 denotes the calculation result of the similar point Ps2 '. The similarity point Ps2 ′ can be obtained simply by keyword weight 904 X rank weight 905. Therefore, in the case of ABC Bank, the keyword “bank” is Ps2, = 1000, and the keyword “finance” is Ps2, = 480.
[0069] なお、図 9は所定の検索エンジンについての場合を説明したものであって、これ以 外の検索エンジンを利用した場合にも、各検索エンジン毎に図 9のような情報に基づ いて類似ポイント Ps2,を算出することとなる。 Note that FIG. 9 illustrates the case of a predetermined search engine. Even when a search engine other than this is used, each search engine is based on the information shown in FIG. Therefore, the similar point Ps2 is calculated.
[0070] そして、ステップ S609において求められる類似ポイント Ps2は、各 URLについて算 出された類似ポイント Ps2'の合計として与えられる。 [0070] Then, the similar point Ps2 obtained in step S609 is given as the sum of the similar points Ps2 'calculated for each URL.
[0071] ステップ S610では、ステップ S605及びステップ S609において算出された類似ポ イント Pslと Ps2とを換算して、最終的な類似ポイント PSを算出して、メインページと類 似度が高 、他のページを決定する。 [0071] In step S610, the similar points Psl and Ps2 calculated in step S605 and step S609 are converted to calculate the final similar point PS, and the similarity to the main page is high. Determine the page.
[0072] ステップ S611では、ステップ S610で類似度が高いと決定されたページの順に、類 似ページ画面情報を各ページの縮小情報を利用して生成し、クライアントに送信する [0072] In step S611, similar page screen information is generated using the reduction information of each page in the order of pages determined to have a high similarity in step S610, and is transmitted to the client.
[0073] なお、本実施形態では、類似ページの情報を類似ページ画面情報として、各べ一 ジの縮小画像を含む情報としてクライアント 101に提供することとしているが、類似べ ージの情報を提供する際の形態としては、必ずしも画像によらずに、ページ名や、 U RLのみ、或いはページ内容の概要を記載するテキスト等によって行っても良い。に よって行っても良い。 In this embodiment, similar page information is used as similar page screen information. The information is provided to the client 101 as information including a reduced image of the page, but the form for providing similar page information is not necessarily based on the image, only the page name, URL, or page. You may carry out by the text etc. which describe the outline | summary of the content. You may do this.
[0074] 以上のように、本実施形態に対応する本発明によれば、ウェブブラウザ上に表示さ れているページと類似するページの情報が同一画面上に表示されるので、ユーザは 自分の関心のあるページを容易に探し出すことができ、情報収集の効率を飛躍的に 向上させることができる。 As described above, according to the present invention corresponding to the present embodiment, information on a page similar to the page displayed on the web browser is displayed on the same screen. You can easily find the pages you are interested in, which can dramatically improve the efficiency of information collection.
[0075] また、現在自分が見ているページと似たような他のページをみたいが、適切にキー ワードを選択して検索を行うことが不得手なユーザも、現在見ているページと類似す るページが提供されるので、容易にウェブサーフィンを楽しむことができ、ユーザーの 利便性を飛躍的に向上させることができる。 [0075] Also, users who want to see other pages that are similar to the page they are currently viewing, but who are not good at selecting keywords appropriately, are similar to the pages they are currently viewing. This provides an easy-to-use web surfing service that can dramatically improve user convenience.
[0076] 更に、本願発明はブックマークが有する特性を利用して類似ページを決定すること ができる。このことは以下に記載するような格別の効用をもたらすものである。 [0076] Furthermore, the present invention can determine similar pages using the characteristics of bookmarks. This brings about a special utility as described below.
[0077] 通常、ブックマークに基本的なページが登録されればそのバリエーション的なぺー ジはあまり登録されないものである。例えば、ある親会社のページを登録しているュ 一ザは、その子会社や関連会社のページを登録するよりも、同業他社のページを登 録する可能性の方が高い。即ち、ユーザが複数の異なるページをブックマーク内の 同一フォルダに登録しょうとする場合、各ページ間には、親会社と子会社、或いは親 会社と関連会社といった社会的な関係よりも、ページが有するコンテンツ自体の共通 性や類似性がより高い可能性で存在することとなる。従って、本発明のように、ブック マークにおける登録内容を利用して類似ページを決定する場合には、メインページと 類似ページとの間には、コンテンツ自体の共通性や類似性がより強調されたものとな り、ページ内容の類似性に関する判断を反映した類似ページ検索技術を提供するこ とがでさる。 [0077] Normally, if a basic page is registered in a bookmark, its variational page is not often registered. For example, a user who registers a page for a parent company is more likely to register pages for other companies in the same industry than to register pages for their subsidiaries and affiliates. In other words, when a user tries to register multiple different pages in the same folder in a bookmark, the content of the page itself is more important than the social relationship such as parent company and subsidiary or parent company and affiliated company. This means that there is a higher possibility of commonality and similarity. Therefore, when the similar page is determined using the registered contents in the bookmark as in the present invention, the commonality or similarity of the content itself is more emphasized between the main page and the similar page. Therefore, it is possible to provide similar page search technology that reflects the judgment on the similarity of page contents.
[0078] なお、上記の第 1の実施形態では、類似ポイント Pslと Ps2とを利用して、類似ぺー ジを決定する場合について説明した力 当然のことながら Pslと Ps2のいずれか一方 だけを利用して類似ページを決定してもよ ヽ。 [0079] [第 2の実施形態] [0078] In the first embodiment described above, the force described in the case where the similar page is determined using the similar points Psl and Ps2, naturally, only one of Psl and Ps2 is used. You may decide similar pages. [0079] [Second Embodiment]
上記の第 1の実施形態では、類似ページを決定するために 2通りの算出方法によつ て算出した類似ポイント Pslと Ps2を利用したが、本実施形態では、上記の類似ボイ ントに加えて、以下に記載する算出方法に基づいて類似ポイント Ps3を更に算出して 、 Psl— Ps3の合計により類似ページを決定することができる。 In the first embodiment described above, similar points Psl and Ps2 calculated by two calculation methods are used to determine a similar page. In this embodiment, in addition to the similar points described above, Based on the calculation method described below, the similar point Ps3 is further calculated, and the similar page can be determined by the sum of Psl−Ps3.
[0080] 図 10は、本実施形態に対応する類似ポイントの算出処理のフローチャートである。 FIG. 10 is a flowchart of the similarity point calculation process corresponding to the present embodiment.
[0081] 図 10において、ステップ S1001は、図 6のステップ S601における処理と同等であり 、図 5の第 1の領域に表示されているメインページの情報を取得する。続くステップ S 1002では、受け付けたメインページ内に記載されたワードのうち、当該ワードをキー ワードとしてインターネット検索を実行した場合に、当該メインページがヒットする確率 の高いワード (以下、「高確率ワード」という。)を決定する。このような高確率ワードは 、ページ内の記載について形態素解析を行ってワードを抽出し、各ワードについて 含有率やフォントサイズ、レイアウト位置等に基づ 、てポイント付けを行ってポイントの 高 、順に確率が高 、ワードとして決定できる。 In FIG. 10, step S1001 is equivalent to the processing in step S601 of FIG. 6, and acquires information on the main page displayed in the first area of FIG. In the subsequent step S 1002, a word with a high probability of hitting the main page (hereinafter referred to as a “high probability word”) when the Internet search is executed using the word as a keyword among the words described in the accepted main page. "). Such high-probability words are extracted by performing morphological analysis on the description in the page, and by assigning points to each word based on the content rate, font size, layout position, etc. Probability is high and can be determined as a word.
[0082] 例えば、図 11に示すように、メインページ 1101を「www.yuuhi.com」の「ゆうひ銀行」 とすると、「銀行」、「金融」、「BANK」といったワード 1103が高いポイント 1104を獲 得しているので、これらのワード 1103が高確率ワードに該当し、キーワード検索に用 いられることとなる。ここで各ワード 1103が持っているポイント 1104は、後のキーヮー ド検索時にヒットした各ページに対する重み付けに使用することができる。 For example, as shown in FIG. 11, if the main page 1101 is “Yuhi Bank” of “www.yuuhi.com”, the word 1103 such as “Bank”, “Finance”, “BANK” is a high point 1104 These words 1103 correspond to high-probability words and are used for keyword searches. Here, the point 1104 of each word 1103 can be used for weighting each page hit in the subsequent keyword search.
[0083] ステップ S 1003では、ステップ S 1003において決定された高確率ワードをキーヮー ドとして、インターネット検索を行う。 In step S 1003, an Internet search is performed using the high probability word determined in step S 1003 as a keyword.
[0084] さらにステップ S 1004では、ステップ S 1003におけるインターネット検索の結果に 従 、、リストされたページに各キーワードに対応する重み付けを行って順位を付け、 類似ポイント Ps3を算出する。 Further, in step S 1004, according to the result of the Internet search in step S 1003, the listed pages are ranked by weighting corresponding to each keyword, and the similar point Ps 3 is calculated.
[0085] 例えば、「銀行」をキーワードとした場合には、図 9に示したものと同様の検索結果 が得られるはずであるが、類似ポイント Ps3を算出する場合、本実施形態では図 9の 904におけるキーワード重みが図 11のポイント 1104に対応する「90」となる点で異な る。本ステップにおいても、ステップ S609と同様にして、キーワードを利用して検索を 行った各検索エンジン毎、検索結果にリストされた各ページについて、ステップ S902 にお 、て決定されたのキーワード重みと、検索結果における順位重みとを掛け合わ せて類似ポイント Ps3が算出される。 [0085] For example, when “bank” is used as a keyword, a search result similar to that shown in FIG. 9 should be obtained. However, in the case of calculating the similar point Ps3, in the present embodiment, FIG. The difference is that the keyword weight in 904 is “90” corresponding to point 1104 in FIG. In this step as well as step S609, search using keywords is performed. For each of the search engines that have been performed, for each page listed in the search results, the similarity point Ps3 is calculated by multiplying the keyword weight determined in step S902 by the rank weight in the search results.
[0086] 以上のようにして、類似ポイント Ps3を求めることができる。ここで求めた Ps3は、第 1 の実施形態における Psl、Ps2と同等にメインページと他のページとの類似度を判定 するために利用することができるので、当該類似度を Psl力 Ps3までの合計により 判定することができる。この結果得られた類似ページの情報は、第 1の実施形態と同 様にしてユーザに提供することができる。 As described above, the similar point Ps3 can be obtained. Since Ps3 obtained here can be used to determine the similarity between the main page and other pages in the same way as Psl and Ps2 in the first embodiment, the similarity is calculated up to Psl force Ps3. Judgment can be made based on the total. Information on similar pages obtained as a result can be provided to the user in the same manner as in the first embodiment.
[0087] 以上のように、本実施形態に対応する本発明によれば、ウェブブラウザ上にメイン に表示されているページと共通の情報を包含するページを類似ページとして抽出し て、ユーザに提供することができるので、ユーザは自分の関心のあるページを容易に 探し出すことができ、情報収集の効率を飛躍的に向上させることができる。 [0087] As described above, according to the present invention corresponding to the present embodiment, a page including information common to the page displayed mainly on the web browser is extracted as a similar page and provided to the user. As a result, the user can easily find the page that he / she is interested in, and the efficiency of information collection can be greatly improved.
[0088] [第 3の実施形態] [0088] [Third embodiment]
上記第 1及び第 2の実施形態では、メインページに類似すると判定されたページの 情報を何らフィルタリングすることなくユーザに提供する場合を説明したが、例えば類 似ページとして提供されたページの中には既にユーザがブックマーク登録して 、る ページも存在する可能性がある。このような場合、ユーザは何らの新たな情報の提供 も受けることができな 、ので、情報収集の効率が上がらな 、。 In the first and second embodiments described above, a case has been described in which information on a page determined to be similar to the main page is provided to the user without any filtering. For example, in a page provided as a similar page There is a possibility that there is also a page that the user has already registered as a bookmark. In such a case, the user cannot receive any new information, so the efficiency of information collection cannot be improved.
[0089] そこで、本実施形態では、予めブックマークに登録されているページ以外のページ を類似ページとして優先的に提供することが可能な発明について説明する。 Therefore, in the present embodiment, an invention that can preferentially provide a page other than a page registered in advance as a bookmark as a similar page will be described.
[0090] メインページを参照しているユーザのブックマーク情報は、ブックマークデータべ一 ス 105に登録されているので、サーバ 103は、当該ブックマーク情報に含まれるぺー ジ情報を、図 6及び図 10における処理対象から除外して各処理を実行する。 [0090] Since the bookmark information of the user referring to the main page is registered in the bookmark database 105, the server 103 displays the page information included in the bookmark information in FIG. 6 and FIG. Exclude from processing target and execute each processing.
[0091] 例えば、 Psl及び Ps2、又は、 Psl、 Ps2及び Ps3の合計により類似度が最終的に 決定された後に、ユーザに提供するページ情報の中から、ブックマークに既に登録 済みのページを除外すればよい。或いは、図 6のステップ S609及び図 10のステップ S 1004におけるインターネット検索において、検索結果としてリストされたページのう ち、ブックマークに登録済みのページを除外して、類似ポイント Ps2及び Ps3を算出 しても良い。また、ブックマークに登録済みのページを除外せずに、ユーザに提供す る際の表示順序を後ろに回すように、表示順をソートするだけでも良い。 [0091] For example, after the similarity is finally determined by the sum of Psl and Ps2, or the sum of Psl, Ps2 and Ps3, pages already registered in the bookmark are excluded from the page information provided to the user. That's fine. Alternatively, in the Internet search in step S609 in FIG. 6 and step S1004 in FIG. 10, out of the pages listed as search results, the pages registered in the bookmark are excluded, and similar points Ps2 and Ps3 are calculated. You may do it. It is also possible to sort the display order so that the display order when providing to the user is reversed, without excluding the pages registered in the bookmark.
[0092] なお、ブックマーク中に参照履歴としてユーザが最近参照したページの履歴を格納 している場合には、当該履歴に残っているページを処理対象から除外して類似ぺー ジを決定しユーザに提供することもできる。この場合も、履歴に残っているページを除 外せずに、ユーザに提供する際の表示順序を後ろに回すように表示順をソートする だけでも良い。 [0092] When the history of the page that the user has recently referred to is stored as the reference history in the bookmark, the page remaining in the history is excluded from the processing target and a similar page is determined and the user is notified. It can also be provided. In this case as well, it is sufficient to sort the display order so that the display order when providing to the user is reversed, without excluding the pages remaining in the history.
[0093] 以上のように、本実施形態によれば、ユーザがブックマークに登録しているページ や、既に参照したことのあるページを類似ページに対し、ユーザに未知のページを 優先的に提供することが可能となる。 [0093] As described above, according to the present embodiment, an unknown page is preferentially provided to a user with respect to a similar page of a page registered by a user or a page that has already been referred to. It becomes possible.
[0094] [第 4の実施形態] [0094] [Fourth Embodiment]
上記第 3の実施形態では、ブックマークなどの登録情報によりフィルタリングをかけ る場合にっ 、て説明した力 ユーザデータに基づ 、たフィルタリングも可能である。 In the third embodiment, when filtering is performed using registration information such as a bookmark, filtering based on the force user data described above is also possible.
[0095] 具体的に、ユーザデータベース 105には、全てのユーザについて年齢 405、性別 4 06、地域属性 407、職種 408、趣味 413等が格納されている。メインページを参照し ているユーザを、例えば 20代の男性で、パソコンの自作を趣味としていると仮定する と、同じく 20代の男性で趣味がパソコン関連のユーザのブックマークのみを対象とし て処理を行えば、同じような嗜好を有するユーザがブックマークに登録しているぺー ジは、当該メインページを参照しているユーザにとっても有用である可能性が非常に 高いので、有効な結果が得られる可能性が高い。 Specifically, the user database 105 stores age 405, sex 40, area attribute 407, occupation 408, hobby 413, etc. for all users. Assuming that the user referring to the main page is a male in his twenties, for example, and his / her hobby is making a personal computer. If this is done, pages that are registered in bookmarks by users with similar preferences are very likely to be useful to users browsing the main page, so effective results can be obtained. High nature.
[0096] また、居住地域が異なれば、その地域ごとに必要となる情報も異なってくる場合が ある。例えば、食べ歩きを趣味とするユーザであっても、九州地方に居住するユーザ と北海道に居住するユーザとでは、ブックマークに登録する内容も自ずと異なってく るし、一方の情報が他方にとって必ずしも有用ではない。このような場合には地域属 性 407を利用することで、地域ごとに探索範囲を限定してユーザにより有効な類似べ ージの情報を提供することができる。 [0096] Also, if the residential area is different, the information required for each area may be different. For example, even if a user has a hobby of eating and drinking, the contents registered in bookmarks are naturally different for users living in the Kyushu region and users living in Hokkaido, and one information is not always useful for the other. Absent. In such a case, by using the regional attribute 407, the search range can be limited for each region, and information on similar pages that are more effective for the user can be provided.
[0097] そこで、本実施形態では、ユーザデータベース 105に登録されたユーザの情報に 基づいて、類似ポイントを算出する際に利用するブックマークを制限することで、ユー ザにより好ま 、類似ページを提供することが可能な発明につ 、て説明する。 Therefore, in the present embodiment, the user's information registered in the user database 105 is used to restrict the bookmarks used when calculating the similar points, thereby limiting the user. An invention that is more preferable to users and that can provide similar pages will be described.
[0098] まず、メインページを参照しているユーザのユーザデータは、ユーザデータベース 1 04に登録されているので、サーバ 103は、当該ユーザデータに含まれる情報 (例え ば、年齢 405、性別 406、地域属性 407、趣味 413等)の中から、所定の情報を選択 し、当該選択された情報と共通の情報を有するユーザをユーザデータベース 104に おいて絞り込む。このようにして予めユーザを絞り込んだ上で、図 6のステップ S602 やステップ S606における処理を実行する。 [0098] First, since the user data of the user who is referring to the main page is registered in the user database 104, the server 103 receives information (for example, age 405, gender 406, Predetermined information is selected from the regional attributes (407, hobbies 413, etc.), and users having information common to the selected information are narrowed down in the user database 104. In this way, after narrowing down the users in advance, the processing in step S602 and step S606 in FIG. 6 is executed.
[0099] これにより、類似ポイントを算出するために利用されるブックマークの情報は、メイン ページを参照しているユーザと特定の関連性を有するユーザのものに限定されること となり、当該関連性を利用した類似ページの探索が可能となる。 [0099] As a result, the bookmark information used to calculate the similarity points is limited to those of users who have a specific relationship with the user who is referring to the main page. Search for similar pages used.
[0100] 以上のように、本実施形態によれば、ユーザ間の所定の関連性を利用して類似べ ージを探索することが可能となるので、ユーザにとってより有用なページの情報を提 供することが可能となる。 [0100] As described above, according to the present embodiment, it is possible to search for a similar page using a predetermined relationship between users, and thus it is possible to provide more useful page information for the user. It becomes possible to provide.
[0101] [その他の実施形態] [0101] [Other Embodiments]
以上の処理 (例えば上記図 6や図 10に示したフローチャートに従った処理等)をプ ログラムとして CD— R、 ROMや DVD— ROM、 MO等の記憶媒体に記憶させ、この 記憶媒体に記憶されて 、るプログラムをコンピュータに読み込ませる (インストール、 もしくはコピーさせる)ことで、このコンピュータは以上の処理を行うことができる。よつ て、この記憶媒体も本発明の範疇にあることは明白である。 The above processing (for example, processing according to the flowcharts shown in FIGS. 6 and 10 above) is stored as a program in a storage medium such as a CD-R, ROM, DVD-ROM, or MO, and is stored in this storage medium. By loading (installing or copying) this program into the computer, this computer can perform the above processing. Therefore, it is clear that this storage medium is also within the scope of the present invention.
Claims
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2004/014616 WO2006038282A2 (en) | 2004-10-04 | 2004-10-04 | Server and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2004/014616 WO2006038282A2 (en) | 2004-10-04 | 2004-10-04 | Server and computer program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2006038282A2 true WO2006038282A2 (en) | 2006-04-13 |
Family
ID=36142930
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2004/014616 Ceased WO2006038282A2 (en) | 2004-10-04 | 2004-10-04 | Server and computer program |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2006038282A2 (en) |
-
2004
- 2004-10-04 WO PCT/JP2004/014616 patent/WO2006038282A2/en not_active Ceased
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11669493B2 (en) | Generating file usage information | |
| JP5572596B2 (en) | Personalize the ordering of place content in search results | |
| JP5276015B2 (en) | Presenting local results | |
| US9002894B2 (en) | Objective and subjective ranking of comments | |
| US8260774B1 (en) | Personalization search engine | |
| JP5425140B2 (en) | System and method for providing search results | |
| JP5133984B2 (en) | Input candidate providing device, input candidate providing system, input candidate providing method, and input candidate providing program | |
| US20180004850A1 (en) | Method for inputting and processing feature word of file content | |
| US8639687B2 (en) | User-customized content providing device, method and recorded medium | |
| CN102782676A (en) | Online search based on geotagging recommendations | |
| JP2007507801A (en) | Personalized web search | |
| JP4283466B2 (en) | Document arrangement method based on link relationship | |
| JP2011257786A (en) | Document retrieval system, information processor, document retrieval method and program | |
| JP2007219722A (en) | Document retrieval server and document retrieval method | |
| JP4445849B2 (en) | File search method, file search device, and file search program | |
| JP4571648B2 (en) | WEB information providing apparatus, method thereof, and program | |
| JP4527770B2 (en) | Information retrieval apparatus, computer program, and storage medium | |
| KR101449994B1 (en) | Method for providing retrieval service according to user preference | |
| WO2006038282A2 (en) | Server and computer program | |
| JP2006235875A (en) | Information navigation method, apparatus and program | |
| JP4679484B2 (en) | Advertisement distribution method and advertisement distribution apparatus for distributing advertisements matching image data | |
| JP2011227572A (en) | Browsing terminal and method | |
| JP2011022724A (en) | Website information provision device and website information provision program | |
| JP2006236365A (en) | Document arrangement method based on link relationship | |
| JP2006221663A (en) | Document arrangement method based on link relationship |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| AK | Designated states |
Kind code of ref document: A2 Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW |
|
| AL | Designated countries for regional patents |
Kind code of ref document: A2 Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
| NENP | Non-entry into the national phase in: |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase | ||
| NENP | Non-entry into the national phase in: |
Ref country code: JP |