FR2840088A1 - Moteur de recherche et base de donnees, et procedes pour leur mise en oeuvre - Google Patents
Moteur de recherche et base de donnees, et procedes pour leur mise en oeuvre Download PDFInfo
- Publication number
- FR2840088A1 FR2840088A1 FR0306287A FR0306287A FR2840088A1 FR 2840088 A1 FR2840088 A1 FR 2840088A1 FR 0306287 A FR0306287 A FR 0306287A FR 0306287 A FR0306287 A FR 0306287A FR 2840088 A1 FR2840088 A1 FR 2840088A1
- Authority
- FR
- France
- Prior art keywords
- pages
- page
- commercial
- resulting
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 80
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000001914 filtration Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 4
- 238000010899 nucleation Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
L'invention concerne les recherches sur Internet.Elle se rapporte à un moteur de recherche et une base de données distribuée qui comprennent un dispositif de mémoire qui comporte un cache Internet(112), et un index internet (116), un appareil de calcul qui comporte un programme de recherche sur Internet (110), un organe d'indexation (114), un générateur de score transactionnel (118), et un organe (120) d'affectation de catégorie, un serveur de recherche (124), et une interface d'utilisateur (122) communiquant avec le serveur de recherche. Le cache Internet (112) a une dimension d'au moins 30 téraoctets environ, et l'index Internet(116) d'au moins 5 téraoctets environ.Application au classement des résultats de recherches sur Internet.
Description
<Desc/Clms Page number 1>
La présente invention concerne un procédé et un appareil de classement et de présentation de documents d'une base de données distribuée.
Le transfert d'informations par les réseaux d'ordinateurs est devenu de plus en plus important pour les institutions, entreprises et individus participant aux affaires.
Les réseaux d'ordinateurs ont grandi au cours des années d'entités indépendantes et isolées établies pour les besoins d'un seul groupe à de vastes réseaux d'interconnexion de réseaux physiques disparates, leur permettant de fonctionner de manière coordonnée. Actuellement, le plus grand réseau d'ordinateurs existant est Internet. Internet est une interconnexion mondiale de réseaux d'ordinateurs qui communiquent à l'aide d'un protocole commun. Des millions d'ordinateurs, allant des ordinateurs personnels peu puissants à des superordinateurs extrêmement puissants, sont connectés à Internet.
Internet s'est révélé être une grande communauté d'utilisateurs connectés électroniquement dans le monde entier et qui échangent facilement et régulièrement de grandes quantités d'informations. Internet continue à remplir sa fonction originale d'accès aux informations et d'échange d'informations entre les agences gouvernementales, les laboratoires et les universités dans des buts de recherche et d'éducation. En outre, Internet est utilisé pour divers intérêts et forums qui s'étendent bien au-delà des buts d'origine. En particulier, Internet se transforme rapidement en un marché électronique global pour les marchandises et les services aussi bien que pour les idées et les informations.
Cette transformation d' Internet en une place de marché globale a été provoquée en grande partie par l'introduction de protocoles courants tels que HTTP ("HyperText Transfer Protocol) et TCP/IP (Transmission Control Protocol/Internet Protocol) qui facilitent la publication et l'échange d'informations. Internet est ainsi une base de données distribuée unique destinée à donner un large accès à un grand univers de documents publiés à partir d'un nombre
<Desc/Clms Page number 2>
illimité d'utilisateurs et de sources. Les enregistrements de base de données d'Internet sont sous forme de documents connus sous le nom de "pages" ou de collection de pages connues sous le nom de "sites". Les pages et les sites se trouvent sur des serveurs et sont accessibles à l'aide des protocoles courants. Internet est donc une vaste base de données d'informations dispersées sur des systèmes d'ordinateurs individuels pratiquement innombrables, qui changent constamment et ne possèdent pas d'organisation centralisée.
Les ordinateurs connectés à Internet peuvent avoir accès à des pages par un programme appelé navigateur qui possède une interface d'utilisateur puissante et d'apprentissage simple, habituellement sous forme graphique, permettant à tout ordinateur connecté à Internet d'être à la fois un éditeur et un consommateur d'informations. Une autre technique puissante autorisée par les navigateurs est l'utilisation des hyperliens qui permet aux auteurs de pages de créer des liens vers d'autres pages que les utilisateurs peuvent récupérer par des commandes simples, par exemple par pointage et clic dans le navigateur. Ainsi, chaque page existe dans une connexion de pages sémantiquement liées car chaque page peut être à la fois une cible et une source d'hyperliens, et cette aptitude à la connexion peut être capturée dans une certaine mesure par mappage et comparaison des relations entre les hyperliens. En outre, les pages peuvent être construites avec des syntaxes très diverses, par exemple le langage à balises à hypertexte HTML ou le langage à balises extensible XML, et peuvent comprendre un contenu d'informations multimédia, par exemple graphiques, d'audiofréquences et d'images fixes et animées.
Comme toute personne possédant un ordinateur et une connexion à Internet peut publier sa propre page sur Internet et avoir accès à toute autre page disponible publiquement, Internet permet un modèle de production et de consommation d'informations du type plusieurs-à-plusieurs qui n'est pas possible ou utilisable en pratique dans le monde déconnecté. Des services efficaces de recherche, comprenant des moteurs de recherche, constituent une partie
<Desc/Clms Page number 3>
importante de ce modèle plusieurs-à-plusieurs permettant au consommateur d'informations d'identifier rapidement et de manière fiable des pages concernées parmi une masse de pages semblables non pertinentes. Etant donné l'utilisation d'un tel modèle plusieurs-à-plusieurs, une présence sur Internet permet l'introduction d'une base mondiale d'ordinateurs pour les entreprises, les individus et les institutions cherchant à faire la publicité de leurs produits et services auprès des consommateurs qui sont des clients potentiels. En outre, la sophistication croissante de la conception des pages, rendue possible par la croissance exponentielle des vitesses de transmission des données, des vitesses de traitement des ordinateurs et des fonctionnalités des navigateurs font d'Internet un milieu de plus en plus attrayant pour faciliter et exécuter les transactions commerciales ainsi que pour la publicité concernant ces transactions et leur réalisation. Comme Internet permet l'identification directe des entreprises et des clients ciblés et leur connexion, il peut constituer un support efficace puissant pour la publicité.
La disponibilité de nouveaux outils puissants qui facilitent le développement et la distribution du contenu Internet (qui comprend des informations de toutes sortes, de toutes formes et de tous formats) a conduit à une prolifération d'informations, de produits et de services offerts par Internet et une croissance considérable du nombre et de la nature des consommateurs utilisant Internet.
International Data Corporation (IDC) a estimé que le nombre d'utilisateurs d'Internet était d'environ 320 millions dans le monde à la fin de l'année 2002. En outre, le commerce réalisé par Internet a augmenté et on pense qu'il continuera à augmenter considérablement. IDC estime que le pourcentage des utilisateurs d'Internet achetant des marchandises et des services par Internet atteint 40 % en 2002 et que la valeur totale des marchandises et services achetés par Internet est d'environ 425,7 milliards de dollars.
Ainsi, Internet s'est révélé être un support nouveau et attrayant pour que des annonceurs d'informations, de produits et de services ("annonceurs") atteignent les
<Desc/Clms Page number 4>
consommateurs de manière générale, mais il donne aussi d'excellentes possibilités d'identification et de ciblage de groupes spécifiques de consommateurs en fonction de leurs préférences, de leurs caractéristiques et de leur comportement. Cependant, Internet est composé d'un nombre illimité de sites dispersés parmi des millions de systèmes différents d'ordinateurs dans le monde si bien que les annonceurs sont confrontés à la tâche décourageante de localiser et de cibler des groupes ou sous-groupes spécifiques de consommateurs qui sont potentiellement intéressés par leurs informations, produits et/ou services.
Les annonceurs mettent en oeuvre des services de recherche pour faciliter la localisation des sites d'annonceurs par les consommateurs. Les services de recherche, qui comprennent des répertoires et des moteurs de recherche, ont été mis au point pour l'indexation et la recherche d'informations disponibles sur Internet et pour aider ainsi les utilisateurs, y compris les consommateurs, à localiser les informations, produits et services intéressants. Ces services de recherche permettent aux utilisateurs, y compris les consommateurs, de rechercher sur Internet un listage des sites d'après un sujet, produit ou service intéressant déterminé par des mots-clés spécifiques, qui peuvent être décrits par les utilisateurs dans leur propre langage. Comme les services de recherche sont l'outil le plus fréquemment utilisé par Internet après la messagerie électronique, les sites présentant des services de recherche permettent aux annonceurs d'avoir un accès important à l'audience d'Internet et permettent de cibler les intérêts des consommateurs d'après des requêtes de recherche par mot-clé ou sujet.
Les services de recherche sont en général créés par les fournisseurs de moteur de recherche qui étudient électroniquement les pages d'Internet et créent un index et une base de données en fonction de cette étude. Les fournisseurs de moteurs de recherche peuvent offrir directement des services de recherche aux consommateurs, ou peuvent donner des services de recherche à un tiers qui fournit alors les services
<Desc/Clms Page number 5>
de recherche aux consommateurs. Habituellement, les bases de données sont créées par recherche dans Internet et exécution d'une copie locale de chaque page ou aspect d'une page dans un dispositif de mémoire ou par collecte des soumissions des fournisseurs de pages ("pages résultantes"). L'ensemble peut comprendre un contenu statique et/ou dynamique, qu'il s'agisse de textes, d'images, de données d'audiofréquences, de données vidéo ou d'images fixes. Dans une variante, certains aspects seulement des pages peuvent être copiés, tels que l'adresse URL, le titre ou le texte. Chaque page résultante est indexée pour permettre une référence ultérieure. Ainsi, lorsqu'une recherche sur Internet est demandée par un utilisateur, le moteur de recherche ne recherche pas en réalité dans Internet en temps réel, mais recherche plutôt dans son propre index et sa base de données pour trouver les pages résultantes ("résultats de recherche" ou "listages"). Les résultats de la recherche sont alors présentés à l'utilisateur sous forme de copies des pages réelles ou d'une liste de pages qui peuvent être atteintes par un hyperlien.
De nombreux moteurs de recherche connus utilisent une technologie de recherche automatique pour cataloguer les résultats des recherches qui mettent en oeuvre en général des descriptions invisibles des sites appelées "méta- étiquettes" dont les auteurs sont les promoteurs du site.
Comme les annonceurs peuvent librement placer de telles étiquettes ou ont déjà placé de telles étiquettes à leur site d'une manière librement choisie, de nombreuses pages ont des méta-étiquettes semblables, si bien que la difficulté de la création de résultats de recherche pertinents est accrue. En outre, la plupart des moteurs de recherche mettent en oeuvre leur propre hiérarchie de catégories sémantiques pour le classement des pages indexées. Il existe une approche de classement par catégorie de haut en bas dans laquelle les catégories sont liées sémantiquement indépendamment de leur nature commerciale ou non. En conséquence, les moteurs de recherche connus n'assurent pas un classement personnalisable de bas en haut des résultats de recherche
<Desc/Clms Page number 6>
d'après la nature commerciale et la pertinence de la page ou du site.
En outre, certains annonceurs et d'autres promoteurs de sites insèrent dans les méta-étiquettes de leur site des termes de recherche populaires qui n' ont rien à voir avec leurs pages, si bien que ces pages peuvent attirer l'attention de consommateurs supplémentaires avec un coût marginal faible ou nul. De telles pages donnent de nombreux résultats indésirables et sont appelées "pages spam". En général, ces pages sont appelées "spam" lorsqu'elles comprennent un mécanisme d'un type quelconque destiné à prendre en faute les moteurs de recherche et/ou les algorithmes de classement de pertinence et peuvent aussi rediriger les utilisateurs vers des sites qui ne sont pas pertinents pour la recherche originale de l'utilisateur. De nombreux de ces mécanismes et techniques existent et comprennent, à titre non limitatif, l'incorporation de méta-étiquettes qui ne reflètent pas la nature véritable de la page. Habituellement, les pages spam sont de nature commerciale. Ainsi, elles cherchent à vendre quelque chose aux utilisateurs.
De nombreux moteurs de recherche connus ne sont pas équipés pour classer les résultats par ordre de priorité d'après les préférences des consommateurs. Les moteurs de recherche connus ne permettent pas non plus la détermination du fait que chaque page d'une liste est de nature commerciale et le classement de la liste en fonction de la nature commerciale de chaque page. Lorsque cette opération est effectuée, les résultats de recherche peuvent être traités pour donner une organisation plus utile suivant l'intention de l'utilisateur (qu'il souhaite effectuer une transaction commerciale ou rechercher des informations) pour déclencher la recherche. Par exemple, un consommateur qui recherche des informations sur un sujet déterminé peut souhaiter faire la distinction entre les pages qui sont essentiellement de nature d'informations des pages qui sont essentiellement de nature commerciale. Dans un autre exemple, un consommateur peut souhaiter distinguer les pages qui sont essentiellement de nature commerciale et
<Desc/Clms Page number 7>
pertinentes pour la requête du consommateur, des pages indésirables ou spam.
En outre, dans les moteurs de recherche connus, un consommateur qui souhaite localiser un site pour l'achat de marchandises ou de services se voit aussi présenter un très grand nombre de sites qui peuvent concerner l'article mais qui ne facilitent pas l'achat de cet article. De même, les consommateurs intéressés uniquement par la localisation de sites d'informations sur un article se voient aussi présenter de nombreux sites commerciaux pour l'achat de l'article qui peuvent ne pas donner les informations qu'ils recherchent. En conséquence, les pages de résultats voulues par l'utilisateur sont cachées parmi un grand nombre de pages qui ne correspondent pas au but final du consommateur car les moteurs de recherche connus ne peuvent pas distinguer l'intention du consommateur dans la recherche ni la nature commerciale ou non des résultats de la recherche.
Ainsi, les moteurs de recherche connus ne constituent pas un moyen efficace pour que les utilisateurs puissent classer le type de résultats de recherche qu'ils souhaitent, sous forme d'informations ou de publicité, ou pour que les annonceurs puissent maîtriser leur exposition et cibler leur distribution d'informations aux consommateurs intéressés.
Les paradigmes actuels de présentation des résultats de recherche ne distinguent pas page à page les sources d'informations de type purement informationnel ou commercial, et mélangent au contraire les deux types de résultats suivant uniquement la pertinence qui est affectée en fonction de la requête originale de l'utilisateur.
Des procédés connus utilisés par les annonceurs pour maîtriser leur exposition et cibler leur distribution, tels que la publicité par bannières, correspondent aux paradigmes publicitaires traditionnels et n'utilisent pas les attributs originaux du modèle de publication plusieurs-à-plusieurs d'Internet. En outre, dans la mesure où des publicités par bannières figurent dans les résultats de recherche, il est fréquent qu'elles n'attirent pas l'intérêt du consommateur
<Desc/Clms Page number 8>
car le consommateur observe les résultats de recherche directement dans la page, sans rechercher une bannière.
Ainsi, les paradigmes traditionnels liés à la publicité sur Internet et aux moteurs de recherche ne permettent pas un classement efficace et une distribution des informations pertinentes aux tiers intéressés de manière peu coûteuse et en temps voulu. En conséquence, les consommateurs doivent trier manuellement tous les résultats de recherche pour localiser finalement le type de résultat (commercial ou non) qui les intéresse. Comme la publicité sur Internet peut offrir cependant un niveau de possibilités de ciblage, d'interactivité et de mesure qui n'est pas disponible en général avec d'autres médias, la possibilité de classer et de présenter clairement des ensembles identifiés de résultats commerciaux et non commerciaux augmente la satisfaction du client et facilite l'augmentation du rendement économique par réduction de l'importance du tri manuel par les utilisateurs.
Dans un cas idéal, les annonceurs doivent pouvoir accroître leur visibilité dans une liste de résultats de recherche sur Internet de manière que leurs pages non seulement apparaissent de façon proéminente dans la liste, mais aussi ne soient pas masquées par une multitude d'autres pages non commerciales (voir notamment le brevet des EtatsUnis d'Amérique n 6 269 361). Les consommateurs doivent pouvoir aussi recevoir des résultats de recherche classés de manière fiable et présentés clairement sous forme d'informations ou de publicités. En l'absence d'un dispositif fiable permettant la distinction entre les pages commerciales et non commerciales, les moteurs de recherche connus ne peuvent pas exploiter le véritable potentiel de l'approche d'un marché ciblé rendu possible par Internet.
Ainsi, la fonctionnalité d'un moteur de recherche sur Internet doit être focalisée dans une nouvelle direction pour faciliter l'utilisation d'une place de marché en ligne qui donne au consommateur des résultats de recherche rapides, pertinents et personnalisables tout en donnant simultanément aux annonceurs un moyen fiable, vérifiable et
<Desc/Clms Page number 9>
peu coûteux de ciblage de consommateurs et de localisation des produits et services d'annonceurs dans un listage. Un consommateur qui utilise un moteur de recherche qui facilite l'utilisation de cette place de marché en ligne détermine des sociétés et entreprises qui offrent les produits ou services que cherche le consommateur sans le distraire par des pages non commerciales. En outre, lorsque l'utilisateur cherche des ressources purement d'informations, il n'est pas encombré par les pages spam ou des pages commerciales non pertinentes.
La présente invention a donc pour objet la mise à disposition d'un système et d'un procédé d'examen et de classement d'enregistrements dans une base de données distribuée sous forme d'enregistrements commerciaux ou non commerciaux, et la présentation de ces enregistrements à la suite d'une requête soumise à des règles définies par l'utilisateur de la base de données ou par le réseau.
L'invention a aussi pour objet la mise à disposition des utilisateurs d'un moteur de recherche personnalisable qui permet aux utilisateurs d'organiser les listes de résultats de recherche d'après la nature commerciale du résultat de recherche, tout en permettant à l'utilisateur de spécifier des règles de présentation d'après des catégories et des préférences d'utilisateur.
L'invention a aussi pour objet la mise à disposition des consommateurs de services de recherche d'un moteur de recherche personnalisable qui permet à chaque consommateur de services de moteur de recherche d'organiser les listes de résultats de recherche d'après la nature commerciale du résultat de recherche, tout en permettant au consommateur du service de moteur de recherche de spécifier les règles de présentation des résultats de recherche d'après des catégories et des préférences du consommateur.
L'invention a aussi pour objet la mise à disposition d'un système et d'un procédé permettant à des fournisseurs de services de moteur de recherche ou des utilisateurs de tels services de spécifier dynamiquement l'importance des divers critères de transaction et des diverses valeurs de
<Desc/Clms Page number 10>
seuil pour la création d'une échelle flexible de valeurs qui dépend de la nature commerciale de l'enregistrement afin qu'un indice transactionnel soit affecté, avec en conséquence une désignation de chaque enregistrement comme étant commercial ou non commercial.
L'invention a aussi pour objet la mise à disposition d'un système et d'un procédé de classement et de présentation des résultats de recherche par combinaison d'un indice transactionnel avec un score de qualité et un score de spam afin qu'un score commercial soit affecté, les résultats étant ensuite rangés ou classés en fonction d'un tel score.
L'invention a aussi pour objet un système et un procédé de classement de documents dans une base de données distribuée pour la création de documents classés par supposition initiale d'une nature non commerciale de tous les documents, par séparation par filtrage de tous les documents commerciaux et disposition de ceux-ci dans une première catégorie, et par utilisation de la première catégorie comme collection de prospects d'annonceurs d'un moteur de recherche à paiement pour la performance.
L'invention a aussi pour objet un système et un procédé peu coûteux de gestion du fonctionnement d'un moteur de recherche à paiement pour la performance par création automatique de directives de vente par classement initial de pages sous forme commerciale ou non commerciale, puis par classement des pages commerciales sous forme de directives de vente ou de consommateurs existants.
L'invention a aussi pour objet la mise à disposition d'un système et d'un procédé de classement d'enregistrements dans une base de données distribuée pour l'identification d'enregistrements commerciaux et la comparaison de ces enregistrements à des listes d'un moteur de recherche à paiement pour la performance afin que les enregistrements commerciaux soient en outre classés sous forme d'annonceurs participants ou d'annonceurs non participants.
L'invention a aussi pour objet la mise à disposition d'un système et d'un procédé de création de directives de
<Desc/Clms Page number 11>
vente destinés aux annonceurs d'un moteur de recherche à paiement pour la performance, par organisation et présentation d'enregistrements commerciaux non participants au personnel commercial des moteurs de recherche à paiement pour la performance en fonction de critères spécifiés dynamiquement.
On décrit maintenant des procédés de création de documents classés, de classement de documents dans une base de données distribuée et de classement de pages résultantes.
On décrit aussi un appareil de recherche dans une base de données distribuée.
Le procédé de création de documents classés comprend de façon générale la supposition initiale du fait que tous les documents sont du type 1, la séparation par filtrage de tous les documents de type 2 et leur disposition dans une première catégorie, la séparation par filtrage de tous les documents de type 3 et leur disposition dans une seconde catégorie, et la détermination de tous les documents restants comme étant des documents de type 4, et la disposition de tous les documents de type 4 dans une troisième catégorie.
Le procédé de classement de documents dans une base de données distribuée comprend de façon générale la supposition du fait que tous les documents de la base de données distribuée sont de nature non commerciale, la séparation par filtrage de tous les documents qui sont de nature commerciale à partir des documents, d'une manière telle que les documents qui sont de nature commerciale sont des documents commerciaux, et la création de directives de vente à partir des documents commerciaux. Dans un mode d'exécution de ce procédé, les documents sont des pages et la base de données distribuée est Internet.
Un procédé de classement de pages résultantes en catégories comprend de façon générale la désignation d'une première catégorie comme étant formée de pages commerciales et d'une seconde catégorie comme étant formée de pages d'informations, la détermination d'un score de qualité q(wi) pour chaque page résultante, la détermination d'un indice
<Desc/Clms Page number 12>
transactionnel pour chaque page résultante #(wi), la dérivation d'une matrice de propagation P, la détermination d'un score commercial K pour chaque page résultante, la séparation par filtrage de toutes les pages résultantes qui correspondent à une valeur de seuil de score commercial ou la dépassent, dans lequel les pages résultantes qui correspondent à la valeur de seuil de pages commerciales ou la dépassent sont disposées dans la première catégorie et toutes les pages résultantes restantes sont disposées dans la seconde catégorie.
Un autre procédé de classement de plusieurs pages résultantes en catégories comprend de façon générale la détermination du fait que chacune des pages résultantes est une page spam, la détermination d'un score de qualité q(wi) pour chaque page de l'ensemble de pages résultantes, la détermination d'un indice transactionnel #(wi) pour chaque page d'un ensemble de pages résultantes, la dérivation d'une matrice de propagation P, la détermination d'un score commercial x pour chaque page de l'ensemble de pages résultantes, la séparation par filtrage de toutes les pages commerciales, y compris les pages spam, de l'ensemble des pages résultantes, la séparation par filtrage de toutes les pages spam des pages commerciales y compris les pages spam, la disposition de toutes les pages commerciales dans une catégorie commerciale, et la disposition de toutes les pages résultantes restantes dans une catégorie d'informations.
Un procédé de recherche dans une base de données distribuée comporte de façon générale (a) la saisie de termes ou expressions de recherche dans un système, (b) la création de documents contenant des mots-clés qui correspondent aux termes ou expressions de recherche, (c) le classement des résultats de recherche en catégories en fonction des critères de classement pour la création de documents classés, et (d) la présentation des documents classés.
On décrit aussi dans le présent mémoire un moteur de recherche et une base de données convenant à une base de données distribuée, comprenant de façon générale au moins un dispositif de mémoire qui comprend au moins un cache
<Desc/Clms Page number 13>
Internet et un index Internet, un appareil de calcul qui comprend un programme de recherche sur Internet en communication avec le cache Internet et Internet, un organe d'indexation qui communique avec l'index Internet et le cache Internet, un générateur de scores transactionnels communiquant avec le cache Internet, et un organe d'affectation de catégories qui communique avec le cache Internet, un serveur de recherche communiquant avec le cache Internet et l'index Internet, et une interface d'utilisateur communiquant avec le serveur de recherche.
D'autres caractéristiques et avantages de l'invention seront mieux compris à la lecture de la description qui va suivre d'exemples de réalisation, faite en référence aux dessins annexés sur lesquels : la figure 1A est un schéma de classement d'une page dans un mode de réalisation de l'invention ; la figure 1B est un schéma de classement de page dans un autre mode de réalisation de l'invention ; la figure 2 est un ordinogramme illustrant le fonctionnement d'un système de détermination du fait qu'une page est une page commerciale, dans un mode d'exécution de l'invention ; la figure 3 est un ordinogramme d'un système de détermination d'un indice transactionnel d'une page dans un mode d'exécution de l'invention ; la figure 4 est un ordinogramme illustrant le fonctionnement d'un système de création d'une matrice de propagation dans un mode d'exécution de l'invention ; la figure 5 est un ordinogramme illustrant le fonctionnement d'un système de classement personnalisé de résultats de recherche dans un mode d'exécution de l'invention ; la figure 6 est un ordinogramme illustrant le fonctionnement d'un système donnant des résultats de recherche personnalisés et assurant la présentation de ces résultats dans un mode d'exécution de l'invention ; la figure 7 est un ordinogramme illustrant le fonctionnement d'un système d'automatisation de la collecte des directives de vente pour le personnel de vente du moteur de
<Desc/Clms Page number 14>
recherche de performances dans un mode d'exécution de l'invention ; et la figure 8 est un schéma d'un appareil de classement et d'affichage de résultats de recherche dans un mode de réalisation de l'invention.
On décrit un procédé et un appareil d'identification de documents dans une base de données distribuée. Un mode d'exécution met en oeuvre une heuristique d'identification de page de nature commerciale, permettant la formation d'un système et d'un procédé de classement dynamique et de présentation à la fois de pages commerciales et de pages d'informations en temps réel pour un annonceur, un fournisseur d'un moteur de recherche ou un utilisateur. Ce système peut être utilisé dans tout contexte dans lequel il est utile de classer des résultats de recherche d'après la nature commerciale de ces pages, et il peut être utilisé sous une multitude de formes allant d'un programme complémentaire de navigateur à une application séparée pour un outil de moteur de recherche ou de moteur de recherche principal. En outre, le système peut être utilisé pour donner des avantages opérationnels originaux à un fournisseur de moteur de recherche à paiement pour la performance par automatisation d'une partie du cycle de vente et autorisation de la réalisation d'un environnement de gestion de comptes par collaboration entre les annonceurs et un fournisseur de moteur de recherche à paiement pour la performance.
Les ensembles distincts de résultats de recherche de pages commerciales et de pages d'informations renvoyés en fonction d'une requête de l'utilisateur sont donnés aux annonceurs, aux fournisseurs de services de moteur de recherche et aux utilisateurs. Le système distingue des pages en fonction de la nature commerciale de chaque page et donne ainsi les résultats les plus pertinents en transmettant des résultats pertinents de recherche aux utilisateurs qui recherchent des informations ou pour la saisie dans une transaction commerciale, sans confusion entre les deux catégories de résultats de recherche. Ce système permet
<Desc/Clms Page number 15>
aussi une personnalisation complète en ce qui concerne l'ensemble de critères utilisés pour le classement des résultats de recherche, l'importance de chaque critère pour la détermination du classement, et le classement final et la présentation de ces résultats de recherche pour l'utilisateur.
Des procédés et appareils de classement et présentation statique et dynamique des enregistrements d'une base de données distribuée sont décrits. Des descriptions de modes de réalisation spécifiques sont données uniquement à titre d'exemples et diverses modifications apparaissent facilement aux hommes du métier et ne sont nullement destinées à être limitées aux modes de réalisation décrits. Des caractéristiques identiques portent des références analogues sur les dessins concernés.
On décrit un système personnalisable d'identification et de classement des enregistrements ou des résultats d'une recherche des enregistrements dans une base de données distribuée, et de classement et de présentation des enregistrements ou des résultats de la recherche en fonction de la nature commerciale de l'enregistrement d'une manière plus organisée, plus facile à comprendre et donc plus utile pour l'utilisateur. La description qui suit indique en détail comment les pages ou les résultats d'une recherche sur Internet peuvent être identifiés et classés comme étant commerciaux ou non commerciaux (informations), mais on comprend facilement que les enregistrements d'une base de données distribuée, y compris sur Internet, peuvent être classées en une variété sans limite de catégories, y compris des sous-catégories des catégories commerciales et non commerciales. D'autres catégories peuvent comprendre la vente en ligne et des annonces pour des magasins et services traditionnels. Dans une variante ou en outre, les enregistrements ou les résultats de recherche d'enregistrements dans une base de données distribuée peuvent être classés et présentés géographiquement, par gamme de prix ou suivant de nombreux autres critères qui dépendent de diverses variables spécifiées par l'utilisateur. De plus, les procédés décrits
<Desc/Clms Page number 16>
peuvent être utilisés sur toute base de données distribuée couplée d'une manière quelconque à tout type de réseau, y compris les réseaux locaux LAN et les réseaux étendus WAN, et pas seulement sur Internet.
On se réfère maintenant aux dessins ; les figures 1A et 1B indiquent comment les résultats d'une recherche sur Internet peuvent être classés. Une recherche sur Internet est en réalité une recherche dans une base de données de contenus d'Internet qui peut être créée à l'aide d'un programme de recherche sur Internet. Ce programme se déplace sur Internet et mémorise dans une base de données locales soit un double de chaque page trouvée, soit un double d'une partie de la page (la partie pouvant comprendre l'une quelconque des caractéristiques suivantes de chaque page Internet trouvée : l'adresse URL, les titres, le contenu, une brève description du contenu, des hyperliens ou toute combinaison de ces caractéristiques). Les copies locales des pages ou parties de page peuvent alors être soumises à une recherche à l'aide d'un moteur de recherche. Les copies locales des pages, des parties de celles-ci ou des pages ou parties qui sont le résultat d'une recherche précédente sont toutes appelées "pages résultantes".
Comme l'indiquent les figures 1A et 1B, les pages résultantes 50 peuvent être classées en général comme pages commerciales et non commerciales. Les pages résultantes de la catégorie commerciale 52,62 ("pages commerciales") comprennent de façon générale les pages résultantes qui facilitent l'achat et/ou la vente de marchandises et/ou de services ou qui montrent une intention d'activité commerciale de l'éditeur de cette page (de nature commerciale).
Par exemple, les pages commerciales 52,62 comprennent des pages qui offrent des marchandises et/ou des services par la vente, la location, le commerce ou toute autre transaction, et qui donnent des informations de contact pour que de telles transactions soient exécutées par d'autres moyens, par exemple par télécopieur, téléphone ou par une personne.
Les pages résultantes de catégorie non commerciale 54,64 ("pages non commerciales") comprennent de façon générale des
<Desc/Clms Page number 17>
pages essentiellement d'informations et ne facilitent pas l'achat et/ou la vente de marchandises et/ou services, et n'ont donc pas une nature commerciale. Les pages non commerciales peuvent aussi être appelées "pages d'informations".
Les pages résultantes de type spam ("pages spam") sont en général considérées comme un sous-ensemble des pages commerciales 52,62 car ces pages spam 56 sont en général de nature commerciale. Cependant, il est possible que les pages spam soient essentiellement de nature à donner des informations car les pages spam donnent des informations concernant des marchandises et/ou des services mais ne facilitent pas par elles-même l'achat des marchandises et/ou de services. Comme les pages spam sont destinées à dégrader les moteurs de recherche ou à réduire leurs performances, y compris l'heuristique de rangement par pertinence, elles sont en général indésirables et peuvent être chassées ou exclues des résultats de recherche. Habituellement, les pages spam sont considérées comme de nature commerciale car elles donnent un lien direct à d'autres pages qui sont elles-mêmes de nature commerciale. Les pages spam peuvent être classées comme pages commerciales comme l'indiquent les figures 1A et 1B ou au contraire peuvent être exclues de la catégorie commerciale.
Dans un mode de réalisation de l'invention, les pages résultantes peuvent aussi être classées en catégories contenant un contenu payant ("pages PCC"). Les pages PCC sont des pages pour lesquelles l'accès au contenu nécessite le paiement d'une somme. Dans certains cas, le paiement de la somme est contrôlé par accord ou contrat. Il existe de nombreux exemples de pages PCC, par exemple celles qui se trouvent aux adresses URL suivantes : www. law.com et www.northernliaht.com. Les pages PCC peuvent être considérées soit comme un sous-ensemble des pages commerciales et placées dans la catégorie commerciale, soit comme un sous-ensemble des pages non commerciales et placées dans la catégorie non commerciale suivant les préférences de l'utilisateur ou du client du service de moteur de recherche. Par exemple, les pages PCC 58 nécessitent un
<Desc/Clms Page number 18>
paiement pour leur accès. Etant donné que le paiement est nécessaire, elles sont de nature commerciale et peuvent être considérées comme un sous-ensemble de pages commerciales comme indiqué sur la figure 1A. D'autre part, les pages PCC donnent en général des informations et ne facilitent pas l'achat et/ou la vente de marchandises et/ou de services autrement que des informations contenues dans les pages PCC elles-mêmes. En conséquence, elles ont aussi un contenu d'informations et peuvent être considérées comme un sousensemble des pages non commerciales comme indiqué sur la figure 1B.
Un autre mode d'exécution de la séparation par filtrage des pages commerciales et de disposition de celles-ci dans la catégorie commerciale comprend de façon générale les étapes indiquées sur la figure 2 par la référence 10. Ces étapes comprennent la détermination du fait que chaque page est une page spam 12, la détermination d'un score de qualité pour chaque page 14, la détermination d'un indice transactionnel pour chaque page 16, la dérivation d'une matrice de propagation 18, la détermination d'un score commercial pour chaque page 20, la séparation par filtrage de toutes les pages ayant un score commercial qui correspond à une valeur de seuil ou la dépasse 22 ("page commerciale comprenant les pages spam"), la séparation par filtrage des pages spam des pages commerciales contenant des pages spam 24, et la disposition des pages commerciales dans la catégorie commerciale 26.
Dans un mode de réalisation, la détermination du fait qu'une page est une page spam comprend le calcul d'un score spam #(wi) pour chaque page et la détermination du fait que le score spam atteint la valeur de seuil affectée au score spam ou la dépasse. Les pages qui correspondent à la valeur de seuil de score spam ou le dépassent sont des pages spam.
La détermination du score spam peut être réalisée avec des techniques connues, par exemple par affectation humaine d'un score, et par des techniques automatiques présentées dans les documents suivants un livre blanc de ebrandmanagement. com intitulé "The Classification of Search
<Desc/Clms Page number 19>
Engine Spam" et une publication de Danny Sullivan intitulée "Search Engine Spamming". Ces deux documents ont été présentés à la réunion "Proceedings of Search Engine Stratégies", 4 et 5 mars 2002, Boston, MA, organisée par Danny Sullivan. Les procédés précités ainsi que d'autres comprennent des méthodes manuelles et automatiques d'évaluation. Ces procédés et des techniques analogues d'apprentissage par la machine peuvent aussi être appliqués au calcul du paramètre qui est le vecteur initial de l'équation (12) décrite dans la suite.
Le score de qualité q(wi) est une valeur scalaire qui est une mesure de la qualité d'une page. Dans un mode de réalisation, la détermination du score de qualité des pages comprend l'évaluation d'un sous-ensemble de pages d'après un groupe choisi de critères. Les critères par rapport auxquels la qualité de la page peut être jugée comprennent la qualité du contenu, la réputation de l'auteur ou de la source d'informations, la facilité d'utilisation de la page, et de nombreux autres critères analogues. Le score de qualité peut être affecté de façon humaine ou déterminée automatiquement, et une valeur par défaut peut être affectée aux pages qui ne sont pas explicitement évaluées.
Un indice transactionnel est une valeur scalaire qui représente le fait qu'une page facilite les transactions, telle qu'une vente, une location, une vente à crédit ou une vente aux enchères, ou l'intensité avec laquelle elle facilite ces transactions. Dans un mode d'exécution, les étapes de détermination d'un indice transactionnel pour chaque page sont représentées de façon générale sur la figure 3 et désignées par la référence 16. Des indices transactionnels sont déterminés à partir d'un score transactionnel. Un score transactionnel est un vecteur qui indique si chaque page correspond à un ensemble spécifique de critères ou non ou l'intensité avec laquelle elle correspond à cet ensemble.
En conséquence, la première étape est la détermination du fait qu'une page et/ou l'adresse URL de la page correspond à des critères sélectionnés 32. Il existe de très
<Desc/Clms Page number 20>
nombreuses caractéristiques d'une page qui peuvent être examinées pour la détermination finale du fait que la page est de type transactionnel. Ces critères comprennent la détermination du fait que la page comprend les éléments suivants : un champ de saisie d'informations de carte de crédit, un champ de nom d'utilisateur et/ou de mot de passe d'un système de paiement en ligne tel que "PayPal" ou "BidPay", un numéro de téléphone identifié par "bureau de vente", un "représentant commercial", "pour plus d'informations, appelez", ou toute autre expression orientée vers une transaction, un lien ou un bouton ayant un texte tel que "cliquez pour acheter", "achetez en un seul clic" ou une expression analogue, un texte tel que "votre chariot contient" ou "a été ajouté à votre chariot" et/ou une étiquette telle qu'une image GIF d'un pixel utilisée pour le suivi de conversion. Toute adaptation de texte peut être réalisée en fonction des chaînes de texte, telles que les séquences de caractères de jeux de caractères Unicode ou ASCII, ou d'après le texte dérivé par reconnaissance optique de caractères du texte représenté en image, ou par reconnaissance de parole d'un enregistrement sonore présenté à la suite d'une requête http. Les critères peuvent être utilisés en toute combinaison et n'importe quel critère individuel peut être utilisé ou non. En outre, ces critères ne sont que des exemples et ne constituent pas une liste exhaustive.
Pour chaque page, on doit alors déterminer l'intensité avec laquelle la page correspond aux critères choisis 34. Il existe diverses techniques de détermination du fait que les pages correspondent à certains critères 32 et de l'intensité avec lesquelles elles correspondent à ces critères 34. Par exemple, chaque page peut être examinée par un éditeur humain et évaluée au point de vue des critères et se voir affecter une valeur booléenne ou une valeur pondérée.
Cependant, ceci constitue un processus très lent et subjectif. Des techniques automatisées beaucoup plus rapides comprennent la vérification automatique d'accord et de comptage de chaînes, des accords d'image ou des accords de
<Desc/Clms Page number 21>
longueur de chaîne et/ou des accords de type de champ de saisie de données (par exemple numérique ou alphanumérique) et une affectation d'un score de probabilité d'enregistrement par des modèles de langue. Les modèles de langue comprennent par exemple des modèles de transition de mots n-gramme tels que décrit dans l'ouvrage "Statistical Methods for Speech Recognition", de Jenek, 1999. Ces procédés peuvent affecter un nombre booléen ou une valeur pondérée.
A l'aide des résultats obtenus par détermination du fait que chaque page et/ou son adresse URL correspond aux critères sélectionnés 32 et par détermination de l'intensité du respect des critères choisis par la page et/ou son adresse URL 34, la détermination en 35 d'un score transactionnel est possible. La détermination du score transactionnel 35 pour chaque page comprend la création d'un vecteur ak(Wi) ou d'un vecteur ssk(wi) d'après les résultats des blocs 32 et 34 respectivement. L'un de ces vecteurs est créé pour chaque page "wi", l'indice i représentant une page particulière et la valeur k représentant un critère particulier pour l'évaluation de la page. Le nombre d'éléments du vecteur n (1 j n) est déterminé par le nombre de critères utilisés et le nombre de vecteurs est déterminé par le nombre de pages m. Le score transactionnel [alpha]n(wi) est un vecteur de valeur booléenne, un 0 pour un critère déterminé indiquant que ce critère n'est pas respecté (faux) et tout entier sélectionné p d'un critère déterminé indique que ce critère est respecté (vrai). Le vecteur de score transactionnel ssn(wi) a le même nombre d'éléments que le vecteur a(wi). Cependant, les éléments du vecteur ssn(wi) peuvent comprendre n'importe quelle plage de nombres réels, chaque nombre indiquant l'intensité avec laquelle une page respecte le critère. Par exemple, ssn(wi) peut comprendre des nombres réels compris entre 0 et 1 (bien qu'il puisse comprendre toute plage de nombres réels), un "0" indiquant qu'un critère n'est pas respecté du tout et "1" qu'il est respecté complètement. Les nombres réels compris entre 0 et 1 représentent les divers degrés de respect du critère.
<Desc/Clms Page number 22>
Les scores transactionnels [alpha]kn (wi) et sskn(wi) sont utilisés pour déterminer d'autres valeurs de l'indice transactionnel #(wi) pour chaque page avec :
L'indice transactionnel #(wi) est une valeur scalaire qui est la norme p du vecteur [alpha]n(wi) ou ssn(wi). n est le nombre de critères utilisés pour l'évaluation de chaque site wi. De façon générale, p est égal à 2 si bien qu'aucun critère pondéré seul n'a une prédominance sur les autres.
Cependant, p peut être modifié pour donner un poids plus important aux critères prédominants le cas échéant. On peut utiliser la formule (1) ou (2) en alternance pour déterminer l'indice transactionnel. La formule (2) reflète le degré de respect des critères individuels.
Les étapes de dérivation de la matrice de propagation sont représentées de façon générale sur la figure 4 comme indiqué par la référence 18. Les étapes comprennent la création d'une matrice 42 de connectivité d'hyperliens, le calcul de nombres de transitions et de vues de page 44, et la création d'une matrice de propagation 46. Une matrice de connectivité d'hyperliens est une manière de représenter la structure des liens sur Internet, la toile ou tout ensemble d'hyperdocuments, avec l'importance ou la pertinence relative de chaque page. Dans ce mode de réalisation, l'importance relative de chaque page est déterminée par l'examen du nombre de liens provenant de chaque page wi, allant vers chaque page Wj ou provenant de chaque page wj et allant vers chaque page wi. Ces liens sont représentés par la matrice de connectivité d'hyperliens. Cette matrice C possède m lignes et m colonnes. Le nombre de lignes et de colonnes m est égal au nombre de pages, une ligne spécifique étant indiquée par l'indice i et une colonne spécifique par l'indice j. Chaque élément de la matrice cij contient une
<Desc/Clms Page number 23>
valeur 1 uniquement si une page wi présente un lien avec une autre page wj, et a une valeur nulle dans le cas contraire.
La matrice de connectivité d'hyperliens est alors utilisée pour le calcul de deux valeurs scalaires, le score d'autorité ai et le score pivot hi pour chaque page wi. En général, un pivot est une page ayant de nombreux liens sortant et une autorité est une page ayant de nombreux liens entrant. Les scores pivot et d'autorité reflètent l'importance de la page comme référence ou comme source de référence. Les valeurs des scores pivot et d'autorité sont déterminées de la manière suivante :
L'étape suivante de détermination de la matrice de propagation est la détermination des nombres de transitions et des vues de page au bloc 44. Dans un mode d'exécution, chaque nombre de transitions Tij représente le comportement réel d'utilisateurs sur Internet sous forme du nombre d'observations d'une page wi par un utilisateur puis d'observation directe d'une autre page Wj (sans observation des pages intermédiaires). Tous les nombres de transitions sont représentés sous forme d'une matrice dans laquelle Tij représente chaque nombre de transitions individuel. Les vues de page représentent le nombre d'observations d'une page et sont liées au nombre de transitions :
La matrice de connectivité d'hyperliens, le score pivot, le score d'autorité, les nombres de transitions et les vues de page sont alors tous utilisés pour la création de la matrice de propagation au bloc 46. La matrice de propagation P est créée à l'aide de la formule suivante :
<Desc/Clms Page number 24>
Les fonctions F(hi), G(ai) et H(vi) donnent des poids au score pivot, au score d'autorité et aux vues de page. Ces fonctions F(hi), G(ai) et H(Vi) sont des fonctions scalaires croissant de façon monotone d'entiers non négatifs hi, ai et vi respectivement. Chacune de ces fonctions correspond à une fonction de pondération telle qu'une fonction en escalier.
Par exemple, on a :
avec F' > F". Ceci donne une plus faible signification à un score de pivot lorsqu'il est inférieur à une valeur de seuil x qui indique que des données insuffisantes ont été accumulées. G(ai) et H(vi) sont déterminés d'une manière analogue. Cependant, la valeur de seuil pour G(ai) est une valeur y de ai et la valeur de seuil de H(vi) est une valeur z de vi.
avec F' > F". Ceci donne une plus faible signification à un score de pivot lorsqu'il est inférieur à une valeur de seuil x qui indique que des données insuffisantes ont été accumulées. G(ai) et H(vi) sont déterminés d'une manière analogue. Cependant, la valeur de seuil pour G(ai) est une valeur y de ai et la valeur de seuil de H(vi) est une valeur z de vi.
Les fonctions f(Cij,hi), g(Cij,ai) et h(Tij,vi) représentent les contributions des liens et des transitions.
Chaque fonction est un quotient pondéré de ces arguments, mais son dénominateur est nul. Par exemple, pour f(Ci,j), on a :
Les fonctions giclai) et h(Tij,vi) sont déterminées de manière analogue.
Comme l'indique la figure 1, l'étape suivante de détermination du fait que chaque page est commerciale comprend la détermination d'un score commercial pour chaque page 20. Cette détermination comprend non seulement la matrice de propagation P et l'indice transactionnel #(wi) mais aussi le score spam a(wi) et le score de qualité q(wi).
L'indice transactionnel #(wi) et le score spam a(wi) déterminent le poids des différents éléments. Le score commercial est déterminé par récurrence pour chaque page wi de la manière suivante :
<Desc/Clms Page number 25>
K'(0) étant la moyenne pondérée de l'indice transactionnel #(wi), du score spam #(wi) et du score de qualité q(wi), A et B étant des facteurs de pondération qui déterminent le poids donné respectivement à #(wi) et q(Wi). A et B peuvent être sélectionnés par le fournisseur ou créateur du moteur de recherche. Le vecteur #'(t) comprend un élément #'i(t) pour chaque page examinée wi. # représente le poids de la matrice de propagation et peut aussi être établi par le fournisseur ou créateur du moteur de recherche. il détermine le degré avec lequel la matrice de propagation affecte le score commercial dans les itérations initiales. Le symbole t indique un entier d'incrémentation qui commence à 1 et augmente d'une unité à chaque itération. Chaque itération a des possibilités d'affecter toutes les valeurs wi. Les itérations se poursuivent sur un nombre prédéterminé d'itérations t' ou jusqu'à ce qu'il existe une faible variation de valeur du score commercial : (15) ##'(t') - #'(t' - 1)## # # p étant le niveau de la norme et # une valeur de variation de score commercial. Lorsque la différence de valeur obtenue après deux itérations successives est égale ou inférieure à la valeur de variation du score commercial, les itérations sont interrompues et le score commercial est obtenu en 22.
Toutes les pages ayant un score commercial supérieur ou égal à une valeur de seuil de score commercial sont séparées par filtrage et comprennent les pages commerciales 22, y compris les pages spam. Bien qu'on puisse souvent considérer qu'elles constituent un sous-ensemble des pages commerciales, les pages spam sont séparées par filtrage des pages 24 pour donner les pages commerciales, car les pages spam sont en général indésirables. Les pages commerciales sont alors placées dans la catégorie commerciale 26. Lorsque les pages commerciales et les pages spam sont séparées par
<Desc/Clms Page number 26>
filtrage des pages, les pages restantes sont placées dans la catégorie non commerciale. La catégorie non commerciale peut aussi comprendre les pages PCC.
Dans un autre mode de réalisation, les pages sont classées en catégories commerciales et non commerciales comme décrit précédemment, mais les pages spam ne sont pas séparées dans une catégorie distincte. Au contraire, les pages spam sont classées comme pages commerciales ou non commerciales suivant le score commercial sous-jacent affecté à cette page et les scores de seuil pour chaque catégorie spécifiée. Comme les pages spam peuvent en théorie être commerciales ou non commerciales et comme l'incorporation des pages spam peut être utile pour certains utilisateurs et/ou dans certaines applications, ce mode de réalisation ne comprend pas d'étape d'identification et de séparation des pages spam par filtrage. Par suppression de l'identification et du filtrage des pages spam, ce mode de réalisation est mieux compatible au point de vue modulaire avec les moteurs de recherche existant car de nombreux moteurs de recherche existant sont équipés de leur propre système d'identi- fication et d'élimination des pages spam. Dans d'autres modes de réalisation, les pages spam ne sont pas retirées de la catégorie commerciale parce que les pages spam ont une valeur potentielle, par exemple comme directive de vente pour un moteur de recherche à paiement à la performance.
Dans un autre mode de réalisation, le classement des pages résultantes peut être personnalisé par l'utilisateur ou pour celui-ci (comprenant les consommateurs, les fournisseurs de sites et les annonceurs). Dans la première étape du traitement, l'utilisateur détermine les préférences de classement par saisie des préférences par l'interface d'utilisateur du système puis affine les sélections jusqu'à ce que le classement voulu soit obtenu. Les deux catégories elles-mêmes ou la manière dont les pages résultantes sont classées peuvent être personnalisées. Le système peut être personnalisé pour le classement de pages résultantes en catégories spécifiées par l'utilisateur, par des procédés déjà connus. La détermination de la catégorie dans laquelle
<Desc/Clms Page number 27>
est classée une page résultante peut être réalisée par sélection d'un ou plusieurs des éléments suivants considérés en combinaison : commentles pages PCC sont classées, les niveaux de seuil, le niveau de la norme p, les paramètres A et B de l'équation (12), le nombre d'itérations t' pour le calcul du score commercial, la valeur A de variation du score commercial, des critères utilisés pour la détermination des pages résultantes qui sont des pages commerciales ou des pages PCC et le poids qui doit être utilisé pour l'obtention de chaque critère, les critères utilisés pour la détermination du score transactionnel, et la formule de score transactionnel utilisée pour la détermination de l'indice transactionnel ("critères de classement").
Les critères de classement peuvent tous être choisis de manière que les pages résultantes soient classées et présentées de diverses manières correspondant aux préférences de l'utilisateur. En général, les critères de classement peuvent être choisis empiriquement par ensemencement manuel du système avec des pages présélectionnées et par examen des catégories dans lesquelles les pages présélectionnées sont rangées, puis par ajustement des critères de classement pour accorder le système jusqu'à l'obtention des catégories de classement voulues. Par exemple, comme l'indique la figure 5, l'utilisateur ensemence le système 200 avec des pages présélectionnées dont l'utilisateur connaît les catégories qui doivent être affectées aux pages en 210. L'utilisateur saisit alors les performances d'utilisateur sous forme des catégories dans lesquelles doivent se trouver les pages et le format avec lequel les résultats classés doivent être affichés en 212. L'utilisateur établit alors les critères de classement 214. Le système classe et présente alors les résultats classés pour l'utilisateur 216.
Ce dernier détermine alors si le système a classé les pages présélectionnées dans les catégories voulues 218. Si les pages présélectionnées ne sont pas rangées dans les catégories voulues, un critère quelconque ou une combinaison de critères de classement peut être modifié et réglé dans le
<Desc/Clms Page number 28>
système en 214. Les étapes 214,216 et 218 peuvent être répétées jusqu'à l'obtention du classement voulu.
Au pas 212, l'utilisateur peut établir ses préférences pour l'affichage des résultats classés. Les résultats obtenus par classement des pages résultantes peuvent être affichés de diverses manières. Par exemple, l'utilisateur peut spécifier que seules les pages résultantes correspondant à une recherche par mot-clé doivent être classées et présentées ou qu'un type spécifique ou une catégorie spécifique de page doit toujours être exclue, par exemple la pornographie ou des publicités pour recouvrement de créances. En outre ou selon une variante, l'utilisateur peut voir les pages classées contenues dans certaines catégories de manières différentes, avec l'affichage par catégorie ou uniquement l'affichage de catégories particulières et pas d'autres. En outre ou selon une variante, l'utilisateur peut spécifier l'ordre avec lequel les pages classées doivent être affichées. Par exemple, les pages classées peuvent être affichées par catégories, une catégorie préférée apparaissant d'abord. En outre ou selon une variante, des valeurs intermédiaires, telles que le score de transaction, l'indice transactionnel, la matrice de connectivité d'hyperliens, la matrice de propagation. Les scores d'autorité et pivots des transactions, les scores commercial, spam et de qualité peuvent aussi être affichés. En outre et selon une variante, l'utilisateur peut aussi demander l'examen du texte d'accrochage des liens. Si le texte d'accrochage contient des motsclés, les pages contenant un nombre quelconque de mots-clés ont une pondération supérieure à celle des liens qui ne contiennent pas les mots-clés. Dans une variante, les liens contenant un plus grand nombre de mots-clés peuvent avoir une pondération supérieure à celle de ceux qui ont un plus petit nombre. La personnalisation de l'affichage des pages classées est réalisée par des techniques connues d'affichage et de présentation.
Lorsque l'utilisateur a spécifié les catégories, les critères de classement et les préférences d'affichage, une recherche 250 peut être exécutée. Comme l'indique la figure
<Desc/Clms Page number 29>
6, une recherche 250 commence lorsqu'un utilisateur saisit un terme ou une expression de recherche dans le système avec une interface d'utilisateur 260. Le système crée alors les pages résultantes avec un procédé de pertinence connu choisi parmi divers procédés, y compris le renvoi des pages résultantes qui contiennent un mot-clé ou les mots-clés qui correspondent au terme ou à l'expression de recherche 262 (résultats de recherche). Le système classe alors des résultats de recherche en catégories spécifiées par l'utilisateur afin que les critères de classement spécifiés par l'utilisateur soient respectés en 264. Le système présente alors les pages classées en fonction des préférences 266 de présentation de l'utilisateur.
Dans un autre mode de réalisation, les pages commerciales peuvent être utilisées pour la création de directives de vente. A l'aide des adresses URL des pages commerciales, des informations de contact des sociétés logeant les pages commerciales peuvent être obtenues à partir d'un registre de noms de domaine. La liste des sociétés et leurs informations de contact peuvent alors être compilées pour la création d'une liste de directives de vente. Comme décrit sur la figure 7, un système 270 de classement des pages résultantes comprend de façon générale les étapes suivantes : (a) la supposition du fait que chaque page résultante est de nature non commerciale en 272, (b) l'identification et la séparation par filtrage des pages qui sont de nature commerciale sous forme d'une première catégorie 274, (c) l'identification et la séparation par filtrage des pages existantes de clients d'annonceurs des pages de la première catégorie 276, (d) le regroupement des informations de contact des pages restantes en 278 ("pages de directive"), et (e) la transmission des pages de directive et des informations associées de contact comme directives de vente 280, par exemple à un fournisseur de moteur de recherche à paiement pour la performance ou tout autre tiers intéressé.
Dans un autre mode de réalisation, les annonceurs peuvent payer pour que leur liste soit incluse dans certaines catégories ou exclue de certaines catégories, par
<Desc/Clms Page number 30>
mise en oeuvre des techniques décrites dans le brevet des Etats-Unis d'Amérique n 6 269 361. La somme payée par les annonceurs peut être fonction de la prédominance donnée à leur liste dans une catégorie choisie. Dans un autre mode de réalisation, seules les pages pour lesquelles une somme a été payée apparaissent dans la catégorie commerciale (ou une autre catégorie désignée). Dans un mode de réalisation, un système personnalisable de classement et de présentation des enregistrements ou des résultats d'une recherche des enregistrements dans une base de données distribuée peuvent avoir une configuration de serveur de gestion de comptes ou de serveur à moteur de recherche associé à un appareil de recherche à base de données du type décrit dans le brevet des Etats-Unis d'Amérique n 6 269 361. Les fonctions décrites dans le présent mémoire et illustrées par les figures 1 à 8 peuvent être exécutées de toute manière convenable.
Une réalisation est sous forme d'une source lisible par ordinateur ou d'un code objet qui commande un processeur d'un serveur ou d'un autre dispositif de calcul destiné à remplir les fonctions décrites. Le code lisible par ordinateur peut être sous forme d'un article comprenant un support portant des signaux lisibles par ordinateur. Dans un mode de réalisation, le support est un support enregistrable de mémorisation de données, tel qu'une disquette ou un disque dur d'ordinateur ou une mémoire permanente à semiconducteur. Dans un autre mode de réalisation, le support est un signal modulé de porteuse, par exemple des données lues sur un réseau tel qu'Internet. Le support comporte un dispositif incorporé au support et destiné à déterminer si une page est transactionnelle, un dispositif placé dans le support et destiné à dériver une matrice de propagation pour la page, et un dispositif placé dans le support et destiné à déterminer un support commercial en fonction de la matrice de propagation pour cette page. Les divers dispositifs peuvent être sous forme d'un code source d'ordinateur, d'un code objet lisible par ordinateur ou de tout appareil
<Desc/Clms Page number 31>
convenable destiné à commander un dispositif de traitement pour qu'il remplisse la fonction décrite.
Un autre mode d'exécution de l'invention concerne un appareil de classement et de présentation des enregistrements ou des résultats d'une recherche d'enregistrements dans une base de données distribuée par une architecture client-serveur distribuée telle que représentée sur la figure 8. Le moteur de recherche et la base de données 100 indiqués sur la figure 8 comprennent de façon générale un appareil de calcul 110,114, 118,120, des dispositifs de mémoire 112 et 116, un serveur 124 et une interface 122. Les appareils de calcul 110,114, 118,120 peuvent comporter n'importe quel processeur qui exécute des calculs. Le programme de recherche 110 est un appareil de calcul qui est connecté à Internet par un réseau et qui passe à chaque page et effectue une copie de la page (page résultante), y compris le contenu statique et/ou dynamique, qu'il s'agisse de texte, d'image, d'audiofréquences, de signaux vidéo ou d'images fixes, et mémorise la copie dans le cache Internet 112. Dans une variante, seul un nombre isolé d'éléments de la page résultante, tels que l'adresse URL et/ou le titre, sont copiés et conservés dans le cache Internet 112.
Ensuite, l'organe d'indexation 114 affecte à chaque copie de page résultante ou partie correspondante une adresse dans le cache Internet 112 ("adresse de cache Internet"). L'organe d'indexation crée aussi des termes de recherche pour chaque page résultante et mémorise ces termes de recherche avec l'adresse associée de cache Internet dans l'index Internet 116. Le cache et l'index Internet utilisent approximativement 30 et 5 téraoctets respectivement, compte tenu de la dimension actuelle d'Internet.
Le générateur 118 de score transactionnel utilise les informations contenues dans les copies de chaque page résultante (ou partie de page) conservée dans le cache Internet 112 pour la création des scores transactionnels.
Ces scores transactionnels sont alors conservés dans le cache Internet 112 avec les pages résultantes associées d'Internet. L'organe 120 d'affectation de catégorie utilise
<Desc/Clms Page number 32>
les scores transactionnels et d'autres informations conservées dans le cache 112 pour créer la matrice de propagation et affecter une catégorie à chaque page résultante. Les scores transactionnels, les scores commerciaux, les scores de qualité, les scores spam et les catégories de chaque page sont conservés dans le cache Internet 112 avec les pages associées. Les valeurs de seuil personnalisable p, le paramètre de norme p, les valeurs A de variation de score commercial, etc. peuvent être mémorisés du côté du client ou du serveur du système de manière connue des hommes du métier. Un serveur de recherche 124 est couplé à l'index Internet 116 et au cache Internet 112 et permet à l'appareil de connecter les utilisateurs par l'interface 122 d'utilisateur du système. L'interface 122 peut être un navigateur ou un logiciel agent ou d'application.
Un utilisateur souhaitant chercher sur Internet peut utiliser l'interface 122 d'utilisateur du système pour se connecter au serveur de recherche 124 par Internet. Si l'interface 122 est un navigateur, celui-ci transmet la requête de recherche de l'utilisateur au serveur 124 par Internet. Dans une variante, si l'interface 122 est un agent logiciel, l'agent transmet une requête automatisée par Internet. Dans une variante, l'interface d'utilisateur 122 peut comprendre à la fois un navigateur et un agent logiciel et peut transmettre une requête automatisée au serveur 124 de recherche par Internet. Ce serveur 124 utilise alors l'index Internet 116 pour déterminer quelles pages résultantes sont associées aux termes de recherche de l'utilisateur. Ces pages résultantes sont alors récupérées du cache Internet 112 et présentées à l'utilisateur par l'interface 122 de la manière spécifiée par l'utilisateur.
On peut noter que, depuis le début, les modes de réalisation actuellement décrits concernent un procédé et un appareil de classement et de présentation d'éléments choisis d'une base de données distribuée. D'autres avantages sont la mise à disposition des annonceurs, des fournisseurs de services de recherche et des utilisateurs, d'un moteur de recherche et d'une base de données qui permettent le
<Desc/Clms Page number 33>
classement personnalisable des résultats de recherche, avec un procédé et un appareil de filtrage des résultats de la recherche afin que seules une ou plusieurs catégories voulues de résultats de recherche soient renvoyées ou affichées.
D'autres avantages des modes de réalisation décrits sont la mise à disposition des utilisateurs, annonceurs, fournisseurs de sites de recherche et fournisseurs de moteur de recherche, d'un procédé de personnalisation de recherche afin que des recherches soient réalisées et/ou affichées sous forme de résultats dépendant d'une catégorie ou de critères, des annonceurs ayant à leur disposition un procédé de réglage utilisé pour le classement et l'affichage avec d'autres liens que les produits et/ou services de l'annonceur. De plus, les modes de réalisation considérés mettent à disposition un procédé d'identification de la nature d'un site et la mise à disposition d'un moteur de recherche capable de classer les résultats de recherche, et la disposition d'un moteur de recherche qui peut être personnalisé par les utilisateurs et les annonceurs.
Bien qu'on ait décrit une réalisation spécifique de l'invention, d'autres réalisations sont possibles. Par exemple, le système et le procédé peuvent s'appliquer non seulement aux bases de données atteintes par Internet mais à toute base de données distribuée. En outre, il existe des catégories très diverses pour le classement des pages ou documents et des critères très divers pour leur sélection.
Bien entendu, diverses modifications peuvent être apportées par l'homme de l'art aux moteurs, base de données et procédés qui viennent d'être décrits uniquement à titre d'exemple non limitatif sans sortir du cadre de l'invention.
Claims (39)
1. Moteur de recherche et base de données destinés à une base de données distribuée, caractérisé en ce qu'ils comprennent : au moins un dispositif de mémoire qui comprend au moins un cache Internet (112), et un index Internet (116), un appareil de calcul qui comprend un programme de recherche sur Internet (110) qui communique avec le cache Internet (112) et Internet, un organe d'indexation (114) qui communique avec l'index Internet (116) et le cache Internet (112) au moins, un générateur de score transactionnel (118) communiquant avec le cache Internet (112), et un organe (120) d'affectation de catégorie qui communique avec le cache Internet (112), un serveur de recherche (124) communiquant avec le cache Internet (112) et l'index Internet (116), et une interface d'utilisateur (122) communiquant avec le serveur de recherche.
2. Moteur de recherche et base de données selon la revendication 1, caractérisés en ce que le cache Internet (112) a une dimension d'au moins 30 téraoctets environ.
3. Moteur de recherche et base de données selon la revendication 1, caractérisés en ce que l'index Internet (116) a une dimension d'au moins 5 téraoctets environ.
4. Procédé de recherche dans une base de données distribuée, caractérisé en ce qu'il comprend : (a) la saisie de termes ou expressions de recherche dans un système, (b) la création de documents contenant des mots-clés qui correspondent aux termes ou expressions de recherche, (c) le classement des résultats de recherche en catégories en fonction de critères de classement pour la création de documents classés, et (d) la présentation des documents classés.
<Desc/Clms Page number 35>
5. Procédé selon la revendication 4, caractérisé en ce que des critères de classement sont sélectionnés par un utilisateur.
6. Procédé selon la revendication 5, caractérisé en ce que les catégories sont sélectionnées par un utilisateur.
7. Procédé selon la revendication 6, caractérisé en ce que des critères de classement sont sélectionnés dans des étapes comprenant : l'ensemencement manuel du système par des documents présélectionnés, et la répétition des étapes de la revendication 4 avec variation des critères de classement de l'étape (b) à chaque itération jusqu'à ce que les documents classés soient classés approximativement de la manière voulue dans les catégories.
8. Procédé selon la revendication 4, caractérisé en ce qu'il comprend la sélection de préférences d'affichage, les préférences d'affichage indiquant comment les documents classés sont présentés dans l'étape (d).
9. Procédé de classement de documents dans une base de données distribuée pour la création de documents classés, le procédé étant caractérisé en ce qu'il comprend : la supposition initiale du fait que tous les documents appartiennent à la catégorie 1, la séparation par filtrage de tous les documents de catégorie 2 et leur disposition dans une première catégorie, la séparation par filtrage de tous les documents de type 3 et leur disposition dans une seconde catégorie, et la détermination de tous les documents restants comme étant des documents de type 4 et leur disposition dans une troisième catégorie.
10. Procédé selon la revendication 9, caractérisé en ce que les documents sont des pages et la base de données distribuée est Internet.
11. Procédé de classement de pages résultantes en catégories, caractérisé en ce qu'il comprend
<Desc/Clms Page number 36>
la désignation d'une première catégorie comme étant formée de pages commerciales et d'une seconde catégorie comme étant formée de pages d'informations, la détermination d'un score de qualité q(wi) pour chaque page résultante, la détermination d'un indice transactionnel pour chaque page résultante #(wi), la dérivation d'une matrice de propagation P, la détermination d'un score commercial K pour chaque page résultante, et la séparation par filtrage de toutes les pages résultantes qui atteignent une valeur de seuil de score commercial ou dépassent cette valeur, les pages résultantes qui atteignent la valeur de seuil de pages commerciales ou la dépassent étant placées dans une première catégorie et toutes les pages résultantes restantes étant placées dans la seconde catégorie.
12. Procédé selon la revendication 11, caractérisé en ce que la détermination du score de qualité pour chaque page résultante comprend l'évaluation d'un sous-ensemble de pages résultantes en fonction d'un groupe sélectionné de critères.
13. Procédé selon la revendication 12, caractérisé en ce que les critères sélectionnés comportent une combinaison quelconque d'un ou plusieurs des critères suivants : la qualité du contenu, la réputation de l'auteur ou de la source, et la commodité d'utilisation.
14. Procédé selon la revendication 12, caractérisé en ce qu'une valeur par défaut est affectée aux pages résultantes qui ne sont pas incluses dans le sous-ensemble de pages résultantes.
15. Procédé selon la revendication 11, caractérisé en ce que la détermination de l'indice transactionnel #(wi) comprend : la détermination du fait que chaque page résultant correspond à des critères sélectionnés, la détermination de l'intensité avec laquelle chaque page résultante remplit les conditions du critère sélectionné,
<Desc/Clms Page number 37>
la détermination d'un score transactionnel pour chaque page, et la détermination de l'indice transactionnel pour chaque page à partir du score transactionnel.
16. Procédé selon la revendication 15, caractérisé en ce que la détermination de l'intensité avec laquelle chaque page résultante remplit les conditions du critère choisi comprend l'évaluation de chaque page résultante en fonction du critère choisi et l'affectation de chaque page résultante à une valeur booléenne ou pondérée qui reflète l'intensité avec laquelle chacune des pages résultantes remplit les conditions de chacun des critères sélectionnés.
17. Procédé selon la revendication 15, caractérisé en ce que la détermination d'un score transactionnel pour chaque page comprend la création d'un vecteur [alpha]k(wi) pour chaque page résultante, chaque vecteur contenant plusieurs éléments [alpha]kn(wi) tels que chacun des éléments [alpha]kn(wi) est une valeur booléenne qui reflète l'intensité avec laquelle chacune des pages résultantes remplit les conditions du critère sélectionné.
18. Procédé selon la revendication 15, caractérisé en ce que la détermination d'un score transactionnel pour chaque page comprend la création pour chaque page résultante d'un vecteur ssk(wi), chaque vecteur contenant plusieurs éléments sskn(wi) tels que chacun des éléments sskn(wi) est une valeur pondérée qui reflète l'intensité avec laquelle chacune des pages résultantes correspond à chacune des conditions du critère sélectionné.
19. Procédé selon la revendication 15, caractérisé en ce que la détermination de l'indice transactionnel #(wi) pour chaque page à partir du score transactionnel comprend l'évaluation d'une relation entre l'indice transactionnel #(wi) et une norme p d'un vecteur pour chaque page résultante ak(Wi), la relation étant
<Desc/Clms Page number 38>
20. Procédé selon la revendication 19, caractérisé en ce que p est égal à 2.
21. Procédé selon la revendication 15, caractérisé en ce que la détermination de l'indice transactionnel #(wi) de chaque page à partir du score transactionnel comprend l'évaluation d'une relation entre l'indice transactionnel #(wi) et une norme p d'un vecteur pour chaque page résultante ssk(wi), la relation étant :
22. Procédé selon la revendication 21, caractérisé en ce que p = 2.
23. Procédé selon la revendication 11, caractérisé en ce que la dérivation d'une matrice de propagation comprend : la création d'une matrice C de connectivité d'hyperliens contenant des éléments Cij, le calcul de plusieurs scores d'autorité ai et de plusieurs scores pivot hi, le calcul de plusieurs nombres de transitions Tij et de plusieurs vues de page vi pour chaque page résultante, et la création de la matrice de propagation P contenant des éléments de matrice de propagation Pij.
24. Procédé selon la revendication 23, caractérisé en ce que la création d'une matrice de connectivité d'hyper- liens C comprend la représentation d'une structure des liens d'Internet dans une matrice.
25. Procédé selon la revendication 24, caractérisé en ce que la structure des liens dans Internet est représentée par l'examen du nombre de liens allant de chaque page résultante à chaque page résultante.
26. Procédé selon la revendication 23, caractérisé en ce que les scores pivot hi et les scores d'autorité sont liés à la matrice de connectivité d'hyperliens C, et les scores d'autorité ai sont définis sous la forme a = C et les scores de pivot sous la forme h1 = #J C1,J respectivement .
<Desc/Clms Page number 39>
27. Procédé selon la revendication 23, caractérisé en ce que les vues de page vi sont liées au nombre de transitions Tij et sont définies par la relation v1 = #J T .
28. Procédé selon la revendication 27, caractérisé en ce que la matrice de propagation est fonction de la matrice de connectivité d'hyperliens, des scores pivot, des scores d'autorité, des nombres de transitions et des vues de page.
29. Procédé selon la revendication 27, caractérisé en ce que le calcul de la matrice de propagation comporte en outre la pondération des scores pivot, des scores d'autorité et des vues de page.
31. Procédé selon la revendication 30, caractérisé en ce que chacune des fonctions de pondération est une fonction en escalier.
32. Procédé selon la revendication 31, caractérisé en ce que le score commercial 1( de chaque page résultante wi est déterminé par récurrence.
33. Procédé selon la revendication 32, caractérisé en ce que le score commercial K est déterminé par récurrence sur t itérations d'une matrice transverse de propagation pT, d'une pondération de matrice de propagation #, et d'une valeur initiale de score commercial #' (0), #' (0) étant pondéré par les quantités sélectionnées A et B définies par :
et une itération antérieure du score commercial #' (t), #' (t) étant défini par la relation
<Desc/Clms Page number 40>
par : KiO) ~ A,) + Bq(w,) + o(w,) A + B + 1 et une itération antérieure du score commercial K'(t), K'(t) étant défini par la relation #'(t) = #PT#'(t - 1) + (1 - #)#'(0), avec # #'(t').
34. Procédé selon la revendication 11, caractérisé en ce qu'il comporte en outre la désignation d'une troisième catégorie comme formant des pages spam, et la détermination d'un score spam a(wi) pour chaque page résultante, dans lequel la détermination du score commercial # pour chaque page résultante est déterminée de manière récursive sur t itérations à partir d'une matrice transverse de propagation pT, d'un poids de matrice de propagation il et d'une valeur initiale de score commercial K'(0), #' (0) étant pondéré par des quantités sélectionnées A et B définies
35. Procédé de classement de plusieurs pages résultantes en catégories, caractérisé en ce qu'il comprend : la détermination du fait que chaque page parmi les pages résultantes est une page spam, la détermination d'un score de qualité q (wi) chaque page de l'ensemble de pages résultantes, la détermination d'un indice transactionnel T(wi) pour chaque page de l'ensemble de pages résultantes, la dérivation d'une matrice de propagation P, la détermination d'un score commercial K pour chaque page parmi les pages résultantes, la séparation par filtrage de toutes les pages commerciales comprenant une page spam des pages résultantes, la séparation par filtrage de toutes les pages spam des pages commerciales contenant des pages spam, la disposition de toutes les pages commerciales dans une catégorie commerciale, et la disposition de toutes les pages résultantes restantes dans une catégorie d'informations.
36. Procédé de classement de documents dans une base de données distribuée, caractérisé en ce qu'il comprend :
<Desc/Clms Page number 41>
la supposition de la nature non commerciale pour tous les documents de la base de données distribuée, la séparation par filtrage de tous les documents de nature commerciale des documents, les documents qui sont de nature commerciale étant des documents commerciaux, et la création de directives de vente à partir des documents commerciaux.
37. Procédé selon la revendication 36, caractérisé en ce que la séparation par filtrage de tous les documents commerciaux comprend la disposition de tous les documents commerciaux dans une première catégorie.
38. Procédé selon la revendication 37, caractérisé en ce qu'il comprend en outre, après la disposition de tous les documents de nature commerciale dans une première catégorie, la séparation par filtrage des pages existantes de clients d'annonceur des pages commerciales de la première catégorie, les pages commerciales restant dans la première catégorie étant les pages de directive.
39. Procédé selon la revendication 37, caractérisé en ce que la création de directives de vente à partir des documents commerciaux comprend la création de directives de vente à partir des pages de directive, et la création des directives à partir des pages de directive comprend : le rassemblement d'informations de contact des pages de directive, et la disposition d'une liste de pages de directive et des informations de contact.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/155,290 US7231395B2 (en) | 2002-05-24 | 2002-05-24 | Method and apparatus for categorizing and presenting documents of a distributed database |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2840088A1 true FR2840088A1 (fr) | 2003-11-28 |
FR2840088B1 FR2840088B1 (fr) | 2008-05-16 |
Family
ID=22554828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0306287A Expired - Fee Related FR2840088B1 (fr) | 2002-05-24 | 2003-05-23 | Moteur de recherche et base de donnees, et procedes pour leur mise en oeuvre |
Country Status (10)
Country | Link |
---|---|
US (2) | US7231395B2 (fr) |
EP (1) | EP1367509A3 (fr) |
JP (1) | JP3905498B2 (fr) |
KR (1) | KR100852034B1 (fr) |
CN (1) | CN100517304C (fr) |
AU (1) | AU2003204327B2 (fr) |
CA (1) | CA2429338C (fr) |
DE (1) | DE10323444A1 (fr) |
FR (1) | FR2840088B1 (fr) |
GB (1) | GB2389682A (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468456B2 (en) * | 2014-08-05 | 2022-10-11 | Groupon, Inc. | Method and system for generating purchase recommendations based on purchase category associations |
Families Citing this family (166)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US6754873B1 (en) * | 1999-09-20 | 2004-06-22 | Google Inc. | Techniques for finding related hyperlinked documents using link-based analysis |
US6625595B1 (en) * | 2000-07-05 | 2003-09-23 | Bellsouth Intellectual Property Corporation | Method and system for selectively presenting database results in an information retrieval system |
US8140415B2 (en) * | 2001-03-20 | 2012-03-20 | Goldman Sachs & Co. | Automated global risk management |
US8209246B2 (en) | 2001-03-20 | 2012-06-26 | Goldman, Sachs & Co. | Proprietary risk management clearinghouse |
US8121937B2 (en) | 2001-03-20 | 2012-02-21 | Goldman Sachs & Co. | Gaming industry risk management clearinghouse |
US7899722B1 (en) * | 2001-03-20 | 2011-03-01 | Goldman Sachs & Co. | Correspondent bank registry |
US20030101191A1 (en) * | 2001-11-28 | 2003-05-29 | Yu-Chwin Lin | Publication of commercial entity information and method for classifying commercial entity information |
US20110264508A1 (en) * | 2002-03-29 | 2011-10-27 | Harik George R | Scoring, modifying scores of, and/or filtering advertisements using advertiser information |
US8260786B2 (en) * | 2002-05-24 | 2012-09-04 | Yahoo! Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US7231395B2 (en) * | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US20040049514A1 (en) * | 2002-09-11 | 2004-03-11 | Sergei Burkov | System and method of searching data utilizing automatic categorization |
WO2004044705A2 (fr) * | 2002-11-11 | 2004-05-27 | Transparensee Systems, Inc. | Procede et systeme de recherche et systemes utilisant ceux-ci |
US7373300B1 (en) | 2002-12-18 | 2008-05-13 | At&T Corp. | System and method of providing a spoken dialog interface to a website |
US8065151B1 (en) * | 2002-12-18 | 2011-11-22 | At&T Intellectual Property Ii, L.P. | System and method of automatically building dialog services by exploiting the content and structure of websites |
CA2510430A1 (fr) * | 2002-12-20 | 2004-11-18 | Shailen V. Banker | Systeme d'informations liees |
US7111000B2 (en) * | 2003-01-06 | 2006-09-19 | Microsoft Corporation | Retrieval of structured documents |
US7792828B2 (en) | 2003-06-25 | 2010-09-07 | Jericho Systems Corporation | Method and system for selecting content items to be presented to a viewer |
US7206780B2 (en) * | 2003-06-27 | 2007-04-17 | Sbc Knowledge Ventures, L.P. | Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values |
US8150732B2 (en) * | 2003-08-01 | 2012-04-03 | Tacoda Llc | Audience targeting system with segment management |
US7805332B2 (en) | 2003-08-01 | 2010-09-28 | AOL, Inc. | System and method for segmenting and targeting audience members |
US9928522B2 (en) | 2003-08-01 | 2018-03-27 | Oath (Americas) Inc. | Audience matching network with performance factoring and revenue allocation |
US9118812B2 (en) * | 2003-08-01 | 2015-08-25 | Advertising.Com Llc | Audience server |
US9117217B2 (en) | 2003-08-01 | 2015-08-25 | Advertising.Com Llc | Audience targeting with universal profile synchronization |
US8464290B2 (en) | 2003-08-01 | 2013-06-11 | Tacoda, Inc. | Network for matching an audience with deliverable content |
US20050125290A1 (en) * | 2003-08-01 | 2005-06-09 | Gil Beyda | Audience targeting system with profile synchronization |
US8554601B1 (en) | 2003-08-22 | 2013-10-08 | Amazon Technologies, Inc. | Managing content based on reputation |
US8046350B1 (en) | 2003-09-24 | 2011-10-25 | Google Inc. | Systems and methods for detecting commercial queries |
US7617205B2 (en) | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US7783637B2 (en) | 2003-09-30 | 2010-08-24 | Microsoft Corporation | Label system-translation of text and multi-language support at runtime and design |
US7715059B2 (en) * | 2003-10-22 | 2010-05-11 | International Business Machines Corporation | Facsimile system, method and program product with junk fax disposal |
US7814101B2 (en) * | 2003-10-30 | 2010-10-12 | Microsoft Corporation | Term database extension for label system |
US7873536B2 (en) * | 2003-12-11 | 2011-01-18 | Google Inc. | Systems and methods for providing advertisements in a communications network |
US20050154723A1 (en) * | 2003-12-29 | 2005-07-14 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US8392249B2 (en) * | 2003-12-31 | 2013-03-05 | Google Inc. | Suggesting and/or providing targeting criteria for advertisements |
US8041713B2 (en) * | 2004-03-31 | 2011-10-18 | Google Inc. | Systems and methods for analyzing boilerplate |
US7693825B2 (en) * | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US7664734B2 (en) * | 2004-03-31 | 2010-02-16 | Google Inc. | Systems and methods for generating multiple implicit search queries |
US20080040315A1 (en) * | 2004-03-31 | 2008-02-14 | Auerbach David B | Systems and methods for generating a user interface |
US7272601B1 (en) * | 2004-03-31 | 2007-09-18 | Google Inc. | Systems and methods for associating a keyword with a user interface area |
US8631001B2 (en) * | 2004-03-31 | 2014-01-14 | Google Inc. | Systems and methods for weighting a search query result |
US7707142B1 (en) * | 2004-03-31 | 2010-04-27 | Google Inc. | Methods and systems for performing an offline search |
US9009153B2 (en) | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
US7386572B2 (en) * | 2004-04-14 | 2008-06-10 | Nancy Kramer | System and method for a modular user controlled search engine |
US9223868B2 (en) * | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US7788274B1 (en) | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
US8131754B1 (en) | 2004-06-30 | 2012-03-06 | Google Inc. | Systems and methods for determining an article association measure |
US8996481B2 (en) | 2004-07-02 | 2015-03-31 | Goldman, Sach & Co. | Method, system, apparatus, program code and means for identifying and extracting information |
US8510300B2 (en) | 2004-07-02 | 2013-08-13 | Goldman, Sachs & Co. | Systems and methods for managing information associated with legal, compliance and regulatory risk |
US8442953B2 (en) | 2004-07-02 | 2013-05-14 | Goldman, Sachs & Co. | Method, system, apparatus, program code and means for determining a redundancy of information |
US8762191B2 (en) | 2004-07-02 | 2014-06-24 | Goldman, Sachs & Co. | Systems, methods, apparatus, and schema for storing, managing and retrieving information |
JP2006048536A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体 |
US8799079B2 (en) * | 2004-10-22 | 2014-08-05 | Adknowledge, Inc. | System for prioritizing advertiser communications over a network |
US20060095322A1 (en) * | 2004-11-03 | 2006-05-04 | Dierks Timothy M | Determining prospective advertising hosts using data such as crawled documents and document access statistics |
US7953725B2 (en) | 2004-11-19 | 2011-05-31 | International Business Machines Corporation | Method, system, and storage medium for providing web information processing services |
US20060149710A1 (en) | 2004-12-30 | 2006-07-06 | Ross Koningstein | Associating features with entities, such as categories of web page documents, and/or weighting such features |
US20060173822A1 (en) * | 2005-02-03 | 2006-08-03 | Microsoft Corporation | System and method for optimization of results based on monetization intent |
US7962510B2 (en) * | 2005-02-11 | 2011-06-14 | Microsoft Corporation | Using content analysis to detect spam web pages |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US20060230009A1 (en) * | 2005-04-12 | 2006-10-12 | Mcneely Randall W | System for the automatic categorization of documents |
US7660792B2 (en) * | 2005-04-29 | 2010-02-09 | Microsoft Corporation | System and method for spam identification |
US7765481B2 (en) * | 2005-05-03 | 2010-07-27 | Mcafee, Inc. | Indicating website reputations during an electronic commerce transaction |
US20060253584A1 (en) * | 2005-05-03 | 2006-11-09 | Dixon Christopher J | Reputation of an entity associated with a content item |
US20060253582A1 (en) * | 2005-05-03 | 2006-11-09 | Dixon Christopher J | Indicating website reputations within search results |
US7562304B2 (en) | 2005-05-03 | 2009-07-14 | Mcafee, Inc. | Indicating website reputations during website manipulation of user information |
US7822620B2 (en) * | 2005-05-03 | 2010-10-26 | Mcafee, Inc. | Determining website reputations using automatic testing |
US8438499B2 (en) * | 2005-05-03 | 2013-05-07 | Mcafee, Inc. | Indicating website reputations during user interactions |
US9384345B2 (en) | 2005-05-03 | 2016-07-05 | Mcafee, Inc. | Providing alternative web content based on website reputation assessment |
US8566726B2 (en) | 2005-05-03 | 2013-10-22 | Mcafee, Inc. | Indicating website reputations based on website handling of personal information |
US7467146B2 (en) * | 2005-05-05 | 2008-12-16 | International Business Machines Corporation | System, method and program product for determining whether a web page returned to a web browser is a redirected web page |
US20060253423A1 (en) * | 2005-05-07 | 2006-11-09 | Mclane Mark | Information retrieval system and method |
US7996391B2 (en) | 2005-06-20 | 2011-08-09 | Google Inc. | Systems and methods for providing search results |
US20070005564A1 (en) * | 2005-06-29 | 2007-01-04 | Mark Zehner | Method and system for performing multi-dimensional searches |
US7653617B2 (en) * | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US8161044B2 (en) * | 2005-10-26 | 2012-04-17 | International Business Machines Corporation | Faceted web searches of user preferred categories throughout one or more taxonomies |
US7457801B2 (en) * | 2005-11-14 | 2008-11-25 | Microsoft Corporation | Augmenting a training set for document categorization |
US7890502B2 (en) * | 2005-11-14 | 2011-02-15 | Microsoft Corporation | Hierarchy-based propagation of contribution of documents |
IL172551A0 (en) * | 2005-12-13 | 2006-04-10 | Grois Dan | Method for assigning one or more categorized scores to each document over a data network |
US7529761B2 (en) * | 2005-12-14 | 2009-05-05 | Microsoft Corporation | Two-dimensional conditional random fields for web extraction |
US8572560B2 (en) * | 2006-01-10 | 2013-10-29 | International Business Machines Corporation | Collaborative software development systems and methods providing automated programming assistance |
US7933890B2 (en) * | 2006-03-31 | 2011-04-26 | Google Inc. | Propagating useful information among related web pages, such as web pages of a website |
US8701196B2 (en) | 2006-03-31 | 2014-04-15 | Mcafee, Inc. | System, method and computer program product for obtaining a reputation associated with a file |
US8682712B2 (en) * | 2006-05-22 | 2014-03-25 | Google Inc. | Monitoring landing page experiments |
US7526486B2 (en) | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
US7831658B2 (en) * | 2006-05-22 | 2010-11-09 | Google Inc. | Generating landing page variants |
WO2007143157A2 (fr) | 2006-06-02 | 2007-12-13 | Initiate Systems, Inc. | Système et procédé de génération automatique de pondérations pour un appariement probabiliste |
FR2902907B1 (fr) * | 2006-06-21 | 2008-10-17 | Gerald Poitevineau | Procede de recherche d'informations sur un reseau intranet, extranet, internet ou toute autre source de diffusion d'informations numeriques et moteur de recherche pour la mise en oeuvre dudit procede |
US8001130B2 (en) * | 2006-07-25 | 2011-08-16 | Microsoft Corporation | Web object retrieval based on a language model |
US7720830B2 (en) * | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US7921106B2 (en) * | 2006-08-03 | 2011-04-05 | Microsoft Corporation | Group-by attribute value in search results |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
TWI337712B (en) * | 2006-10-30 | 2011-02-21 | Inst Information Industry | Systems and methods for measuring behavior characteristics, and machine readable medium thereof |
US7885952B2 (en) * | 2006-12-20 | 2011-02-08 | Microsoft Corporation | Cloaking detection utilizing popularity and market value |
US9092434B2 (en) * | 2007-01-23 | 2015-07-28 | Symantec Corporation | Systems and methods for tagging emails by discussions |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US8595204B2 (en) * | 2007-03-05 | 2013-11-26 | Microsoft Corporation | Spam score propagation for web spam detection |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121700A1 (fr) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Procédé et système de gestion d'entités |
WO2008121824A1 (fr) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Procédé et système pour échange de données parmi des sources de données |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
US8321393B2 (en) | 2007-03-29 | 2012-11-27 | International Business Machines Corporation | Parsing information in data records and in different languages |
US7698261B1 (en) * | 2007-03-30 | 2010-04-13 | A9.Com, Inc. | Dynamic selection and ordering of search categories based on relevancy information |
US8768932B1 (en) * | 2007-05-14 | 2014-07-01 | Google Inc. | Method and apparatus for ranking search results |
US8713434B2 (en) * | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
US7831611B2 (en) | 2007-09-28 | 2010-11-09 | Mcafee, Inc. | Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites |
CA2701043C (fr) | 2007-09-28 | 2016-10-11 | Initiate Systems, Inc. | Procede et systeme servant a associer des enregistrements de donnees dans plusieurs langues |
BRPI0817507B1 (pt) | 2007-09-28 | 2021-03-23 | International Business Machines Corporation | Método para análise de um sistema para associação de registro de dados, mídia de armazenamento legível por computador e sistema computacional para análise de um centro de identidade |
US8103676B2 (en) * | 2007-10-11 | 2012-01-24 | Google Inc. | Classifying search results to determine page elements |
US8296643B1 (en) | 2007-10-18 | 2012-10-23 | Google Inc. | Running multiple web page experiments on a test page |
US20090119276A1 (en) * | 2007-11-01 | 2009-05-07 | Antoine Sorel Neron | Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results |
US7877368B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information with support for add-on applications |
US7877369B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information |
TWI352934B (en) * | 2007-11-27 | 2011-11-21 | Inst Information Industry | Advertisement selection systems and methods for in |
NO327151B1 (no) * | 2007-11-29 | 2009-05-04 | Fast Search & Transfer Asa | Fremgangsmåte til forbedring av søkeeffektiviteten i et bedriftssøkesystem |
US7991777B2 (en) | 2007-12-03 | 2011-08-02 | Microsoft International Holdings B.V. | Method for improving search efficiency in enterprise search system |
JP5309543B2 (ja) * | 2007-12-06 | 2013-10-09 | 日本電気株式会社 | 情報検索サーバ、情報検索方法及びプログラム |
US8402025B2 (en) * | 2007-12-19 | 2013-03-19 | Google Inc. | Video quality measures |
US7996390B2 (en) * | 2008-02-15 | 2011-08-09 | The University Of Utah Research Foundation | Method and system for clustering identified forms |
US8965865B2 (en) * | 2008-02-15 | 2015-02-24 | The University Of Utah Research Foundation | Method and system for adaptive discovery of content on a network |
US7895293B1 (en) | 2008-02-25 | 2011-02-22 | Google Inc. | Web page experiments with fragmented section variations |
US8010482B2 (en) * | 2008-03-03 | 2011-08-30 | Microsoft Corporation | Locally computable spam detection features and robust pagerank |
JP5020152B2 (ja) * | 2008-04-10 | 2012-09-05 | ヤフー株式会社 | スパム宣言を利用したウェブページ検索装置、方法及びコンピュータ・プログラム |
US8112404B2 (en) * | 2008-05-08 | 2012-02-07 | Microsoft Corporation | Providing search results for mobile computing devices |
US8521732B2 (en) * | 2008-05-23 | 2013-08-27 | Solera Networks, Inc. | Presentation of an extracted artifact based on an indexing technique |
US8625642B2 (en) | 2008-05-23 | 2014-01-07 | Solera Networks, Inc. | Method and apparatus of network artifact indentification and extraction |
US8527339B2 (en) | 2008-06-26 | 2013-09-03 | Microsoft Corporation | Quality based pricing and ranking for online ads |
US8793249B2 (en) * | 2008-09-24 | 2014-07-29 | Yahoo! Inc. | Optimization filters for user generated content searches |
US8494857B2 (en) | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
US8484200B2 (en) * | 2009-01-13 | 2013-07-09 | Infotrieve, Inc. | System and method for the centralized management of a document ordering and delivery program |
US8543569B2 (en) * | 2009-01-13 | 2013-09-24 | Infotrieve, Inc. | System and method for the centralized management of a document ordering and delivery program |
US8412749B2 (en) | 2009-01-16 | 2013-04-02 | Google Inc. | Populating a structured presentation with new values |
US8977645B2 (en) | 2009-01-16 | 2015-03-10 | Google Inc. | Accessing a search interface in a structured presentation |
US8615707B2 (en) | 2009-01-16 | 2013-12-24 | Google Inc. | Adding new attributes to a structured presentation |
US8452791B2 (en) | 2009-01-16 | 2013-05-28 | Google Inc. | Adding new instances to a structured presentation |
US8689117B1 (en) | 2009-10-30 | 2014-04-01 | Google Inc. | Webpages with conditional content |
EP2533163A4 (fr) * | 2010-02-04 | 2015-04-15 | Ebay Inc | Visualisation de listes fondée sur l'activité de liste |
US9390139B1 (en) | 2010-06-23 | 2016-07-12 | Google Inc. | Presentation of content items in view of commerciality |
US20150242884A1 (en) * | 2010-12-13 | 2015-08-27 | David K. Goodman | Cross-vertical publisher and advertiser reporting |
US8849991B2 (en) | 2010-12-15 | 2014-09-30 | Blue Coat Systems, Inc. | System and method for hypertext transfer protocol layered reconstruction |
US9436437B2 (en) * | 2010-12-17 | 2016-09-06 | Microsoft Technology Licensing, Llc | Creation, editing and navigation of diagrams |
US9384408B2 (en) | 2011-01-12 | 2016-07-05 | Yahoo! Inc. | Image analysis system and method using image recognition and text search |
US20120179544A1 (en) * | 2011-01-12 | 2012-07-12 | Everingham James R | System and Method for Computer-Implemented Advertising Based on Search Query |
US8909619B1 (en) | 2011-02-03 | 2014-12-09 | Google Inc. | Providing search results tools |
US8666985B2 (en) | 2011-03-16 | 2014-03-04 | Solera Networks, Inc. | Hardware accelerated application-based pattern matching for real time classification and recording of network traffic |
US8635519B2 (en) | 2011-08-26 | 2014-01-21 | Luminate, Inc. | System and method for sharing content based on positional tagging |
US20130086112A1 (en) | 2011-10-03 | 2013-04-04 | James R. Everingham | Image browsing system and method for a digital content platform |
US8737678B2 (en) | 2011-10-05 | 2014-05-27 | Luminate, Inc. | Platform for providing interactive applications on a digital content platform |
USD736224S1 (en) | 2011-10-10 | 2015-08-11 | Yahoo! Inc. | Portion of a display screen with a graphical user interface |
USD737290S1 (en) | 2011-10-10 | 2015-08-25 | Yahoo! Inc. | Portion of a display screen with a graphical user interface |
US8868536B1 (en) * | 2012-01-04 | 2014-10-21 | Google Inc. | Real time map spam detection |
WO2013138633A1 (fr) | 2012-03-15 | 2013-09-19 | Regents Of The University Of Minnesota | Procédé automatisé d'évaluation de fluidité verbale |
US8255495B1 (en) | 2012-03-22 | 2012-08-28 | Luminate, Inc. | Digital image and content display systems and methods |
US8234168B1 (en) | 2012-04-19 | 2012-07-31 | Luminate, Inc. | Image content and quality assurance system and method |
US8495489B1 (en) | 2012-05-16 | 2013-07-23 | Luminate, Inc. | System and method for creating and displaying image annotations |
US10366401B1 (en) | 2012-06-29 | 2019-07-30 | Google Llc | Content placement optimization |
US20140122663A1 (en) * | 2012-10-31 | 2014-05-01 | Brown Paper Tickets Llc | Overload protection based on web traffic volumes |
CN104281560B (zh) * | 2013-07-05 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 一种记忆文本信息的显示方法、装置及终端 |
JP5882272B2 (ja) * | 2013-08-30 | 2016-03-09 | 京セラドキュメントソリューションズ株式会社 | 資料評価プログラムおよび資料評価装置 |
CN104933570A (zh) * | 2014-03-20 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 用户侦测方法及装置 |
US10853317B2 (en) * | 2015-08-07 | 2020-12-01 | Adp, Llc | Data normalizing system |
GB2571686B (en) * | 2016-11-28 | 2022-02-02 | Cloudamize Inc | System and method for analyzing and associating elements of a computer system by shared characteristics |
WO2021163521A1 (fr) * | 2020-02-13 | 2021-08-19 | Verity Platforms Inc. | Systèmes et procédés de plateforme d'informations |
KR102244699B1 (ko) * | 2020-06-15 | 2021-04-27 | 주식회사 크라우드웍스 | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742816A (en) * | 1995-09-15 | 1998-04-21 | Infonautics Corporation | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic |
US5895470A (en) * | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
US5924090A (en) * | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US6028605A (en) * | 1998-02-03 | 2000-02-22 | Documentum, Inc. | Multi-dimensional analysis of objects by manipulating discovered semantic properties |
WO2000067162A1 (fr) * | 1999-05-05 | 2000-11-09 | West Publishing Company | Systeme, procede et logiciel servant a classer des documents |
WO2001046870A1 (fr) * | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | Systeme et procede pour la localisation et la presentation d'offres de produits accessibles sur internet |
EP1120722A2 (fr) * | 2000-01-13 | 2001-08-01 | Applied Psychology Research Limited | Procédé et dispositif pour générer des données de catégorie |
WO2001075728A1 (fr) * | 2000-03-30 | 2001-10-11 | I411, Inc. | Procedes et systemes permettant la recuperation efficace de donnees a partir de collections de donnees |
WO2002006993A1 (fr) * | 2000-07-17 | 2002-01-24 | Asymmetry, Inc. | Systeme et procedes de recherche de ressources web |
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4735A (en) * | 1846-09-03 | Improvement in separating oleic and stearic agios | ||
US855008A (en) * | 1906-03-21 | 1907-05-28 | Homer G Kellogg | Coin-controlled apparatus. |
WO1995016971A1 (fr) * | 1993-12-16 | 1995-06-22 | Open Market, Inc. | Publicite numerique active |
US5623660A (en) * | 1994-04-22 | 1997-04-22 | Josephson; Jeffrey L. | System for regulating access to data base for purposes of data base management |
US5768521A (en) * | 1994-05-16 | 1998-06-16 | Intel Corporation | General purpose metering mechanism for distribution of electronic information |
US5515488A (en) | 1994-08-30 | 1996-05-07 | Xerox Corporation | Method and apparatus for concurrent graphical visualization of a database search and its search history |
US5826241A (en) * | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
US5724521A (en) * | 1994-11-03 | 1998-03-03 | Intel Corporation | Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner |
US5752238A (en) * | 1994-11-03 | 1998-05-12 | Intel Corporation | Consumer-driven electronic information pricing mechanism |
US5717923A (en) * | 1994-11-03 | 1998-02-10 | Intel Corporation | Method and apparatus for dynamically customizing electronic information to individual end users |
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5704060A (en) * | 1995-05-22 | 1997-12-30 | Del Monte; Michael G. | Text storage and retrieval system and method |
US5748954A (en) * | 1995-06-05 | 1998-05-05 | Carnegie Mellon University | Method for searching a queued and ranked constructed catalog of files stored on a network |
US5794210A (en) | 1995-12-11 | 1998-08-11 | Cybergold, Inc. | Attention brokerage |
US5788367A (en) * | 1995-12-13 | 1998-08-04 | Jury Alexeevich Budaev | Pneumatic vibrator |
US5778367A (en) | 1995-12-14 | 1998-07-07 | Network Engineering Software, Inc. | Automated on-line information service and directory, particularly for the world wide web |
US5724524A (en) * | 1995-12-15 | 1998-03-03 | Pitney Bowes, Inc. | Method and system for listing, brokering, and exchanging carrier capacity |
WO1997022066A1 (fr) | 1995-12-15 | 1997-06-19 | The Softpages, Inc. | Procede pour la publicite assistee par ordinateur |
US5918014A (en) * | 1995-12-27 | 1999-06-29 | Athenium, L.L.C. | Automated collaborative filtering in world wide web advertising |
US5826267A (en) * | 1996-03-20 | 1998-10-20 | Mcmillan; James Michael | Web information kiosk |
US5848397A (en) * | 1996-04-19 | 1998-12-08 | Juno Online Services, L.P. | Method and apparatus for scheduling the presentation of messages to computer users |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5864846A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Method for facilitating world wide web searches utilizing a document distribution fusion strategy |
US5864845A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5862223A (en) * | 1996-07-24 | 1999-01-19 | Walker Asset Management Limited Partnership | Method and apparatus for a cryptographically-assisted commercial network system designed to facilitate and support expert-based commerce |
US5852820A (en) * | 1996-08-09 | 1998-12-22 | Digital Equipment Corporation | Method for optimizing entries for searching an index |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5788357A (en) | 1996-08-28 | 1998-08-04 | K. W. Muth Company, Inc. | Mirror assembly |
GB2331166B (en) * | 1997-11-06 | 2002-09-11 | Ibm | Database search engine |
US5903882A (en) * | 1996-12-13 | 1999-05-11 | Certco, Llc | Reliance server for electronic transaction system |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6285987B1 (en) * | 1997-01-22 | 2001-09-04 | Engage, Inc. | Internet advertising system |
US6041331A (en) * | 1997-04-01 | 2000-03-21 | Manning And Napier Information Services, Llc | Automatic extraction and graphic visualization system and method |
US5930777A (en) * | 1997-04-15 | 1999-07-27 | Barber; Timothy P. | Method of charging for pay-per-access information over a network |
US5933145A (en) | 1997-04-17 | 1999-08-03 | Microsoft Corporation | Method and system for visually indicating a selection query |
US5886698A (en) | 1997-04-21 | 1999-03-23 | Sony Corporation | Method for filtering search results with a graphical squeegee |
US6012053A (en) | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US6014664A (en) * | 1997-08-29 | 2000-01-11 | International Business Machines Corporation | Method and apparatus for incorporating weights into data combinational rules |
US6073135A (en) * | 1998-03-10 | 2000-06-06 | Alta Vista Company | Connectivity server for locating linkage information between Web pages |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6038574A (en) | 1998-03-18 | 2000-03-14 | Xerox Corporation | Method and apparatus for clustering a collection of linked documents using co-citation analysis |
JP3696731B2 (ja) | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6356898B2 (en) * | 1998-08-31 | 2002-03-12 | International Business Machines Corporation | Method and system for summarizing topics of documents browsed by a user |
US6078866A (en) * | 1998-09-14 | 2000-06-20 | Searchup, Inc. | Internet site searching and listing service based on monetary ranking of site listings |
EP1171828A1 (fr) | 1999-01-08 | 2002-01-16 | Micro-Integration Corporation | Base de donnees et interface pour moteur de recherche |
US6907566B1 (en) * | 1999-04-02 | 2005-06-14 | Overture Services, Inc. | Method and system for optimum placement of advertisements on a webpage |
US6836768B1 (en) | 1999-04-27 | 2004-12-28 | Surfnotes | Method and apparatus for improved information representation |
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US6606657B1 (en) | 1999-06-22 | 2003-08-12 | Comverse, Ltd. | System and method for processing and presenting internet usage information |
US6353825B1 (en) * | 1999-07-30 | 2002-03-05 | Verizon Laboratories Inc. | Method and device for classification using iterative information retrieval techniques |
US6665665B1 (en) | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6775665B1 (en) * | 1999-09-30 | 2004-08-10 | Ricoh Co., Ltd. | System for treating saved queries as searchable documents in a document management system |
JP2001134616A (ja) | 1999-10-25 | 2001-05-18 | Nec Corp | 特定の話題に関するウェブ情報の構成方法とその構成システム |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
US20020004735A1 (en) * | 2000-01-18 | 2002-01-10 | William Gross | System and method for ranking items |
KR20010102687A (ko) | 2000-05-04 | 2001-11-16 | 정만원 | 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템 |
US6721721B1 (en) | 2000-06-15 | 2004-04-13 | International Business Machines Corporation | Virus checking and reporting for computer database search results |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
US6826594B1 (en) * | 2000-07-15 | 2004-11-30 | Commission Junction | Method and system for remote content management of a designated portion of a web page |
US6654743B1 (en) * | 2000-11-13 | 2003-11-25 | Xerox Corporation | Robust clustering of web documents |
US20020077998A1 (en) * | 2000-12-08 | 2002-06-20 | Brian Andrews | Web based system and method for managing sales deals |
US6594670B1 (en) | 2000-12-22 | 2003-07-15 | Mathias Genser | System and method for organizing search criteria match results |
US6694307B2 (en) * | 2001-03-07 | 2004-02-17 | Netvention | System for collecting specific information from several sources of unstructured digitized data |
US20020169770A1 (en) * | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US6965900B2 (en) * | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
US7231395B2 (en) | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US20040103073A1 (en) | 2002-11-21 | 2004-05-27 | Blake M. Brian | System for and method of using component-based development and web tools to support a distributed data management system |
-
2002
- 2002-05-24 US US10/155,290 patent/US7231395B2/en not_active Expired - Lifetime
-
2003
- 2003-05-22 CA CA002429338A patent/CA2429338C/fr not_active Expired - Fee Related
- 2003-05-23 AU AU2003204327A patent/AU2003204327B2/en not_active Ceased
- 2003-05-23 EP EP03253259A patent/EP1367509A3/fr not_active Withdrawn
- 2003-05-23 GB GB0311975A patent/GB2389682A/en not_active Withdrawn
- 2003-05-23 KR KR1020030032717A patent/KR100852034B1/ko active IP Right Grant
- 2003-05-23 DE DE10323444A patent/DE10323444A1/de not_active Ceased
- 2003-05-23 FR FR0306287A patent/FR2840088B1/fr not_active Expired - Fee Related
- 2003-05-23 JP JP2003183555A patent/JP3905498B2/ja not_active Expired - Fee Related
- 2003-05-26 CN CNB031370004A patent/CN100517304C/zh not_active Expired - Fee Related
-
2006
- 2006-04-28 US US11/413,627 patent/US7792818B2/en not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742816A (en) * | 1995-09-15 | 1998-04-21 | Infonautics Corporation | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic |
US5895470A (en) * | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
US5924090A (en) * | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6028605A (en) * | 1998-02-03 | 2000-02-22 | Documentum, Inc. | Multi-dimensional analysis of objects by manipulating discovered semantic properties |
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
WO2000067162A1 (fr) * | 1999-05-05 | 2000-11-09 | West Publishing Company | Systeme, procede et logiciel servant a classer des documents |
WO2001046870A1 (fr) * | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | Systeme et procede pour la localisation et la presentation d'offres de produits accessibles sur internet |
EP1120722A2 (fr) * | 2000-01-13 | 2001-08-01 | Applied Psychology Research Limited | Procédé et dispositif pour générer des données de catégorie |
WO2001075728A1 (fr) * | 2000-03-30 | 2001-10-11 | I411, Inc. | Procedes et systemes permettant la recuperation efficace de donnees a partir de collections de donnees |
WO2002006993A1 (fr) * | 2000-07-17 | 2002-01-24 | Asymmetry, Inc. | Systeme et procedes de recherche de ressources web |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468456B2 (en) * | 2014-08-05 | 2022-10-11 | Groupon, Inc. | Method and system for generating purchase recommendations based on purchase category associations |
Also Published As
Publication number | Publication date |
---|---|
GB2389682A (en) | 2003-12-17 |
AU2003204327B2 (en) | 2006-12-21 |
GB0311975D0 (en) | 2003-06-25 |
CN100517304C (zh) | 2009-07-22 |
US7231395B2 (en) | 2007-06-12 |
DE10323444A1 (de) | 2003-12-11 |
JP3905498B2 (ja) | 2007-04-18 |
FR2840088B1 (fr) | 2008-05-16 |
CA2429338A1 (fr) | 2003-11-24 |
CA2429338C (fr) | 2007-01-16 |
KR100852034B1 (ko) | 2008-08-13 |
KR20030091751A (ko) | 2003-12-03 |
EP1367509A3 (fr) | 2005-08-31 |
JP2004164578A (ja) | 2004-06-10 |
US7792818B2 (en) | 2010-09-07 |
CN1462005A (zh) | 2003-12-17 |
US20060265400A1 (en) | 2006-11-23 |
EP1367509A2 (fr) | 2003-12-03 |
US20030220912A1 (en) | 2003-11-27 |
AU2003204327A1 (en) | 2003-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2840088A1 (fr) | Moteur de recherche et base de donnees, et procedes pour leur mise en oeuvre | |
US8260786B2 (en) | Method and apparatus for categorizing and presenting documents of a distributed database | |
Rowley | Product search in e‐shopping: a review and research propositions | |
TWI398820B (zh) | 社交網路中以品牌引擎修改內容顯示 | |
Terveen et al. | Beyond recommender systems: Helping people help each other | |
Eirinaki et al. | Web mining for web personalization | |
US8170916B1 (en) | Related-item tag suggestions | |
US20110289063A1 (en) | Query Intent in Information Retrieval | |
US20080288494A1 (en) | System Enabling Social Networking Through User-Generated Lists | |
Clay et al. | Search engine optimization all-in-one for dummies | |
FR2802671A1 (fr) | Methode, systeme et produit pour classer des resultats de recherche a l'aide d'un indice d'audience | |
FR2947358A1 (fr) | Un assistant-conseiller utilisant l'analyse semantique des echanges communautaires | |
FR2833377A1 (fr) | Procede et dispositif de recommandation de termes de recherche en utilisant un filtrage collaboratif et un effet de toile d'araignee web | |
EP2301192A1 (fr) | Facilitation des recherches collaboratives à l aide de contextes sémantiques associés à des informations | |
WO2007050368A2 (fr) | Systeme et procede mis en oeuvre par ordinateur permettant d'obtenir des informations sur mesure liees a un contenu multimedia | |
FR2762460A1 (fr) | Systeme destine a fournir un environnement et une interface utilisateur ameliores pour des technologies de discussion en ligne | |
FR2802670A1 (fr) | Procede de communication de biens ou de services par des moyens electroniques sur des reseaux du type internet | |
US20240160656A1 (en) | System and Method for Automated Integration of Contextual Information with a Series of Digital Images Displayed in a Display Space | |
Śpiewanowski et al. | Applications of Web Scraping in Economics and Finance | |
Vossen et al. | From Version 1.0 to Version 2.0: A brief history of the web | |
Jain et al. | " Ad you like it" advertisement sourcing and selection technique across multiple heterogeneous applications | |
AU2007201222A1 (en) | Method and apparatus for categorizing and presenting documents of a distributed database | |
Lousão | Back to the past to charter the vinyl electronic market | |
FR2947070A1 (fr) | Procede pour completer une information represente sur un support - site de liens. | |
FR2806184A1 (fr) | Systeme de navigation mis en oeuvre dans un systeme informatique pour acceder a des pages fournies par des serveurs via un reseau informatique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TP | Transmission of property | ||
PLFP | Fee payment |
Year of fee payment: 14 |
|
TP | Transmission of property |
Owner name: EXCALIBUR IP, LLC, US Effective date: 20160706 |
|
PLFP | Fee payment |
Year of fee payment: 15 |
|
PLFP | Fee payment |
Year of fee payment: 16 |
|
PLFP | Fee payment |
Year of fee payment: 18 |
|
ST | Notification of lapse |
Effective date: 20220105 |