BRPI0817507B1

BRPI0817507B1 - Método para análise de um sistema para associação de registro de dados, mídia de armazenamento legível por computador e sistema computacional para análise de um centro de identidade

Info

Publication number: BRPI0817507B1
Application number: BRPI0817507-1A
Authority: BR
Inventors: Glenn Goldenberg; Scott Schumacher; Jason Woods
Original assignee: International Business Machines Corporation
Priority date: 2007-09-28
Filing date: 2008-09-26
Publication date: 2021-03-23
Also published as: AU2008304265B2; CA2701046A1; JP2011503681A; AU2008304265A1; BRPI0817507A2; CA2701046C; EP2193415A1; US10698755B2; WO2009042941A1; US8799282B2; US20140281729A1; CN101878461B; US20090089630A1; CN101878461A; JP5306360B2; EP2193415A4

Abstract

método e sistema para análise de um sistema para associação de registro de dados. esta divulgação refere-se geralmente a associar registros de dados e, mais particularmente, à identificação de registros de dados que podem conter informações sobre a mesma entidade de tal forma que os registros destes dados podem ser associado. ainda mais particularmente, concretizações aqui descritas podem referir-se a um sistema de análise para a identificação e a associação dos registros de dados, incluindo análises relacionadas com o desempenho ou a configuração de um tal sistema.

Description

MÉTODO PARA ANÁLISE DE UM SISTEMA PARA ASSOCIAÇÃO DE REGISTRO DE DADOS, MÍDIA DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR E SISTEMA COMPUTACIONAL PARA ANÁLISE DE UM CENTRO DE IDENTIDADE

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[0001] Este pedido reivindica prioridade do pedido de patente provisório n° 60 / 997,038, depositado em 28 de setembro de 2007, intitulado "METODO E SISTEMA PARA ANÁLISE DE UM SISTEMA PARA COMBINAR OS REGISTROS DE DADOS", que é totalmente incorporado aqui por referência. Este pedido também se refere ao pedido de patente US No. 12 / 056,720, apresentado em 27 de março de 2008, intitulado "MÉTODO E SISTEMA PARA GERENCIAMENTO DE ENTIDADES", US 11 / 967,588, depositado em 31 de dezembro de 2007, intitulado "MÉTODO E SISTEMA PARA ANALISAR IDIOMAS", No. US 11 / 904,750, depositado em 28 de setembro de 2007, intitulado: "MÉTODO E SISTEMA PARA INDEXAÇÃO, RELATO E GESTÃO DE INFORMAÇÕES SOBRE ENTIDADES", US 11/901, 040, apresentado em 14 de setembro de 2007, intitulado: "SISTEMA DE GERENCIAMENTO GLOBAL DE HIERARQUIA E INTERFACE DE USUÁRIO", US 11 / 900,769, apresentado em 13 de setembro de 2007, intitulado: "SEGMENTOS DEFINIDOS POR IMPLEMENTAÇÃO PARA SISTEMAS DE BANCO DE DADOS RELACIONAL", US 11 / 824,210, apresentado em 1 de junho de 2007, intitulado: "SISTEMA E MÉTODO PARA GERAÇÃO AUTOMÁTICA DE PESO PARA CORRESPONDÊNCIA PROBABILÍSTICA", No. 11 / 7 02,410, apresentado em 5 de fevereiro de 2007, intitulado: "MÉTODO E SISTEMA PARA UMA INTERFACE GRÁFICA PARA A CONFiguraÇÃO DE UM ALGORITMO PARA A ASSOCIAÇÃO DE REGISTROS DE DADOS", US 11/116,561, apresentado em 22 de janeiro de 2007, intitulado: "MÉTODO E SISTEMA DE INFORMAÇÃO SOBRE INDEXAÇÃO DE ENTIDADES COM RESPEITO A HIERARQUIAS", US 11 / 522,223, apresentado em setembro 15, 2006, intitulado: "MÉTODO E SISTEMA PARA COMPARAR ATRIBUTOS, COMO NOMES PESSOAIS", e US 11/521, 928, apresentado em 15 de setembro de 2006, intitulado "MÉTODO E SISTEMA PARA COMPARAR OS ATRIBUTOS, COMO NOMES DE NEGÓCIO". Todos os pedidos referenciados neste parágrafo estão totalmente incorporados aqui para todos os efeitos.

CAMPO TÉCNICO

[0002] Esta divulgação refere-se geralmente a associar registros de dados e, mais particularmente, à identificação de registros de dados que podem conter informações sobre a mesma entidade de tal forma que os registros Estes dados podem ser associado. Ainda mais particularmente, concretizações aqui descritos pode referir-se a um sistema de análise para a identificação e a associação dos registros de dados, incluindo análises relacionadas com o desempenho ou a configuração de um tal sistema.

ANTECEDENTES

[0003] Na era de hoje e idade, a grande maioria das empresas manter grandes quantidades de dados sobre vários aspectos de suas operações, como estoques, clientes, produtos, etc. Dados sobre entidades, tais como pessoas, produtos, peças ou qualquer coisa mais pode ser armazenado em formato digital num armazenamento de dados, tais como uma base de dados de computador. Esses bancos de dados de computador permitem que os dados sobre uma entidade para serem acessados rapidamente e permitir que os dados sejam cruzados com outras peças relevantes de dados sobre a mesma entidade. Os bancos de dados também permitem que uma pessoa para consultar o banco de dados para encontrar registros de dados relativos a uma entidade particular, de tal forma que os registros de dados de vários armazenamentos de dados pertencentes à mesma entidade podem ser associados um ao outro.

[0004] Um armazenamento de dados, no entanto, tem várias limitações que possam limitar a capacidade de encontrar os dados corretos sobre uma entidade do armazenamento de dados. Os dados reais dentro do armazenamento de dados só são tão precisos quanto a pessoa que introduziu os dados, ou uma fonte de dados original. Assim, um erro na entrada dos dados para o armazenamento de dados pode causar uma busca de dados sobre uma entidade no banco de dados de perder dados relevantes sobre a entidade, porque, por exemplo, um último nome de uma pessoa foi digitado incorretamente ou a segurança social número foi digitado incorretamente, etc. Uma série de esses tipos de problemas pode ser imaginado: dois registro separado para uma entidade que já tem um registro no banco de dados pode ser criado de tal forma que vários registros de dados poderão conter informações sobre a mesma entidade, mas , por exemplo, os nomes ou números de identificação contidos nos dois registros de dados podem ser diferentes, de modo que ele pode ser difícil de associar os registros de dados referentes a uma mesma pessoa com outra.

[0005] Para uma empresa que opera um ou mais dados lojas que contêm um grande número de registros de dados, a capacidade de localizar informações relevantes sobre uma determinada entidade dentro e entre as respectivas bases de dados é muito importante, mas não é facilmente obtida. Mais uma vez, qualquer erro na entrada de dados (incluindo, sem limitação, a criação de mais de um registro de dados para a mesma entidade) em qualquer fonte de informação pode causar dados relevantes para ser desperdiçada quando os dados para uma entidade particular é procurado no banco de dados, além disso, em casos que envolvam múltiplas fontes de informação, cada uma das informações fontes podem ter sintaxe de dados ligeiramente diferentes ou formatos que pode complicar ainda mais o processo de encontrar dados entre os bancos de dados. Um exemplo da necessidade de identificar corretamente uma entidade referida em um registro de dados e para localizar todos os registros de dados relativos a uma entidade no campo da saúde é aquele em que um número de diferentes hospitais associados a uma determinada organização de cuidados de saúde pode ter um ou mais fontes de informação que contenham informações sobre o seu paciente, e uma organização de saúde recolhe as informações de cada um dos hospitais em um banco de dados mestre. É necessário vincular os registros de dados de todas as fontes de informação que pertencem ao mesmo paciente para permitir a busca de informações para um determinado paciente em todos os registros hospitalares.

[0006] Há vários problemas que limitam a capacidade de encontrar todas as dados relevantes sobre uma entidade de tal banco de dados. Podem existir múltiplos registros de dados para uma entidade particular como resultado de registros de dados separados recebidos de uma ou mais fontes de informação, o que leva a um problema que pode ser chamado de fragmentação de dados. No caso de fragmentação de dados, uma consulta do banco de dados mestre não pode recuperar todas as informações relevantes sobre uma determinada entidade. Além disso, tal como descrito acima, a consulta pode perder alguma informação relevante sobre uma entidade devido a um erro de digitação feita durante a entrada de dados, o que leva ao problema de inacessibilidade de dados. Além disso, um grande banco de dados pode conter registros de dados que parecem ser idênticas, como uma pluralidade de registros para as pessoas com o sobrenome Smith e o primeiro nome de Jim. Uma consulta do banco de dados irá recuperar todos esses registros de dados e uma pessoa que fez a consulta à base de dados pode, muitas vezes escolher, ao acaso, um dos registros de dados recuperados que podem ser o registro de dados errado. A pessoa não pode muitas vezes tipicamente tentativa para determinar qual dos registros é apropriado. Isso pode levar a os registros de dados para a entidade errada sendo recuperados, mesmo quando os registros de dados corretos estão disponíveis. Estes problemas limitam a capacidade de localizar a informação para uma entidade específica dentro do banco de dados.

[0007] Para reduzir a quantidade de dados que devem ser revistos, e impedir que o usuário escolher o registro de dados errado, é também desejável para identificar e associar registros de dados das várias fontes de informação que podem conter informações sobre a mesma entidade. Existem sistemas convencionais que colocam os registros de dados numa base de dados duplicados e excluir esses registros de dados duplicados, mas estes sistemas só podem localizar os registros de dados que são substancialmente idênticos uns aos outros. Assim, estes sistemas convencionais não são possíveis determinar se dois registros de dados, com, por exemplo, sobrenomes ligeiramente diferentes, no entanto, conter informações sobre a mesma entidade. Além disso, estes sistemas convencionais não tentam registros de dados de índice a partir de uma pluralidade de diferentes fontes de informação, localizar registros de dados dentro de uma ou mais fontes de informação que contenham informações sobre a mesma entidade, e vincular os registros de dados em conjunto. Consequentemente, seria desejável ser capaz de associar os registros de dados a partir de uma pluralidade de fontes de informação, que dizem respeito a uma mesma pessoa, apesar de discrepâncias entre os atributos destes registros de dados e ser capaz de montar e apresentar informação proveniente dos vários registros de dados numa coesa maneira. Na prática, no entanto, pode ser extremamente difícil para fornecer uma visualização precisa, codificada da informação a partir de uma pluralidade de fontes de informação.

SUMÁRIO DA DESCRIÇÃO

[0008] À medida que os registros de dados a partir de várias fontes podem ser diferentes em ambos e no formato de dados que eles contêm, a configuração de sistemas de processamento de dados podem apresentar um trabalho de Hércules. Essas dificuldades são em parte causadas porque a configuração do processo pode ser uma tarefa manualmente intensivo que exige uma grande quantidade de especializado conhecimento da arquitetura e capacidades do sistema a ser utilizado para a associação de registros de dados e, além disso, um elevado grau de análise e minutos atenção aos detalhes para assegurar que a configuração resultante do algoritmo (s) usado para associar os registros de dados irá produzir os resultados desejados.

[0009] Estas dificuldades podem ser ainda mais exacerbado pelas necessidades individuais dos usuários de um tal sistema. Por exemplo, em certas indústrias tais como as indústrias de cuidados de saúde, pode ser importante que os registros de dados não ser associados um ao outro de forma incorreta (referido como um falso positivo), enquanto que em outras indústrias menos críticas podem ser menos preocupado com a associação incorreta e mais preocupados que os registros de dados que pode pertencem à mesma entidade estar associada a evitar o caso em que os registros de dados que devem ser associados não são (referido como falsos negativos). Na verdade, alguns usuários podem ter requisitos rigorosos ou orientações relativas ao número de falsos positivos ou falsos negativos permitidos.

[0010] À medida que, pelo menos, certas porções do sistema pode ser configurado ou sintonizado utilizando um conjunto de amostras de dados, a configuração do sistema estabelecido com base nessa amostra conjunto inicial de dados podem não produzir os resultados desejados quando aplicados a todos os dados, ou uma amostra maior de dados.

[0011] Pode ser difícil, contudo, para determinar a forma como o sistema está a funcionar com respeito a uma certa configuração e, mesmo que ele possa ser determinar a forma como o sistema está em funcionamento, pode ser difícil de corrigir a configuração para atingir o resultado desejado, como os algoritmos utilizados pelo sistema podem ser bastante complexos.

[0012] Assim, existe uma necessidade para o sistema e os métodos para a análise do funcionamento de um sistema para a associação de registros de dados de tal forma que o sistema pode ser configurado de acordo com o desejo do usuário.

[0013] As concretizações aqui divulgadas fornecem sistemas e métodos para analisar e apresentar os parâmetros de desempenho em ligação com um sistema de indexação ou que associem de registros de dados. Estes sistemas e métodos podem fornecer ferramentas de software úteis para as análises estatísticas e apresentações de dados sobre a configuração ou o desempenho da Carteira do Cubo de identidade ™ por Initiate Systems, Inc. Exemplo concretizações da Initiate cubo de identidade ™ podem ser encontrados nos pedidos de patente dos EUA citados neste divulgação.

[0014] Em algumas concretizações, estas ferramentas incluem uma ferramenta de análise balde, um instrumento de análise de dados, um instrumento de análise entidade, e uma análise de ligação ou instrumento de análise de limiar. Mais especificamente, numa concretização, uma ferramenta de análise de balde pode ser operável para analisar e apresentar os dados referentes à geração candidato e seleção (ou seja, bucketing) dentro de um núcleo de identidade. Numa concretização, uma ferramenta de análise entidade pode ser operável para analisar e apresentar dados relativos à associação dos registros de dados. Numa concretização, uma ferramenta de análise de ligação pode ser operável para analisar e apresentar os dados relacionados com a configuração de vários níveis de limiar para a ligação de registros de dados e os seus efeitos sobre o sistema. As ferramentas também podem fornecer capacidade de previsualização de tal modo que um usuário pode enviar um possivel valor de um parâmetro e a ferramenta pode calcular e prever o efeito (s) de que o valor sobre o funcionamento ou o desempenho do sistema.

[0015] Em algumas concretizações, uma interface gráfica de usuário pode ser apresentada para uso com estas diversas ferramentas de tal forma que os dados relativos à configuração ou desempenho de um cubo de identidade pode ser graficamente apresentados a um usuário e proporcionar ao usuário a capacidade de interagir com as ferramentas de análise para obter o desejado informações. Esta interface gráfica do usuário pode também ser fornecida em conjunto com uma outra interface de usuário gráfica, ou compreendem funcionalidade dos mesmos, para a configuração de pelo menos uma parte de um cubo de identidade, de tal modo que um usuário pode alterar a configuração do cubo da identidade e analisar os resultados de tal configuração. Essas interfaces podem, por exemplo, incluir uma ou mais páginas da web que podem ser acessados através de um navegador web. Estas páginas podem, por exemplo estar em formato HTML ou XHTML, e pode fornecer navegação para outras páginas da web através de links de hipertexto. Estas páginas podem ser recuperadas por um usuário (por exemplo, usando Hypertext Transfer Protocol ou HTTP) de um computador local ou de um servidor web remoto onde o servidor pode restringir o acesso apenas a uma rede privada (por exemplo, uma intranet corporativa) ou pode publicar páginas na World Wide Web.

[0016] Numa concretização, tal interface gráfica do usuário pode ser apresentada dentro de uma ferramenta de configuração, de modo que várias análises podem ser apresentados a um usuário configurar um cubo identidade quando necessário de modo que um usuário pode encontrar dados anomalias dentro dados nas fontes de informação utilizadas com o cubo identificar. Tal interface pode também proporcionar a capacidade de guardar as estatísticas determinados ou outros parâmetros do cubo de identidade com uma configuração particular do cubo de identidade, de tal modo que o funcionamento do concentrador de identidade pode ser comparada em vários momentos e em diferentes configurações.

[0017] Quando um registro de dados vem em um centro de identidade, ou o cubo identidade é pesquisado com base em um ou mais critérios, um ou mais baldes podem ser criados. Assim, o desempenho do sistema (por exemplo, tempo de produção, etc) pode ser fortemente dependente do tamanho dos baldes criados numa dada instância. Consequentemente, pode ser desejado para obter estatísticas sobre o tamanho ou tipo de baldes criado, por que esses baldes foram criados, como esses baldes foram criados, os registros de dados que compreendem estes baldes, como esses baldes afetar o desempenho do sistema, etc.

[0018] Por conseguinte, numa concretização, uma ferramenta de análise de balde pode fornecer um perfil de bucketing distribuição, tais como a dimensão das várias baldes gerados e os diferentes registros de dados que compreendem estes baldes, juntamente com os vários registros de dados associados com o centro de identidade que fez não são colocados em um balde. Baldes grandes (por exemplo, mais de mil registros de dados) pode indicar que a frequência dos dados é diferente do que o esperado ou que certos valores de dados anônimos ou comuns não têm sido devidamente contabilizados. Por exemplo, se o nome de "John Doe” é utilizada por uma organização para registros de dados desconhecidos esse nome pode aparecer um número incomum de vezes. Pequenos baldes podem indicar que os critérios de bucketing atualmente a ser utilizados podem ser muito rigorosos .

[0019] Consequentemente, a ferramenta de análise bucketing pode fornecer não só um perfil de bucketing distribuição, mas o efeito que a distribuição, ou outra distribuição, terá sobre o rendimento do cubo de identidade para assegurar que o desempenho do cubo de identidade está dentro da gama desejada. Na mesma linha, a ferramenta de análise balde pode fornecer a capacidade de visualizar ou analisar o algoritmo usado para criar os baldes e os registros de dados específicos que compõem esses baldes e a capacidade de reconfigurar identificar parâmetros de cubo ou certos do cubo de identidade, quer diretamente ou através de outro aplicativo. Em conjunto com esta funcionalidade da ferramenta de análise balde pode também proporcionar a capacidade para estimar o desempenho do Cubo de identidade sob uma carga em tempo real de tal modo que pode ser assegurado que o desempenho está dentro dos parâmetros desejados.

[0020] Em certos casos, por causa das anomalias dentro registros de dados de membro de dados certos registros podem ser incorretamente ligados ou associados (por exemplo, como entidades), enquanto pouca ou nenhuma ligação entre os registros de dados também podem indicar problemas. Estas anomalias de dados e outros problemas associados com a ligação ou que associem de registros de dados podem, portanto, ser melhor analisado ou diagnosticada por analisar a distribuição de tamanhos de entidade. Em uma realização, uma ferramenta de análise entidade pode fornecer a capacidade de calcular e visualizar a distribuição de tamanhos de entidade, mostrando como muitas entidades compreender um registro de dados, quantas entidades compreendem dois registros de dados, etc. Uma distribuição estranho ou valores atípicos dentro desta distribuição pode indicar problemas, ou indicam que alterações na configuração do cubo de identidade precisam ocorrer (por exemplo, nomes anônimos ou endereços). A ferramenta de análise entidade pode fornecer mais capacidades analíticas. Um exemplo capacidade analítica pode ser a capacidade de visualizar os grupos de distribuição por tamanho, para analisar as entidades individuais dentro de um grupo de distribuição (por exemplo, entidades que compõem três registros de dados de membro), para exibir registros de dados de membro individuais dentro de uma entidade (por exemplo, visualizar o valor dos atributos do registro de dados usuário) ou para comparar dois ou mais membros dentro de uma entidade (por exemplo, comparar os valores dos atributos dos dois membros) para que ele pode ser determinado por que esses registros de dados membro estavam ligados, etc.

[0021] As concretizações de um cubo de identidade pode ser configurado com softlink e AutoLink limiares. Estes limiares podem afectar significativamente o desempenho do cubo de identidade. Assim, algumas concretizações aqui divulgadas fornecer as habilidades para um usuário para analisar e ver como os limiares softlink e AutoLink configurados afetar o sistema de desempenho (por exemplo, falsos negativos ou falsos positivos, rendimento, etc.) e analisar como ajustes para esses diferentes limiares pode alterar o comportamento do cubo de identidade.

[0022] Mais especificamente, em algumas concretizações, estas interfaces e mostradores podem fornecer ao usuário a capacidade para selecionar taxas de falsos positivos desejado ou taxas de falsos negativos e ver o efeito sobre os níveis de limiar. O usuário pode, em algumas concretizações de um instrumento de análise de limiar aqui divulgado determinar quais os níveis de limiar devem ser de modo a alcançar as desejadas taxas de falsos positivos ou de falsos-negativos. Em algumas concretizações, as ligações entre os registros de dados que se situam entre o softlink e os limiares AutoLink poderão ter de ser revistos manualmente. Algumas concretizações de um instrumento de análise de limiar pode fornecer uma estimativa do valor de avaliação manual que pode ser gerado com o softlink configurado e os limiares AutoLink. Algumas concretizações de uma ferramenta de análise limite pode fornecer um usuário com a capacidade de ajustar as taxas negativas falsos positivos e falsos ou percentagens desejado e limiar ferramenta de análise irá alterar para mostrar o que os níveis de limite deve ser, ou vice-versa.

[0023] Numa concretização, uma taxa de falsos positivos pode ser relacionado com o tamanho do problema (por exemplo, o número de registros de dados), enquanto a taxa de falso negativo pode ser relacionada com a quantidade de informação em cada registros de dados. Assim, a taxa de falsos positivos ou curva pode ser estimado com base no número de registros e a taxa de falsos negativos ou curva podem ser estimados com base na distribuição de dados através de todos os registros. Como estas estimativas pode estar relacionada com a geração de massa em conjugação com o cubo de identidade, estas estimativas podem ser feitas após tal geração peso. Com base em uma revisualização manual de um conjunto de registros de dados ligados em que um usuário pode determinar se os registros ter sido correta ou incorretamente ligados (por exemplo, o que pode ocorrer durante a configuração do cubo de identidade), estas curvas podem depois ser ajustadas, equipadas ou corrigidas usando uma ferramenta de análise de desempenho. Em algumas concretizações, estas curvas podem ser apresentadas graficamente para um usuário em conjunto com representação gráfica dos limiares de tal forma que o usuário pode ajustar as diversas taxas negativas falsos positivos ou falsos e ver onde os diferentes limiares deve ser definido e a quantidade de revisualização manual que pode resultar de estes limiares.

[0024] Por conseguinte, concretizações aqui descritas pode analisar em tempo real, a configuração e desempenho de um cubo de identidade capaz de processar e correspondentes grandes conjuntos de registros de dados. Essas ferramentas fornecem uma maneira de garantir a taxa de transferência do cubo identidade e a qualidade dos resultados analíticos () gerado pelo Centro de identidade demandas do usuário se encontram. Outras características, vantagens e objetos da presente descrição será melhor apreciado e compreendido, quando considerada em conjunto com a seguinte descrição e os desenhos que a acompanham.

BREVE DESCRIÇÃO DOS DESENHOS

[0025] Os desenhos em anexo e que formam parte da presente especificação estão incluídos para ilustrar determinados aspectos da divulgação. Uma impressão mais clara da descrição, e dos componentes e funcionamento dos sistemas fornecidos com a divulgação, vai tornar-se mais facilmente evidente fazendo referência às concretizações exemplares e, por conseguinte, não limitativas, ilustradas nos desenhos. Sempre que possível, os mesmos números de referência serão utilizados por todos os desenhos para referir-se às mesmas características ou semelhantes (elementos). Os desenhos não são necessariamente desenhados em escala.

[0026] A Figura 1 descreve uma infraestrutura de exemplo de uma concretização de um sistema para combinar os registros de dados.

[0027] As figuras 2A e 2B mostram uma representação de duas concretizações de registros de dados.

[0028] A Figura 3 representa um diagrama de fluxo de uma concretização comparando os registros de dados.

[0029] A Figura 4 descreve uma infraestrutura de uma concretização de um sistema para configurar e analisar um núcleo de identidade.

[0030] A Figura 5 representa um diagrama de fluxo de uma concretização de um método para configurar um cubo identidade.

[0031] A Figura 6 representa uma imagem de tela de uma concretização de uma interface gráfica do usuário através do qual uma configuração de um cubo de identidade é analisável.

[0032] Figuras 7A e 7B mostram as imagens de uma concretização de um editor de configuração por meio de que a configuração de um cubo identidade é modificável.

[0033] Figuras 8A e 8B mostram imagens de uma concretização de um editor de configuração por meio do qual uma configuração de trabalho é modificável.

[0034] As Figuras 9A e 9B apresentam imagens de tela de uma concretização de um editor algoritmo através do qualcada algoritmo associado com um tipo de entidade num nó de identidade é modificável.

[0035] As Figuras 10A e 10B representam as imagens de uma concretização de uma interface gráfica de usuário, através do qual a configuração de um cubo de identidade é acessível.

[0036] A Figura 11 ilustra um diagrama de fluxo de uma concretização de um método para a análise de uma configuração de um centro de identidade.

[0037] As Figuras 12A e 12B representam as imagens de uma concretização de um instrumento de análise entidade.

[0038] A Figura 13 ilustra uma imagem de uma concretização de um conjunto de dados ferramenta de análise.

[0039] A Figura 14 representa uma imagem de um exemplo de realização de um instrumento de análise de balde.

[0040] A Figura 15 mostra uma imagem de uma concretização de um instrumento de análise de ligação.

[0041] A Figura 16 mostra uma imagem de um exemplo de realização de um interface gráfica do usuário através do qual as taxas de erro e limiares associados com registros de membros em um cubo de identidade são analisáveis.

[0042] A Figura 17 ilustra a relação entre o desempenho do sistema e tolerância para taxas negativas falsos positivos e falsos associados com [tintagem registros de membros em um cubo de identidade.

DESCRIÇÃO DETALHADA

[0043] A divulgação e as várias características e vantajosas respectivos pormenores são explicados mais pormenorizadamente com referência ao exemplo e, portanto, concretizações não limitativas, ilustradas nos desenhos anexos e pormenorizadas na descrição seguinte.
As descrições de técnicas de programação conhecidas, computador software, hardware, plataformas operacionais e protocolos podem ser omitidas de modo a não obscurecer desnecessariamente a descrição em pormenor. Deve ser entendido, no entanto, que a descrição detalhada e os exemplos específicos, embora indicando as concretizações preferidas, são dadas a título de ilustração apenas e não como forma de limitação. Várias substituições, modificações, adições e / ou rearranjos dentro do espírito e / ou escopo do conceito inventivo subjacente, serão evidentes para aqueles versados na técnica a partir desta divulgação.

[0044] software implementando concretizações aqui descritas podem ser implementadas em computador- adequado instruções executáveis que podem residir em um meio de armazenamento legível por computador. No escopo desta descrição, o termo os tipos de meio de armazenamento de dados que pode ser lido por um processador. Exemplos de meios de armazenamento legível por computador pode incluir memórias de acesso aleatório, somente leitura memórias, discos rígidos, tapes, fitas magnéticas, disquetes, unidades de memória flash, dispositivos de armazenamento de dados ópticos, compact-disc memórias ROM, e outros apropriado computador memórias e dispositivos de armazenamento de dados.

[0045] Tal como aqui utilizados, os termos "compreende", "compreendendo", "inclui", "incluindo", "tem", "tendo" ou qualquer outra variação dos mesmos, destinam-se a cobrir uma inclusão não exclusiva. Por exemplo, um processo, produto, artigo ou aparelho que compreende uma lista de elementos não é, necessariamente, limitado apenas esses elementos mas pode incluir outros elementos que não estejam expressamente listados ou inerentes a tal processo, processo, artigo, ou aparelho. Além disso, a menos que expressamente indicado em contrário, "ou" refere-se a um ou inclusivo e não exclusivo a um ou. Por exemplo, uma condição de A ou B é satisfeita por qualquer um dos seguintes procedimentos: A é verdadeira (ou presente) e B falso (ou não está presente), A falso (ou não está presente) e B é verdadeira (ou presente) e A e B são verdadeiros (ou presente).

[0046] Além disso, quaisquer exemplos ou ilustrações aqui apresentados não devem ser considerados de forma alguma como restrições, limites para, ou definições explícitas de, qualquer termo ou termos com o que eles são utilizados. Em vez disso, estes exemplos ou ilustrações devem ser considerados como sendo descrita relativamente a uma concretização particular e como apenas ilustrativos. Aqueles versados na técnica irá apreciar que qualquer termo ou termos com que estes exemplos ou ilustrações são utilizados abranger outras concretizações bem as implementações e adaptações dos mesmos que pode ou não pode ser determinado com o mesmo ou em outro lugar na especificação e todas as tais concretizações destinam-se a ser incluídos no escopo daquele termo ou termos. Designa Idioma tais exemplos e ilustrações não limitativos inclui, mas não está limitada a: "por exemplo," "por exemplo," "por exemplo,” "numa concretização,” e semelhantes.

[0047] É agora feita referência em detalhe para as concretizações exemplificativas da presente descrição, exemplos dos quais são ilustrados nos desenhos anexos. Sempre que possível, os mesmos números de referência serão utilizados por todos os desenhos para referir as mesmas ou partes semelhantes (elementos).

[0048] Algumas concretizações aqui divulgadas podem utilizar uma concretização de um sistema e método para a informação de indexação sobre entidades de diferente fonte de informação, como descrito em Patente dos Estados Unidos N ° 5.991, 758, concedida em 23 de novembro de 1999, que é aqui incorporado por referência. Algumas concretizações aqui divulgadas podem aproveitar uma concretização de um sistema de processamento de entidade e método para indexação informações sobre entidades com respeito às hierarquias, como revelado no acima referenciado Pedido de Patente US N ° 11 / 656, 111, depositado em 22 de janeiro de 2007, intitulado "MÉTODO E SISTEMA DE INFORMAÇÕES SOBRE INDEXAÇÃO DE ENTIDADES COM RESPEITO A HIERARQUIAS", que também é aqui incorporado por referência.

[0049] A Figura 1 é um diagrama de blocos que ilustra uma infraestrutura exemplo de uma concretização do sistema de processamento de entidade 30. O sistema de processamento de entidade 30 pode incluir cubo de identidade 32 que processa, atualiza, ou armazena dados referentes a registros de dados sobre uma ou mais entidades de uma ou mais fontes de informação 34, 36, 38 e responde a comandos ou consultas a partir de uma pluralidade de operadores 40, 42, 44, onde os operadores pode ser usuários humanos e / ou sistemas de informação. O cubo de identidade 32 pode operar com registros de dados a partir de uma única fonte de informação ou, como mostrado, registros de dados de várias fontes de informação. As entidades rastreadas usando concretizações do cubo de identidade 32 podem incluir, por exemplo, pacientes em um hospital, participantes de um sistema de cuidados de saúde, as peças em um armazém, ou quaisquer outras entidades que podem ter registros de dados e informações contidas em registros de dados que lhe estão associados. Cubo de identidade 32 pode ser um ou mais sistemas de computadores com pelo menos uma unidade central de processamento (CPU) 45 executam de computador instruções legíveis (por exemplo, uma aplicação de software) armazenado em um ou mais legíveis por computador meios de armazenamento para executar as funções do Cubo de identidade 32. Cubo de identidade 32 podem também ser implementadas utilizando circuitos de hardware ou uma combinação de software e hardware, como seria compreendido pelos peritos na especialidade.

[0050] No exemplo da Figura 1, Cubo de identidade 32 pode receber os registros de dados a partir de fontes de informação 34, 36, 38, bem como gravação corrigido dados de volta para fontes de informação 34, 36, 38. Os dados corrigidos comunicada às fontes de informação 34, 36, 38 podem incluir informações de que estava correto, mas mudou, informações sobre como corrigir informações em um registro de dados e / ou informações sobre as ligações entre dados de registros.

[0051] Além disso, um dos operadores de 40, 42, 44 pode transmitir uma consulta paro cubo de identidade 32 e receber uma resposta para a consulta de volta do cubo de identidade 32. Fontes de informação 34, 36, 38 pode ser, por exemplo, diferentes bases de dados que podem ter registros de dados sobre as mesmas entidades. Por exemplo, no campo da saúde, cada fonte de informação 34, 36, 38 podem estar associados a um hospital particular, em uma organização de cuidados de saúde e a organização dos cuidados de saúde podem utilizar cubo de identidade 32 para relacionar os registros de dados associados com a pluralidade de hospitais de modo que um registro de dados para um paciente em Los Angeles pode ser localizado quando o mesmo paciente está de férias e entra num hospital em New York. Cubo de identidade 32 pode estar localizado numa localização central e as fontes de informação 34, 36, 38 e os usuários 40, 42, 44 pode ser localizado remotamente a partir do cubo de identidade 32 e pode ser conectado a cubo de identidade 32 através de, por exemplo, uma ligação de comunicações, tal como a Internet ou qualquer outra rede de comunicações do tipo, tal como uma rede de áre a ampla, intranet, rede sem fios, rede locada, etc.

[0052] Em algumas concretizações, Cubo de identidade 32 pode ter a sua própria base de dados que armazena os registros de dados completos na cubo de identidade 32. Em algumas concretizações, Cubo de identidade 32 pode também conter apenas dados suficientes para identificar um registro de dados (por exemplo, um endereço de uma fonte particular de dados 34, 36, 38) ou de qualquer parte dos campos de dados que compreendem um registro de dados completo de modo que Cubo de identidade 32 pode recuperar todo o registro de dados de informação a partir da fonte 34, 36, 38 quando necessário. cubo de identidade 32 pode vincular os registros de dados em conjunto com informação sobre a mesma entidade utilizando um identificador entidade ou um banco de dados associativa separado de registros de dados reais. Assim, cubo de identidade 32 pode manter ligações entre os registros de dados em uma ou mais fontes de informação 34, 36, 38, mas não necessariamente manter um único registro de dados uniforme para uma entidade.

[0053] Em algumas concretizações, o cubo de identidade 32 pode vincular os registros de dados em fontes de informação 34, 36, 38, comparando um registro de dados (recebido de um operador, ou a partir de uma fonte de dados 34, 36, 38) com outros registros de dados em informação fontes 34, 36, 38 para identificar os registros de dados que devem ser ligados entre si. Este processo de identificação pode implicar a comparação de um ou mais dos atributos dos registros de dados com atributos de como os outros registros de dados. Por exemplo, um atributo de nome associado a um registro pode ser comparado com o nome de outros registros de dados, número de segurança social pode ser comparado com o número de um outro registro, etc. Desta maneira a segurança social, os registros de dados que devem ser vinculados podem ser identificados.

[0054] Será evidente para os versados na técnica que as fontes de informações 34, 36, 38 e os operadores 40, 42, 44 podem estar ligados com organizações semelhantes ou diferentes e / ou proprietários e pode ser fisicamente separado e / ou distantes uns dos outros. Por exemplo, fonte de informação 34 pode ser filiado a um hospital em Los Angeles gerido por uma rede de cuidados de saúde, enquanto fonte de informação 36 pode ser filiado a um hospital em Nova York dirigido por outra rede de cuidados de saúde, talvez, de propriedade de uma empresa francesa. Assim, os registros de dados a partir de fontes de informação 34, 36, 38 podem ser de diferentes formatos, línguas diferentes, etc.

[0055] Isto pode ser ilustrado de forma mais clara em relação às figuras 2A e 2B, que descrevem duas concretizações de registros de dados de exemplo. Cada um destes dados dos registros 200, 202 tem um conjunto de campos de 210 correspondendo a um conjunto de atributos de cada um dos registros de dados. Por exemplo, um dos atributos de cada um dos registros 200 pode ser um nome, um outro atributo pode ser um número de contribuinte, etc. Torna-se evidente que um atributo pode compreender vários campos 210 registros de dados de 200, 202. Por exemplo, um atributo endereço do registro de dados 202 pode compreender campos 210c, 21Od e 21Oe, a rua, cidade e estado Campos, respectivamente.

[0056] No entanto, cada um dos dados registra 200, 202 pode ter um formato diferente. Por exemplo, registro de dados 202 pode ter um campo 210 para o atributo de "seguradora", enquanto registro de dados 200 pode não ter nenhum tal campo. Além disso, os atributos semelhantes podem ter diferentes formatos bem. Por exemplo, campo de nome no registro 21 Ob 202 pode aceitar a entrada de um nome completo, enquanto 210a campo nome na ficha 200 pode ser concebido para permitir a entrada de um nome de um comprimento limitado. Tais discrepâncias pode ser problemático quando se comparam dois ou mais registros de dados (por exemplo, atributos de registros de dados) para identificar registros de dados que devem ser vinculados. Por exemplo, o nome "Bobs Flower Shop" é semelhante, mas não exatamente o mesmo que "Bobs Flower Shoppe muito bonito.” Além disso, um erro de digitação ou erro na inserção de dados para um registro de dados também pode afetar a comparação de registros de dados e, assim como dos seus resultados (por exemplo, comparando o nome ”Bobs bonita Flower Shop” com ”Bobs bonita Glower Shop”, onde "Glower” resultou a partir de um erro de digitação, inserindo a palavra ”flor”) .

[0057] Nomes de negócios em registros de dados podem apresentar uma série de problemas bastante específicos, como resultado de sua natureza. Alguns nomes de negócios pode ser muito curto (por exemplo, K Quick-E- Mart ”), enquanto outros podem ser muito longos (por exemplo,” de San Francisco Best Coffee Shop ”). Além disso, nomes de empresas podem frequentemente usam palavras similares (por exemplo,” Loja ”,” Inc. ”,” Co. ”), que, ao comparar registros de dados na mesma língua, não deve pesar em qualquer heurística para comparar esses nomes. Além disso, os acrônimos são frequentemente usadas em nomes de negócio, por exemplo, um negócio chamado ”Ney York City Bagel” podem frequentemente ser inseridos em um registro de dados como ”NYC Bagel.”

[0058] Como será descrito em detalhes abaixo, concretizações do cubo de identidade 32 aqui divulgado utilizam algoritmos que podem levar em conta essas peculiaridades específicas quando comparar nomes empresariais. Especificamente, alguns algoritmos empregados por cubo de identidade 32 siglas de apoio, ter em conta a frequência de certas palavras em nomes de negócio, e considerar a ordenação de tokens dentro de um nome da empresa (por exemplo, o nome "Clínica de Austin" pode ter foram consideradas praticamente idêntico ao "Austin Clinic"). Alguns algoritmos utilizam uma variedade de técnicas de comparação nome para gerar um peso com base na comparação (por exemplo, a semelhança) de nomes nos registros diferentes, onde este peso pode, então, ser utilizados para determinar se os dois registros devem ser ligados, incluindo vários métodos de comparação fonéticos, ponderação com base na frequência de tokens nome, partidas iniciais, partidas alcunha, etc. Em algumas concretizações, os sinais do atributo nome de cada registro seriam comparados uns contra os outros, utilizando metodologias para coincidir com os tokens (por exemplo, se os tokens corresponder exatamente, foneticamente, etc.). Estes jogos poderiam, então, ser dado um peso, com base no jogo determinado (por exemplo, uma correspondência exata é dado um primeiro peso, enquanto que um determinado tipo de partida inicial é dado um segundo peso, etc.). Estes pesos poderiam, então, ser agregados para determinar um peso total para o grau de correspondência entre o atributo nome de dois registros de dados. Exemplos de concretizações de um método de geração de peso adequado encontram-se descritos na acima referenciada No. Pedido de Patente US 1 1 / 809.792, depositado em 1 de Junho de 2007, intitulada "SISTEMA E MÉTODO PARA GERAÇÃO DE PESO AUTOMÁTICO de correspondência probabilística," a qual é aqui incorporado por referência. Concretizações exemplares de técnicas de comparação nome adequados são descritos na acima referenciada US pedidos de patente No. 11 / 522,223, depositado em 15 de setembro de 2006, intitulado "MÉTODO E SISTEMA PARA COMPARAÇÃO DE ATRIBUTOS, COMO NOMES PESSOAIS" e n° 11/521, 928, apresentado em 15 de setembro de 2006, intitulado: "MÉTODO E SISTEMA PARA COMPARAR ATRIBUTOS, COMO NOMES DE NEGÓCIO", ambos os quais são aqui incorporados por referência.

[0059] A Figura 3 mostra um exemplo de uma metodologia para identificar os registros relativos a uma mesma entidade. Na etapa 310, um conjunto de registros de dados pode ser empurrado ou puxado pelo cubo de identidade 32 para avaliação. Esses registros de dados podem incluir, por exemplo, um ou mais novos registros de dados para comparar a um conjunto de registros de dados existentes (que pode já existir em, por exemplo, fontes de informação 34, 36, 38 ou que possam ser fornecidos à cubo de identidade 32). Na etapa 320, os registros de dados para comparação podem ser padronizado se já não estiver normalizada. Esta padronização pode compreender a padronização dos atributos de um registro de dados de tal forma que o registro de dados é transformado de seu formato original para um formato padrão. Desta forma, as comparações subsequentes entre atributos como de diferentes registros de dados pode ser realizada de acordo com o formato padrão de ambos os atributos e o registro de dados, ft WILI ser evidentes para uma pessoa versada na técnica que cada um dos atributos dos registros de dados para ser comparado pode ser normalizada ou indexado de acordo com um formato diferente, um conjunto diferente de semântica, léxico, etc., e a padronização de cada atributo em sua forma padrão correspondente pode ser realizada por uma função distinta. Assim, cada um dos registros de dados pode ser normalizado em um formato padrão, através da padronização dos vários atributos dos registros de dados, cada atributo padronizado por uma função correspondente (estas funções atributo de normalização podem, naturalmente, ser operável para padronizar vários tipos de atributos).

[0060] Por exemplo, o campo 210a do atributo nome de registro de dados 200 pode ser avaliado para produzir um conjunto de fichas para o atributo nome (por exemplo, "Bobs", "bonito", "flor" e "Shop") e esses tokens podem ser concatenados em conformidade com uma certa forma de produzir um atributo padronizada (por exemplo, "BOBS: BONITA: FLOR: LOJA") de tal forma que o atributo padronizado pode posteriormente ser analisado para gerar os tokens que compreendem o atributo nome. Como outro exemplo, quando os nomes são padronizados, fichas individuais consecutivas podem ser combinadas em tokens (por exemplo, IBM torna-se IBM) e substituições podem ser realizadas (por exemplo, "Co." é substituído por "Empresa", "Inc." é substituída por "Incorporated", etc.). Compreendendo uma tabela de equivalência das abreviaturas e suas substituições equivalentes podem ser armazenados numa base de dados associada com código do cubo de identidade 32. Pseudo para uma concretização de padronizar nomes comerciais são as seguintes:
BusinessNameParse(inpuiString, equivalenceTable):
STRING outputstring
for c in inputstring:
if c is a LETTER or a DIGIT:
copy c to outputstring
else if c is one of the following characters (ampersand, single quote, back quote)
skip c (do not replace with a space)
else //non-ALPHA-DIGIT [&,'.']character
if the last character in output string is not a space, copy a space to output siring.
//Now extract the tokens.
tokenList = [ ]
For token in outputstring //outputstring is a list of tokens separated by spaces
If (token is a single character and it is followed by one or more single characters)
Combine the singletokens into a singie token
If (equivalenceTable maps token)
Replace token with its equivalence.
Append token to tokenList.
Return tokenList

[0061] Não importa as técnicas usadas, uma vez que os atributos dos registros de dados a serem comparados, e os dados registra-se, foram padronizados em um formulário padrão Na etapa 320, um conjunto de candidatos podem ser selecionados a partir dos dados existentes registros para comparar com o registro de dados de entrada ou nova (s) ca etapa 330. Este candidato processo de seleção (também aqui referidos como bucketing) pode compreender a comparação de um ou mais atributos dos novos registros de entrada de dados ou aos registros de dados existentes para determinar quais dos novos registros de dados existentes são semelhantes o suficiente para os novos registros de dados de implicar posterior comparação. Cada conjunto de candidatos (grupo balde) pode basear-se numa comparação de cada um de um conjunto de atributos entre registros de dados (por exemplo, entre um registro de dados de entrada e um registros de dados existentes) usando uma (função bucketing) função de seleção de candidatos correspondente ao atributo. Por exemplo, um conjunto de candidatos (isto é, um balde) pode ser selecionado com base numa comparação entre o nome e endereço de atributos usando uma função de seleção de candidatos desenhado para comparar os nomes e outra para comparar o endereço.

[0062] Na etapa 340, os dados registros que compõem este conjunto (s) de candidatos podem, então, submeter-se a uma comparação mais detalhada com os registros novos ou de entrada sempre que um conjunto de atributos são comparados entre os registros para determinar se um registro de dados existente deve ser vinculado ou associado com o novo registro de dados. Esta mais comparação detalhada pode implicar comparando um ou mais do conjunto de atributos de um registro (por exemplo, um registro existente) para o atributo correspondente no outro registro (por exemplo, o registro de novos ou entrada) para gerar uma pontuação para que a comparação atributo . As pontuações para o conjunto de atributos podem então adicionadas para gerar uma pontuação geral que pode então ser comparada com um limiar, para determinar se os dois registros devem ser ligados. Por exemplo, se a contagem total é menor do que um primeiro limiar (referido como o limiar softlink ou revisão), as fichas não podem ser ligadas, se a pontuação total é superior a um segundo limite (referido como o limiar autolink) a registros podem estar ligados, enquanto que, se a pontuação geral cai entre os dois limiares, os registros podem ser ligados e marcado para revisualização do usuário.

[0063] A Figura 4 descreve uma infraestrutura de uma concretização do sistema 10 para a configuração e analisando uma configuração do Cubo de identidade 32. Em algumas concretizações, o sistema de computador 10 compreende 40 e 20. Workbench Workbench 20 é um programa de software que está armazenado numa memória de computador 40 e compreende instruções de computador legíveis por um processador de computador 40 . Workbench 20 é instalado e executado no computador 40 que está em comunicação com o cubo de identidade 32 através da rede 15. A rede 15 pode ser uma representação de uma rede pública, uma rede privada, ou uma combinação dos mesmos. Bancada 20 compreende uma pluralidade de funções, incluindo ferramentas de configuração 400, que são acessíveis pelo usuário 51 por meio de usuário gráfica da interface 50. Em algumas concretizações, a interface de usuário 50 é uma representação de um ou mais interfaces de usuário para a bancada de trabalho 20. Em algumas concretizações, através interface de usuário 50, Workbench 20 permite que o usuário 51 para criar, editar e / ou validar uma configuração do Cubo de identidade, guarde a configuração cubo de identidade localmente em suporte eletrônico de armazenamento de leitura 56, e implantar remotamente a configuração validada a uma instância Cubo identidade do cubo de identidade 32 através da rede 15. O meio de armazenamento legível por computador 56 pode ser interna ou externo ao computador 40.

[0064] Tal como uma pessoa versada na técnica pode apreciar, computador 40 é uma representação de qualquer dispositivo de computação com capacidade de rede particularmente programados com uma concretização da bancada de trabalho 20 para a configuração e analisando localmente uma configuração de um centro de identidade e a implantação de uma configuração (validado) remotamente a uma instância do cubo de identidade ao longo de uma rede. Uma concretização de um método para configurar Cubo de identidade 32 através Workbench 20 será descrito abaixo com referência à Figura 5. Uma concretização da interface de usuário 50 para a bancada 20 será descrito abaixo com referência à Figura 6.

[0065] Em algumas concretizações, de configuração Ferramentas 400 compreendem Editor de configuração de 410, Algoritmo Editor de 420, e ferramentas analíticas 430. Em algumas concretizações, ferramentas analíticas 430 compreendem Ferramenta de Análise de Dados 432, Ferramenta de Análise de Entidade 434, ferramenta de análise 436, e ferramenta de análise de ligação 438. Em algumas concretizações, através de Editor de configuração de 410, 20 Workbench fornece usuário 51 com a capacidade de criar uma nova configuração do cubo de identidade 32 ou carregar uma configuração existente do Cubo de identidade 32 armazenados no meio de armazenamento legível por computador 56. Em algumas concretizações, uma configuração do Cubo de identidade compreende uma visualização de registros de membros, atributos dos registros de membros, e segmentos definidos para uma implementação específica do Cubo de identidade 32. Para mais ensinamentos sobre segmentos de implementação definido, os leitores são direcionados para pedido de patente US No. 11 / 900.769, apresentado em 13 de setembro de 2007,
intitulado "SEGMENTOS DEFINIDOS POR IMPLEMENTAÇÃO PARA SISTEMAS BANCO DE DADOS RELACIONAL", que é aqui incorporado por referência. Os detalhes sobre a configuração do Cubo de identidade 32 será descrito abaixo com referência às Figuras 7-8.

[0066] O cubo de identidade 32 utiliza uma pluralidade de algoritmos para comparar e marcar membro atribuir semelhanças e diferenças. Mais especificamente, o cubo de identidade 32 aplica os algoritmos de dados para criar tarefas e para suportar a funcionalidade de pesquisa. Em algumas concretizações, através do algoritmo editor 420, Workbench 20 proporciona ao usuário 51 com a capacidade de definir e personalizar algoritmos para uma implementação em particular do Cubo de identidade 32. Uma concretização do algoritmo editor 420 será descrito a seguir com referência às Figuras 9A-9B.

[0067] Em algumas concretizações, através da Ferramenta de Análise de Dados 432, o usuário 51 pode analisar atributo validade dos registros de dados em cubo de identidade 32. Em algumas concretizações, através de Ferramentas de análise de Entidade 434, o usuário pode analisar 51 entidades associadas a registros de dados no cubo de identidade 32. Em algumas concretizações, por meio da ferramenta Análise Balde 436, o usuário 51 pode analisar os baldes (grupos de registros candidatos) e um efeito de uma tal estratégia bucketing tem em cubo de identidade 32. Em algumas concretizações, através da ferramenta de Análise de ligação 438, o usuário 51 pode analisar erro as taxas associadas à vinculação dos registros de membros e os limiares utilizados em marcar derivados desses registros. Algumas concretizações de ferramentas analíticas 430 será descrito a seguir com referência às Figuras 10-17.

[0068] A Figura 5 representa um diagrama de fluxo de uma concretização de um método para configurar o Cubo de identidade 32. Uma vez Workbench 20 está instalado e executado no computador 40, na etapa 510, o usuário pode acessar 51 Workbench 20 e criar um novo projeto Initiate ou abrir um projeto Initiate existente. Em algumas concretizações, um projeto Initiate é um recipiente para a realização de uma configuração cubo de identidade e arquivos associados aos mesmos. Em algumas concretizações, um projeto Initiate compreende uma pluralidade de artefatos. Exemplos da pluralidade de artefatos incluem uma configuração cubo de identidade, um algoritmo utilizado por essa configuração Cubo Identidade, e os resultados dos resultados de análise prévia das ferramentas analíticas (430). Na etapa 520, o usuário 51 pode criar uma nova configuração ou abra uma configuração existente no escopo do Projeto Initiate que é criado ou aberto na etapa 510. Na etapa 530, através de interface de usuário 50, o usuário 51p ode analisar, modificar e / ou validar a configuração que é criado ou aberto Na etapa 520. Na etapa 540, o usuário 51 pode salvar a configuração localmente no computador 40. Na etapa 540, o usuário 51 pode implantar o, configuração validada salvo remotamente a uma instância do cubo de identidade 32 através de uma conexão de rede para um servidor que executa a instância do cubo de identidade 32. Em algumas concretizações, configurações e algoritmos cubo de identidade pode ser implantado diretamente a uma instância do Cubo de identidade 32 em tempo real. Em algumas concretizações, algumas tarefas GOBs) pode precisar de ser realizada diretamente Cubo de identidade 32, fora da configuração de implantação. Nesses cenários, algumas concretizações da Workbench 20 pode fornecer um meio para a realização de trabalhos individuais ou agrupamento de postos de trabalho dentro de um conjunto de trabalho, executando-os diretamente sobre cubo de identidade 32, e exibindo o progresso ou estado da execução do trabalho com o usuário 50 dentro de uma visualização Workbench através da interface de usuário 50. Em algumas concretizações, o usuário 50 pode recuperar ou resultados vista emprego do Cubo de identidade 32 através de uma interface de usuário 50 no computador 40. Para algumas concretizações da interface de usuário 50, os leitores são dirigidos para Pedido de Patente US N ° 1 1 / 901,040, apresentado em 14 de setembro de 2007, intitulado: "SISTEMA DE GESTÃO de hierarquia global e interface de usuário”, que é aqui incorporado por referência.

[0069] A Figura 6 representa captura de tela 60 de uma concretização de interface de usuário 50. Mais especificamente, imagem de tela 60 ilustra um exemplo de layout Editor de configuração de 410 de 20 Workbench como exibido no computador 40 através de uma concretização de interface de usuário 50. Neste exemplo, Editor de configuração de 410 compreende menu de 61, 63 atalho, e um conjunto de áreas de trabalho chamado de visualizações 64, 65, 66 e 67. O Menu 61 fornece acesso a vários itens de menu, cada um dos quais fornece um conjunto diferente de funções. Por exemplo, através do item de menu Iniciar 62, usuário 51 pode criar um novo Iniciado Project, importar uma configuração cubo identidade, implantar uma configuração cubo de identidade, criar um novo conjunto de emprego, ou validar pesos locais, etc. Atalho 63 fornece acesso rápido a Workbench 20 funções que estão atualmente em uso. Por exemplo, o usuário 51 pode alternar rapidamente entre Editor de configuração de 410 e 430 Ferramentas analíticas através do atalho 63.
Visualizações 64, 65, 66, e 67 são janelas individuais que contêm tipos específicos de dados. A maioria dos pontos de vista podem ser movidos para diferentes áreas da interface de usuário na tela de 60 arrastando e soltando suas guias. Para mudar pontos de vista, o usuário pode selecionar 51 Show View sob Janela item de menu a partir do menu 61. O que se segue é uma breve descrição de pontos de vista incluídos numa concretização da interface de usuário 50 para Workbench 20. Ail essas visões podem ser escondidos e expandidos dentro Workbench 20.

[0070] Visualização do Navegador
A vista do Navigador oferece uma estrutura de árvore para visitar os artefatos Workbench.
As seguintes funções podem ser acessadas a partir da visualização Navegador:

• diretórios do projeto transversos
• Arquivos de projeto aberto e vista
• Copiar, colar, mover, apagar e renomear projeto Arquivos
• Recursos de importação
• recursos importados Atualizar
• Selecione um conjunto de trabalho de fiies (e esconder arquivos não utilizados no conjunto de trabalho)
• Desmarque um conjunto de trabalho de arquivos

[0071] Visualização das Propriedades
A visualização de Propriedades permite que um usuário para editar os valores de propriedade de qualquer componente criado pelo usuário.

[0072] visualização de Problemas
A visualização de Problemas fornece uma lista de problemas de configuração e de validação no Workbench. A maioria das validações são feitas quando os recursos de arquivo no projeto são salvos, então erros podem aparecer instantaneamente.

[0073] Visualização do Console
A visualização do Console mostra mensagens de progresso e erros durante tarefas extensas em segundo plano.

[0074] Visualização de tarefas
A Visualização de tarefas mostra o progresso ou a conclusão ( Status executado) de um conjunto de emprego ou trabalho.
Mais detalhes sobre a visualização Jobs será descrita a seguir com referência às Figuras 8A e 8B.

[0075] Visualização analítica
A Visualização analítica aparece apresenta os resultados de uma consulta de análise. A fim de ver os dados neste ponto de vista, Workbench precisa ser conectado ao Cubo para o Cubo para processar a consulta.

[0076] Visualização de Pesquisa
A Visualização de Pesquisa exibe os resultados de uma pesquisa sobre as configurações existentes. Um usuário pode abrir um objeto de configuração clicando duas vezes em uma linha na visualização de Pesquisa.

[0077] Em algumas concretizações, Workbench 20 fornece vários tipos especiais de editores, como o Editor de configuração de 410 e editor Algoritmo 420. Em algumas concretizações, Workbench 20 também suporta outros tipos de edição, incluindo texto padrão e editores Java. Figuras 7A e 7B mostram as imagens 70a e 70b de uma concretização da configuração editor 410 através do qual configuração do cubo 71 do Cubo de identidade 32 pode ser modificado.

[0078] Mais especificamente, de tela 70a mostra uma representação do cubo 71 Configuração importados para Workbench 20. Em algumas concretizações, Editor de configuração de 410 pode compreender menu de navegação 72, que mostram vistas para aplicativos, tipos atributo, Fontes de Informação, Vínculos, tipos de membros, Tipos de Relações, e assim por diante. Referindo-se à Figura 7A, tipos de membro visualizar 73 permite que um usuário adicionar, editar e remover tipos de membros. Em algumas concretizações, tipos de membro identificar a "categoria de objeto" no qual os dados cai (por exemplo, Pessoa, provedor, hospedeiro, ou Organização). Em algumas concretizações, há cinco objetos configuráveis para um determinado tipo de Membro, cada um com sua própria guia (ver): Atributos, tipos de entidade, visualização composta, Fontes e Algoritmos.

[0079] Em algumas concretizações, a visualização de tipos de atributos permite que um usuário para exibir os atributos associados a um tipo de membro. Por exemplo, para Tipo de membro PESSOA 74, a guia Atributos podem mostrar atributos como APPT e data de nascimento que são associados com o Tipo Membro PESSOA 74. Neste exemplo, o atributo APPT tem um tipo de atributo de MEMAPPT e a Data de nascimento tem um atributo de tipo de atributo de MEMDATE. Em algumas configurações, tipos de atributos (segmentos) coincidir com o esquema de dados Initiate para definir o comportamento Cubo e informações do membro. Em algumas concretizações, tipos atributo compreendem membro de atributo Tipos e Relacionamento tipos atributo. Em algumas concretizações, os tipos atributo compreendem pré-definida ("fixa") os tipos de atributos e tipos de atributo definido para a execução, os quais são descritos no Pedido de Patente US acima referenciada No. 11 / 900.769, depositado em 13 de setembro de 2007, intitulado "SEGMENTOS DEFINIDOS POR IMPLEMENTAÇÃO PARA SISTEMA DE BANCO DE DADOS RELACIONAIS" Tipos de atributo definido pela implementação pode ser criado no momento da execução de um cubo de identidade e, portanto, não estão associados a uma classe gerada. Relacionamento tipos atributo são tipos de atributos que são específicos para os relacionamentos. Um tipo de atributo não pode ser tanto um membro do tipo de atributo e uma relação de tipo de atributo.

[0080] Em algumas concretizações, os tipos de entidade permitem visualizar o gerenciamento de tipos de entidades, tais como identidade ou do agregado familiar. Para mais ensinamentos sobre gestão de entidade, os leitores são direcionados para US pedidos de patente No. 12 / 056.720, apresentado em 27 de março de 2008, intitulado: "MÉTODO E SISTEMA PARA GERENCIAR ENTIDADES” e No. 11 / 656.111, depositado em 22 de janeiro de 2007, intitulado "MÉTODO E SISTEMA PARA INDEXAR INFORMAÇÕES SOBRE ENTIDADES COM RESPEITO A HIERARQUIAS", ambos os quais são aqui incorporados por referência.

[0081] Em algumas concretizações, a visualização composta representa uma imagem completa de um membro, tal como definido por um usuário. Configuração de pontos de vista de composição podem estabelecer as regras que controlam o comportamento e exibição de dados de atributo membro no Workbench 20. Por exemplo, o membro de atributo de dados de um determinado membro pode ser feita de nome, endereço, telefone e número de Segurança Social.

[0082] Em algumas concretizações, a vista Fontes permite que um usuário para adicionar e gerenciar informações sobre as fontes que interagem com Workbench 20. Exemplos de fontes podem incluir fontes de definição e fontes de informação. Exemplos de fontes de informação podem incluir fontes de 34, 36, 38 descritas acima. Uma fonte de definição é aquela em que os membros (registros) são criados e geralmente atualizado. Em algumas concretizações, Workbench 20 pode enviar alterações de uma fonte de definição.

[0083] Em algumas concretizações, o separador Algoritmos permite a um usuário criar ou identificar o algoritmo ativo que o Cubo usa para processar comparações. Em algumas concretizações, apenas um algoritmo pode estar ativa por tipo de membro em uma instância de Hub. Estes algoritmos (ativa e inativa) são baseadas nos tipos de membros definidos na configuração do cubo. Cada algoritmo recém-criado deve ser associado a um tipo de membro na configuração Cubo (ver figuras 9A e 9B).

[0084] Em algumas concretizações, as ligações podem ser formados quer automaticamente para os registros marcarem acima do limiar de auto-Tink (autolink) ou manualmente por usuários durante a resolução de tarefas (avaliação clerical). A finalidade das ligações é permitir uma exata visualização corporativa de um membro (registro). Referindo-se a Figura 7b, em algumas concretizações, as ligações exibir 76 de Editor de configuração de 410 pode fornecer tipos de vinculação 77 e Linkage status de 78. Essa funcionalidade pode ser usado para adicionar ou editar tipos de ligação e status associados, neste exemplo, tipos de vinculação 77 listas Linkage ID, Linkage Type, e tipo, definir relações de entidades válidas enquanto Linkage status de 78 listas de ID Estado, ligação de status, e da categoria, que representa o estado de fluxo de trabalho das relações empresariais. Em algumas concretizações, estas colunas podem ser classificadas em uma ordem crescente ou decrescente clicando no cabeçalho de uma coluna.

[0085] Referindo-se brevemente à Figura 7a, o menu de navegação 72 também mostra a vista Aplicações e os tipos de relacionamento visualizar. A vista de Aplicações pode listar várias funções. Em algumas concretizações, um usuário pode utilizar as funções nesse componente para marcar uma aplicação ativa ou inativa. Em algumas concretizações, um usuário corporativo pode adicionar e remover aplicações Initiate implementadas no site da empresa a partir da vista Aplicações. A Relação de tipos de vista pode mostrar tipos de relacionamento disponíveis. Um tipo de relação é um tipo de associação que podem existir entre dois tipos de entidades diferentes (ou mesmo). Por exemplo, uma pessoa pode gerenciar uma outra pessoa, ou uma organização pode possuir legalmente uma outra organização. Em algumas concretizações, o usuário pode utilizar as funções deste componente para gerenciar relações entre entidades. Para mais ensinamentos sobre relacionar as informações sobre as entidades, os leitores são direcionados para US Pedido de Patente 1 1 / 904.750, depositado em 28 de setembro de 2007, intitulado "método e sistema para indexação, RELAção E GESTÃO DE INFORMAÇÕES SOBRE ENTIDADES”, que é aqui incorporado por referência. Por uma questão de brevidade, não todas as vistas disponíveis são mostradas ou descritas no presente relatório descritiva. No entanto, uma pessoa versada na técnica pode apreciar que as vistas adicionais e funcionalidades adicionais fornecidos através destes pontos de vista, também são possíveis. Por exemplo, uma visualização Strings podem permitir que um usuário para criar regras ou orientações para instruir um algoritmo sobre como lidar com determinados valores de dados de entrada. Como outro exemplo, uma visualização Auditoria pode permitir que um usuário para estabelecer o log de auditoria para interações com cubo de identidade 32 e os usuários que executam essas interações.

[0086] Em algumas realizações da Workbench 20, um recipiente que contém uma configuração de Cubo e seus arquivos associados é referido como um projeto. Antes de importar uma configuração de Cubo em um projeto, um usuário precisaria criar um novo projeto ou importar um projeto existente. Para criar um novo projeto, um usuário pode selecionar New Project ... iniciado a partir do menu Iniciar 61 e digite um nome para o novo projeto. O novo projeto poderá ser criado, talvez usando um modelo Workbench, em um diretório de trabalho atual ou em um local fora do espaço de trabalho atual (como outra unidade ou unidade de rede local), conforme especificado pelo usuário. Para mais ensinamentos sobre algumas realizações da gestão do projeto, os leitores são direcionados para US Patent No. 11 / 824.210, apresentado em Junho 29, de 2007, intitulado "método e sistema para gerenciamento de projetos," que é aqui incorporado por referência.

[0087] O próximo Workbench 20 cria o projeto e adiciona os seguintes diretórios sob o diretório da área de trabalho:

• fluxos - contém arquivos de fluxo (.iflow)
• funções - contém qualquer funções personalizadas
• lib - conter qualquer arquivo de biblioteca de código Java adicionais necessários para a implantação (JAR)
• Serviços - conter todos os arquivos WSDL fonte de dados importados para o projeto (.wsdl)
• src - contém nenhum arquivo adicional Java origem necessários (Java)
• anonutil - contém arquivos de valor padrão de amostra e arquivos de filtro
• manipuladores - contém suporte a scripts para embalar manipuladores de Java
• empregos - armazena informações relacionadas com inscrições hub-a-projeto

[0088] O projeto está associado ao cubo de identidade 32 através de uma ligação a um servidor executando uma instância do cubo de identidade 32. Existem vários tipos de conexões, incluindo produção e teste. Em algumas concretizações, uma ligação a uma instância do cubo de identidade 32 podem ser adicionados, editados ou removidos, acessando funções correspondentes no item de menu Iniciar a partir do menu 61 62 (ver Figura 6) . Uma configuração de Cubo pode ser importada para um projeto acessando a configuração Import Cubo ... função a partir do menu Iniciar 62. Em algumas concretizações, podem ser necessários nome de usuário e senha para recuperar as informações de configuração do Cubo Cubo identidade 32. Em algumas concretizações, o nome da configuração do Cubo importado pode ser mostrado na vista Navigator 64 de Editor de configuração de 410 e componentes da configuração Cubo importado pode ser mostrado na área de trabalho 65.

[0089] As Figuras 8A e 8B mostram imagens de tela 80a e 80b de uma concretização do Editor de Configuração 401, através do qual uma configuração de trabalho pode ser modificada. Em algumas realizações da Workbench 20, uma tarefa realizada por cubo de identidade 32 pode ser referido como um trabalho e grupos de um ou mais trabalhos podem ser referidos como conjuntos de trabalho. Em algumas concretizações, empregos disponíveis (tarefas) podem ser classificados em postos de trabalho de configuração, análise de dados Job, trabalhos de administração hub, etc. Em algumas realizações, os resultados do trabalho podem ser armazenados por projeto no servidor executando o Cubo identidade 32 servidor e, em muitos casos, podem ser recuperadas ou exibidas a partir do servidor no computador 40. Em algumas concretizações, através da exibição de Jobs no Editor de configuração de 410, a seguinte lista não exaustiva de tarefas podem ser executadas:

• Implementar uma configuração para as Cubo pesos
• Geração
• Criação pares de análise limite
• Recuperar um arquivo a partir do Cubo

[0090] Implantar Configuração de Cubo
Este utilitário implanta um projeto de configuração para o Hub. Este trabalho pode ser utilizado (em vez da opção de menu iniciar descrito acima) para executar a implantação em conjunto com um outro trabalho. Quando este trabalho for executado, o Cubo é automaticamente interrompido e reiniciado. Quando executado a partir do menu Iniciar 62, as seguintes opções estão disponíveis:
• Implantar tabelas de peso. Esta opção quando selecionado permite que as tabelas de peso no diretório do projeto Workbench selecionado para ser implantado para o Hub.
• Criar e / ou descartar tabelas de banco de dados, se necessário. Esta opção quando selecionado
permite operações de tabela de banco de dados a ser executada conforme necessário para apoiar a
configuração.
• Verifique a sincronização de grupo. Esta opção quando verifica que o trabalho selecionados
grupos listados localmente estão atualizados com os grupos definidos no Hub. Numa
concretização, se essa opção for selecionada e os grupos não corresponderem, a
implantação pode ser abortada.

[0091] Gerar pesos
Este utilitário executa tarefas de geração de peso. Este trabalho requer dados derivados
(dados de comparação e dados bucketing) como entrada. Em algumas concretizações, os ficheiros de dados derivados podem ser gerados pela utiliza como mpxdata, mpxprep, mpxfsdvd, ou mpxredvd durante a padronização e bucketing as etapas 320 e 330 acima descritos. Como exemplo, Figura 8A descreve tela 80a, ilustrando como este trabalho pode ser configurado através de uma concretização do Editor de configuração 401. Especificamente, para o tipo de entidade id 84, uma concretização do Editor de configuração de 401 pode mostrar uma pluralidade de abas, incluindo Passos, Entradas e saídas, Performance Tuning, Opções e Opções de registro. Em algumas concretizações, o separador passos podem permitir que um usuário selecione uma etapa de geração de peso para executar e indicar se para executar as etapas subsequentes até ao final do processo. Exemplos de medidas de geração de peso podem incluir:

• Apagar artefatos de execução anterior
• Gerar contagens para todos os valores de atributo
• Gerar pares aleatórios de membros
• Extraia dados aleatórios, comparando os membros aleatórios
• Realize combinado redução pares candidatos
• Gerar conjunto combinado, as estatísticas de correspondência, e pesos iniciais
• pular a última etapa por causa de muito poucos atributos
• iterar etapa anterior e verificar se há convergência de pesos
• Executar todas as etapas restantes, até o encerramento do processo

[0092] Em algumas concretizações, a guia Entradas e saídas pode permitir que um usuário especifique
diversos diretórios de entrada / saída. Exemplos de diretórios de entrada / saída pode incluir:
• diretório de entrada BXM: especifica o diretório de entrada a partir do qual os resultados em massa cross-match são lidos. Este diretório deve corresponder ao diretório de saída usado pelo utilitário mpx que gerou os dados derivados.
• diretório de trabalho: especifica o diretório onde tabelas de peso devem ser guardados dentro do projeto Workbench. Em uma modalidade, o padrão é o peso diretório. Todos os arquivos são salvos em um subdiretório no Trabalho especificado diretório chamado para o tipo de entidade.
• diretório de saída FRQ: especifica o diretório de saída para que o gerado
dados de frequência atributo é escrito.
• UPAIRS diretório de saída: especifica o diretório de saída para que o gerado dados pares aleatórios está escrito.
• USAMPS diretório de saída: especifica o diretório de saída para que o inigualável dados par amostra gerada é escrito.
• MPAIRS diretório de saída: especifica o diretório de saída para que o par de dados gerado combinado é escrito.
• MSAMPS diretório de saída: especifica o diretório de saída para o qual os dados par amostra casada gerado está escrito.
• diretório de saída RUN: especifica o diretório de saída para que os pesos gerados são escritos. Este diretório é anexado com um número incrementado para cada iteração.

[0093] Em algumas concretizações, a guia Performance Tuning pode permitir que um usuário para modificar os seguintes parâmetros:

• Número de threads
• Número máximo de iterações na última etapa
• Número de balde comparação partições
• Número de pares aleatórios balde partições
• Número de pares combinados balde partições
• Número de partições de frequência
• Número máximo de partições de entrada / saída
• Audrecno usado para auditoria
• Número de pares aleatórios para gerar
• Intervalo para relatar registros processados
• set máxima balde tamanho
• Peso mínimo para escrever registros de itens

[0094] Em algumas concretizações, a guia Opções pode fornecer um usuário com as seguintes opções:
• Codificação. Em algumas concretizações, Workbench 20 suporta LATIM 1, UTF-8, e
codifica UTF16. Podem também ser utilizadas outras metodologias de codificação. Para outros ensinamentos sobre a análise de registros de dados em diferentes idiomas, os leitores são direcionados para pedido de patente US No. 11 / 967.588, depositado em 31 de dezembro de 2007, intitulado "método e sistema para análise de idiomas", que é aqui incorporado por referência.
• Auditoria, em algumas concretizações, Workbench 20 suporta uma auditoria de um conjunto de registros de dados.
• modo de comparação. Em algumas concretizações, esta opção pode ser utilizada para limitar a função de comparação. Por exemplo, gerando pesos para jogo e só link, gerando pesos para a busca somente, ou gerando pesos para a partida, link, e pesquisa.

[0095] Em algumas concretizações, os seguintes parâmetros de geração de peso pode ser encontrada na guia Opções para 80a em 8A Figura. Os dados aqui incluem os limiares utilizados específico para as várias fontes.

• Atributo combinado limiar percentual par (wgtNRM) - define o limite para o terceiro filtro usado na comparação.
• Atributo limiar par combinado (wgtABS) - define o limiar para o segundo filtro usado em comparação atributo.
• limiar de Convergência (wgtCNV) - define a tolerância para a geração de conversão de peso.
• percentual A qualidade dos dados para as estimativas iniciais de peso (wgtQOD) - define a taxa de erro de correspondência de definir.
• Taxa de falsos negativos (wgtFNR) - define a taxa de falso negativo usado para calcular os limiares Clerical avaliação e Auto-Link.
• Taxa de falsos positivos (wgtFPR) - define a taxa de falsos positivos usada para calcular o Clerical.
• limites de avaliação e Auto-Link.
• limiar Par combinado (wgtMAT) - define o limite para o primeiro filtro usado na comparação.

atribuem • Mínimo contar (wgtFLR) - define um limite inferior no valor de atributo. contagem de frequência

[0096] Em algumas concretizações, a guia Opções de registro pode fornecer um usuário com as seguintes opções de log :

• O log de rastreamento
• Debug logging
• logging Temporizador
• SQL log

[0097] Quando esta Gerar Pesos trabalho for concluído, os resultados podem ser vistos e os pesos podem ser salvos localmente. Em algumas concretizações, a saída de gerar Pesos podem ser copiados para o projeto a partir do Hub. Para mais ensinamentos sobre a geração de peso, os leitores são direcionados para No. US Pedido de Patente 1 1 / 809.792, apresentado em 01 de junho de 2007, intitulado "SISTEMA E MÉTODO PARA GERAÇÃO DE PESO AUTOMÁTICO PARA CORRESPONDÊNCIA PROBABILÍSTICA", que é aqui incorporado por referência.

[0098] Como exemplo de um trabalho de análise de dados, A Figura 8b ilustra as imagens 80b, ilustrando como um limiar Análise Par Geração de trabalho pode ser configurado por meio de uma concretização da configuração do Editor 401. Especificamente, uma concretização da configuração editor 401 pode permitir que um usuário especifique uma entidade tipo, bem como o diretório de entrada apropriado e arquivo de saída. O usuário pode especificar ainda mais o número de pares por pontuação e a gama de pontuações. No exemplo da Figura 8B, a pontuação mínima é de 8,0 e a pontuação máxima é de 25.0. Neste exemplo, o gerador de par amostra irá pegar 10 pares aleatórios em cada um de 171 caixas de partitura (8,0 a 25,0, em incrementos de 0,1).

[0099] Como mencionado acima com referência à figura 7a, um algoritmo de recém-criado deve ser associado com um membro digitar o Hub. As Figuras 9A e 9B apresentam imagens de tela 90a e 90b de uma concretização de Algoritmo Editor de 420. Em algumas concretizações, Algoritmo Editor de 420 permite que um usuário para editar os arquivos de algoritmos que são usados por cubo de identidade 32 para aplicar a lógica de comparação. Especificamente, quando um algoritmo é inicialmente criado, ele está vazio. Algoritmo Editor de 420 permite ao usuário adicionar componentes e conexões algoritmo de Palette 91 em algoritmo Editor de 420 para construir o algoritmo. No exemplo da figura 9A, as imagens de 90a ilustra o algoritmo associado com o membro tipo PESSOA 74. Em algumas concretizações, vários algoritmos podem ser associados a um tipo determinado membro, embora apenas um pode ser definido como o algoritmo "ativa" a qualquer momento. Algoritmos são editados localmente para que nenhuma alteração será feita para o banco de dados até que tenham sido validados para a integridade.

[0100] como figuras 9A e 9B ilustram, um algoritmo pode compreender uma pluralidade de componentes, incluindo a componente de atributos, as funções de normalização de componente, Comparação e componente Roles Query, e a bucketing e componente função de comparação. Um usuário pode modificar o algoritmo adicionando, modificando ou excluindo um ou mais componente (s) algoritmo. Os componentes de atributos permite que o usuário defina as propriedades ou campos de um elemento de dados. Esses atributos são filtrados por tipo de membro do algoritmo. A padronização de componente Funções compreende funções para padronizar a formatação ou as busca (query) fins de dados de origem de entrada para comparação, bucketing, e. Isto pode significar a capitalização de todos os caracteres alfa, remoção de pontuação, cheques de valor anônimos, e ordenação dos dados. Uma vez normalizado, os dados são armazenados como os componentes de comparação entre os dados derivados e é utilizado na geração dos dados bucketing. Em algumas concretizações, os dados normalizado não é armazenado no banco de dados de Cubo e, por conseguinte, não altera os dados membro. Por exemplo, um número de telefone pode ser inserido em uma fonte como 232-123-4567. Enquanto a rotina de padronização podem retirar os traços e o código de áre a e formatar o número como 1234567, o número armazenado no banco de dados de 46 do Cubo de identidade 32 permanece 232123-4567. Os componente Roles Comparação de consulta e permite que o usuário defina como uma função de comparação e / ou uma função de consulta pode ser utilizada num algoritmo. As funções bucketing podem ser utilizadas para identificar bucketing dados, que identificam os grupos de informação partilhada. Por exemplo, baldes pode ser definida para o nome (primeiro, último, no meio), data de nascimento + último nome, endereço e número da Segurança Social. Este componente também permite ao usuário definir uma combinação de elementos de dados em um balde. Para mais ensinamentos sobre concretizações da Algorithm Editor de 420, os leitores são direcionados para pedido de patente US No. 11 / 702.410, fiied 05 de fevereiro de 2007, intitulado:"MÉTODO E SISTEMA PARA UMA INTERFACE DE USUÁRIO GRÁFICA PARA CONFIGURAÇÃO DE UM ALGORITMO PARA A CORRESPONDÊNCIA DE REGISTROS DE DADOS", o qual é aqui incorporado por referência.

[0101] Assim, numa concretização, um método para a análise de um cubo de identidade pode compreender a utilização de um conjunto inicial de registros de dados para produzir uma configuração do cubo de identidade, analisando baldes criado com base em que inicial conjunto de registros de dados ou a um subconjunto dos mesmos de acordo com uma estratégia bucketing relacionado com a configuração do cubo de identidade, analisando um efeito desses baldes sobre o desempenho do cubo de identidade, e, em seguida, mudando a estratégia bucketing Consequentemente, numa concretização, o bucketing estratégia pode ser alterado através da edição de um algoritmo utilizado na criação de baldes ou alteração de um ou mais valores de parâmetros associados com o algoritmo. Numa concretização, o algoritmo está associado com um tipo de entidade.

[0102] Em algumas concretizações, para além dos algoritmo núcleo acima descrito funções de configuração, os parâmetros de geração de peso automática pode também ser configurado por meio da guia 92 do Algoritmo Editor de Limiares e Propriedades Peso 420. Uma vez que as propriedades de peso estão associados a tipos de entidade, para visualizar as propriedades de peso, um usuário deve primeiro selecionar um tipo de entidade. Neste exemplo, a imagem de tela 90b descreve limiares e propriedades de peso para o tipo de entidade ID 84.

[0103] Para ensinamentos adicionais sobre a geração de peso, incluindo a geração de conversão de peso, os leitores são dirigidos para Pedido de Patente US N ° 1 1 / 809.792, apresentado em 1 de Junho de de 2007, intitulado "SISTEMA E MÉTODO PARA GERAÇÃO DE PESO AUTOMÁTICO PARA CORRESPONDÊNCIA PROBABILÍSTICA", que é aqui incorporado por referência.

[0104] Referindo-se a Figura 9B, após os pesos são estabelecidas, um usuário pode definir manualmente ou calcular a adequada avaliação Clerical e Autolink limiares para uma determinada configuração Cubo usando Threshold Calculator 93. Calculator 93 Threshold permite que o usuário utilize dados de amostra a partir do banco de dados 46 do Cubo de identidade 32 para calcular os limiares Clerical Comente e AutoLink adequadas. Em algumas concretizações, o usuário também pode utilizar Limiar calculadora 93 para definir um limite de avaliação e autolink limiar de escritório para obter uma estimativa da taxa de falsos positivos, taxa de falsos negativos e estimativa do número de tarefas. Em algumas concretizações, os limiares podem ser calculados usando uma taxa positiva falsa estimado (FPR) ou um FPR estatístico com base nos dados dos pares de amostras avaliadas. Estes valores podem ser usados para selecionados (ou todos) os pares de origem. A opção de estatística exige que o usuário execute primeiro o Threshold Analysis Pair Geração de emprego descrito acima, e, em seguida, executar a obter resultados de emprego ação sobre o trabalho concluído.

[0105] Em algumas concretizações, limiares candidatos são fornecidos com Workbench 20. Um usuário pode rever limiares candidatos, tarefas e ligações e determinar os limites apropriados para uma configuração de Cubo particular. Em algumas concretizações, os limiares de candidatos pode ser calculada da seguinte forma:

[0106] Auto-link Threshold

[0107] O limiar de auto-link candidato depende do tamanho do arquivo e taxa de falso-positivo permitido. Vamos fpr ser a taxa de falso-positivo permitido (valor padrão de 10 Λ (-5)), e num ser o número de registros no conjunto de dados. Em seguida, o limiar candidato auto-link é:
thresh_al = - In[ -ln(1-fpr) / num ] / ln(10)
onde ln é o logaritmo natural (base e)

[0108] Limite Clerical-avaliação

[0109] A candidato limiar clerical-avaliação é definida com base na taxa de falso-negativo desejado (FNR). Por exemplo, se é desejado por 95% das duplicatas para marcar acima do nosso limite clerical-avaliação, o padrão é de 0,05. O valor real fnr pode depender os pesos calculados para correspondência, a fração de tempo que cada atributo tem um valor válido, e a distribuição desses valores. Um procedimento de bootstrap pode ser utilizado para determinar a distribuição empírica de correspondência de conjunto e calcular a pontuação limiar de escritório-avaliação desta distribuição. Por esta inicialização, um é para gerar uma lista de membros aleatórios, calcular as informações de cada membro, e formam uma distribuição empírica a partir desta amostra da seguinte forma:

[0110] Selecione membros aleatórios numebt, com redundância potencial, no banco de dados. Ligue para estes, memrecno_1, memrecno_2, .... memrecno_numebt. Para cada um deles, marcar o membro contra si mesmo (ou seja, calcular a informação para o sócio). Chamar essas pontuações s_1, sjiumebt s_2. Vamos s_min ser o mínimo desses escores, e s_max ser o máximo desses pontos e criar uma tabela a partir s_min para s_max, incrementando por 0,1, e bin as pontuações. A tabela terá n = (sjnax - s_min) /
0,1 linhas da seguinte forma:

[0111] Tabela 1: Matched-set distribuição da pontuação

[0112] Agora, vamos j ser o primeiro índice tal que
f_1 + f_2 + ... + f_j > fnr
Em seguida, o candidato limiar clerical-avaliação é:
thresh_cl = s_min + (j -1 ) * 0.1.

[0113] Em concretizações divulgadas aqui, as ferramentas de configuração acima descritos são integradas com um conjunto de ferramentas de análise para analisar vários aspectos da configuração, tais como baldes e entidades. Estas ferramentas podem avaliar a configuração e ajudar a encontrar erros e problemas potenciais de desempenho associados com a configuração. Particularmente, essas ferramentas podem ajudar um usuário na perfeitamente a configuração de um Cubo e validar a correção da configuração.

[0114] Referindo as Figuras 10A e 10B, algumas concretizações da Workbench 20 pode compreender uma vista Analítica implementação Ferramentas Analíticas 430. A vista Analítica pode proporcionar um conjunto de ferramentas de consulta a um usuário de configuração para analisar uma configuração de cubo, de modo a fornecer dados para a análise, os Analítica ver funcionalidade teriam de ser associados com uma ocorrência de cubo. Figura 1 OA descreve tela 100a de uma realização de interface com o usuário mostrando 50 Cubo é selecionada como a
Fonte Análise para Projeto demo81 e Cubo Configuração 71, Membro tipo
PESSOA 74 e Tipo de Entidade ID 84 são selecionados para análise. Como mostrado na Figura 10a, os dados da análise podem ser salvos em um instantâneo selecionando o Salvar Análise de Dados para uma opção de Snapshot e fornecendo um nome no campo de análise de ID. Em algumas
concretizações, os instantâneos são salvos no formato XML para a pasta "instantâneos" na vista Navigator. Em algumas concretizações, referindo-se a Figura 4, snapshots podem ser salvos localmente em meio de armazenamento legível por computador 56 de computador 40. Ao salvar dados em snapshots, o usuário pode comparar os dados da análise de antes ou após uma alteração de configuração é feita ou a partir de diferentes pontos Tempo. Várias cópias de uma mesma consulta pode ser guardada dentro de um único instantâneo, desde que os seus parâmetros de entrada são diferentes.

[0115] Figura 10b mostra tela 100b de uma concretização de interface de usuário 50 mostrando Snapshot for selecionado como a fonte de Análise para o Projeto Alfa e main_hub_Bucket3- 08/10 é selecionado fro Disponível Snapshots. Neste exemplo, tipo Membro PESSOA 74 e tipo de entidade id 84 são selecionados para análise. Uma vez que o ponto de vista Analítica tem uma fonte de dados associado com ele, o usuário pode carregar um ou mais consultas e ver os resultados. Cada consulta exibe um conjunto especializado de dados. Em algumas concretizações, as consultas disponíveis são categorizados em análise de dados, análise de entidade, Análise balde e tipos de análise de ligação.

[0116] A Figura 11 representa um diagrama de fluxo de uma concretização de um método para a análise de uma configuração de um centro de identidade. Como mencionado acima, nas concretizações das ferramentas Workbench 20 são integradas tal que eles podem ajudar um usuário na perfeição a configuração de um exemplo de identidade de Cubo 32 e validar a exatidão da configuração em tempo real. Por conseguinte, as etapas do método ilustrado na Figura 11 destinam-se a ilustrar um processo de exemplo e não devem ser interpretados como limitativos de qualquer maneira. Por exemplo, uma vez que os pares membro foram amostrados, os dados de comparação e os dados bucketing (dados derivados) têm sido criadas, os pesos foram estabelecidos, e os limiares AL e CR apropriadas tenham sido determinadas, é possivel executar algumas análises cedo nos baldes, tais como o balde tamanho e distribuição balde. Tais análises eariy pode ajudar a identificar alterações de dados em um estágio inicial. Assim, nem todos as etapas na figura 11 são necessárias e algumas concretizações de um método para a análise de um sistema de registros correspondentes pode compreender um ou mais passos na Figura 11. Além disso, passos na Figura 1 1 pode ser executado em qualquer ordem particular. Por exemplo, como parte do processo de geração de peso (etapa 103), um conjunto de limiares (thresholds sugeridas candidatos) pode ser gerado. Neste ponto, o usuário pode executar Threshold Analysis (etapa 107) e veja os preços positivos e falsos negativos falsos estimados para uma gama de valores de limite. Depois que os limiares foram fixados e uma (potencialmente final) cross-match tenha sido concluida, o usuário pode rever entidades (etapa 105) para possíveis erros (falta valores anon, etc.). Se Cubo é selecionado como fonte de análise, o usuário pode, por meio de Análise Entidade ferramenta 432 de Workbench 20, ver a distribuição de tamanhos de entidade e detalhar e visualizar dados de membros de entidades suspeitos para ajudar a identificar erros. Um relatório de tamanhos entidade podem ser salvos no disco (por exemplo, média 56 computador de armazenamento legível) para comparação após nova afinação tenha sido realizada.

[0117] Estes acima descrito tarefas de análise pode ser concluído perto do fim do projeto ou enquanto outras partes do processo ainda estão sendo feitas. Por exemplo, em alguns casos, as tarefas de configuração, como configurar os aplicativos, a configuração de usuários / grupos, criando visualizações compostas, etc. pode ainda precisam ser concluídos através Editor de configuração de 410 em Workbench 20. Depois de fazer as mudanças necessárias, eles precisam ser implantado para o servidor que executa como todos os outros dados de configuração. No final do projeto, um relatório sobre a configuração pode ser gerado que pode ser utilizado mais tarde para verificar a saúde do sistema e determinar quaisquer esforços de ajuste que podem precisar de ser feita retornar para o sistema para um desempenho óptimo. Além disso, uma vez que uma configuração foi concluído, ele pode facilmente ser reafectados a outros servidores (teste, produção, etc.). Depois de implantar a configuração de um novo servidor, um usuário no computador 40 pode executar a tarefa "Gerar Todos os dados de configuração” para criar os dados derivados e executar todas as comparações necessárias e processos que ligam no novo servidor.

[0118] Voltando à Figura 11 , como exemplo, um embedment de um método para analisar um cubo identidade pode compreender analisando a validade dos atributos de um conjunto de registros de dados por meio de Análise de Dados ferramenta 434 (etapa 101). fn Numa concretização, um método para a análise de um cubo de identidade pode compreender analisar através de análise de entidades Entidade ferramenta 432 (etapa 105) . Numa concretização, estas entidades são categorizados como possuindo um tipo de entidade particular no cubo de identidade 32. Em algumas concretizações, analisando essas entidades podem implicar analisando uma distribuição de tamanho de entidade, analisando essas entidades por tamanho, análise dessas entidades por composição, analisando uma distribuição pontuação associada com essas entidades, analisando comparações membro associados a essas entidades, ou uma combinação destes. Em algumas concretizações, depois de analisar entidades, um usuário pode querer executar Algoritmo editor 420 e modificar um algoritmo associado com o tipo de entidade e / ou alterar um ou mais valores de parâmetros em um ou mais componentes do algoritmo como descrito acima (etapa 102) . Em algumas concretizações, uma tal modificação ou alteração pode provocar uma mudança para uma estratégia bucketing novos pesos e pode ser gerado automaticamente através da geração de peso (etapa 103) . Assim, o usuário pode querer executar Bucket Análise ferramenta 436 para rever e analisar baldes e estatísticas a ele associado (etapa 104) . Em algumas concretizações, através Bucket Análise ferramenta 436 de Workbench 20, o usuário pode analisar um tamanho balde de distribuição, analisar esses baldes por tamanho, analisar esses baldes de composição, analisando a distribuição comparação jogo granel cruz, analisar os membros (registros) pela contagem de balde , analisar os valores de balde membro, analisar frequências balde membro, analisar a distribuição comparação membro, ou uma combinação destes. Em algumas concretizações, o usuário poderá executar a análise de ligação também 438 para analisar membro duplicatas e sobreposições membro (etapa 106) em relação aos limites de RC e AL atualmente em uso (etapa 107) . Durante ou após qualquer das etapas anteriores, os dados de análise podem ser guardados (etapa 108).

[0119] As Figuras 12A e 12B ilustram imagens 120a e 120b de uma concretização da Análise Entidade ferramenta 432. Especificamente, tela 120a da figura 12A representa os resultados de uma consulta Composição entidade, onde colunas 121 enumera quatro membros consideraram (ou seja, entidade 26 tem quatro registros de dados candidato ligados entre si), coluna de 122 lista os valores de um determinado atributo (Social Security Number) associado com esses membros, de colunas 123 listas a valores de outro atributo específico (Sexo) associado com esses membros, e assim por diante. Imagem de tela 120b da Figura 12B mostra os resultados de uma consulta Comparações membros, comparando membro Proband 27 com os deputados em entidade 26, onde a coluna 124 listas dos registros de candidatos comparação e coluna 125 listas de suas pontuações correspondentes.

[0120] A consulta Composição Entidade e os Estados-Comparações consulta mostrada nas Figuras 12A e 12B são exemplos de consultas disponíveis através de Análise Entidade ferramenta 432. Em algumas concretizações, consultas disponíveis através de Análise Entidade ferramenta 43 pode compreender Entidades por Tamanho, Composição, Entidade Entidade Tamanho distribuição, comparações membros, Entidade Membro Frequency, Valores Entidade Estados Membros, pela contagem de entidade, e Pontuação Distribution.

[0121] Entidades por tamanho

[0122] Essa consulta fornece a capacidade para consultar entidades que correspondam a um intervalo especificado de tamanhos (número de membros de uma entidade). Especificando um valor de 0, quer para o tamanho mínimo ou máximo indica que não há limite (sem mínimo ou nenhum máximo).

[0123] Entidade Composição

[0124] Esta consulta mostra o conteúdo de uma determinada entidade. Como Figura 12A exemplifica, a tabela resultante lista os IDs de registro de membro e IDs de origem que estão na entidade especificada, bem como os dados de comparação para cada membro. Os dados de comparação pode ser dividido por comparação papel em colunas individuais da tabela.

[0125] Entidade Tamanho Distribuição

[0126] Essa consulta fornece uma visualização abrangente de todas as entidades do Cubo como eles se relacionam com o tamanho. A visualização pode ser filtrada para mostrar apenas as entidades de fontes verificados. Se uma entidade é composta por membros de uma fonte marcada (s), bem como uma fonte não verificada (s), em seguida, o tamanho mostrado para a entidade será uma contagem dos registros de membros em apenas as fontes verificados.

[0127] As comparações dos Membros

[0128] Essa consulta fornece um mecanismo para comparar um registro de membro contra todos os membros de uma determinada entidade (ver figura 12B) ou para um conjunto de membros especificados.

[0129] Entidade Membro de frequência

[0130] Esta consulta mostra a frequência em que os membros aparecem em entidades; isto é, o número de membros que estão em uma entidade, o número dos que estão em duas entidades, o número dos que estão em três entidades, e assim por diante.

[0131] Valores Entidade Membro

[0132] Esta consulta mostra as entidades às quais um membro pertence.

[0133] Os membros de Entidade Contagem

[0134] Esta consulta mostra uma lista de membros que estão em um intervalo especificado de entidades (por exemplo, todos os membros que estão em 3 ou mais entidades). Se nenhum número máximo for especificado, um valor de 0 é mostrado em um campo Número Máximo de Entidades. Caso contrário, o número máximo de valor entidades deve ser maior do que ou igual a em que o número mínimo de entidades.

[0135] Resultado Distribuição

[0136] Esta consulta mostra a distribuição de pontos para os pares de registro no sistema. Em algumas concretizações, entidades uninominais ou entidades com mais de dois registros de membros não podem ser incluídos nos resultados. Em algumas concretizações, o número de pares para cada marcador pode ser a soma de todos os pontos de um determinado intervalo de pontuação. Por exemplo, um valor de pontuação de 27 pode representar todos os pares com pontuação entre 26,1 e 27,0. A visualização pode ser filtrada para mostrar apenas as entidades de fontes verificados. Se uma entidade é composta por membros de uma fonte verificada (s), bem como uma fonte não verificada (s), então o tamanho mostrado para a entidade será uma contagem dos registros de membros em apenas as fontes verificadas. Se não houver resultados mostram para um tipo de ligação particular, pode não haver quaisquer entidades que preencham os critérios para esse tipo de ligação e / ou conjunto de fontes selecionadas.

[0137] A Figura 13 representa 130 de tela de um realização de Análise de Dados ferramenta 434. Em um concretização, Análise de Dados ferramenta 434 pode fornece uma consulta Validade Atributo como mostrado na Figura 13.

[0138] Atributo Validade

[0139] Esta consulta mostra a porcentagem de tempo os registros de todas as origens e de fontes individuais têm valores para os tipos de membro atributos. Os valores que são presentes em elevadas percentagens devem ser consideradas como potenciais candidatos para uso em algoritmos. Em algumas concretizações, por padrão, os resultados podem ser classificados por nome de atributo. Em algumas concretizações, os resultados podem ser classificados por coluna. Em algumas concretizações, as fontes podem ser filtrados para que a tabela resultante pode listar o percentual de registros do tipo de membro que estão contidos em uma fonte especificada.

[0140] A Figura 14 representa tela 140 de uma concretização de Análise Bucket Tool 436. Em algumas concretizações, se o número de registros no Cubo é maior do que 2 milhões, as consultas de análise de balde não irá executar a menos que os dados são preparados em primeiro lugar. Em algumas concretizações, a preparação de dados pode envolver a recolha dos dados membro e da caçamba e matérias-precomputing um conjunto intermédio de dados que podem ser rapidamente consultado. Esta preparação de dados pode ser feito através do trabalho "Bucket Análise Preparação" via Editor de configuração de 410. Em alguns casos, a preparação de dados para 2-5 milhões de registros pode demorar cerca de 10 minutos, enquanto se prepara dados para 50 milhões de registros pode demorar cerca de 5 horas. Essas estimativas podem variar muito, dependendo diferentes de hardware e configurações de banco de dados. Se os dados membro for modificado, em seguida, os dados preparados deve ser recalculado, assim como para evitar ver out-of-date resultados.

[0141] Imagem de tela 140 descreve os resultados de uma consulta Bucket Análise Overview, que é um de uma pluralidade de consultas disponíveis através de Análise Bucket Tool 436. Em algumas concretizações, as consultas disponíveis através Balde ferramenta de análise de 436 pode compreender Bucket Análise Índice, Composição Balde, Balde Tamanho de Distribuição, baldes por tamanho, massa de Distribuição Cross Match comparação, Estados Balde de frequência, valores de membro Balde, Comparação Membro Distribuição e Membros por Bucket Contagem.

[0142] Bucket Análise Overview

[0143] Essa consulta fornece algumas informações gerais sobre a saúde de estratégia bucketing do Hub. Como exemplificado na Figura 14, numa concretização, a metade superior da vista podem ser preenchidos com os dados como o número de baldes grandes, membros unbucketed, etc. Uma gama particular de grandes baldes e / ou membros unbucketed pode ser visto clicando um botão apropriado. Mais especificamente, ao clicar em uma Visualização botão baldes irá selecionar os baldes por ver tamanho e executar uma consulta com o intervalo desejado de tamanhos balde. Clicando em um botão Exibir deputados irá selecionar os membros por Bucket Contagem vista e executar uma consulta para mostrar os membros sem qualquer baldes. Neste exemplo, a área inferior da vista ilustrada na Figura 14 mostra os dez maiores baldes, juntamente com os valores de hash desses baldes, o papel balde que gerou o balde, assim como um valor balde de um dos membros desses baldes. O valor balde pode ser idêntica para todos os membros no mesmo balde. A seleção de um hash de balde e clicando no botão Exibir Bucket irá executar a consulta Composição Bucket e preencher a vista com os membros do seleto de balde e valores balde de os associados para que o código hash.

[0144] Bucket Composição

[0145] Esta consulta mostra o conteúdo de um balde especificado. A tabela resultante lista que estão no balde especificado, bem como o papel e valor balde balde para cada membro em que balde. Os valores de balde mostrados são os valores reais de balde recém calculados a partir dos dados de membro no banco de dados. Se os diferentes valores de balde mostrar-se para o mesmo hash balde, em seguida, que poderia indicar uma colisão balde hash. Isso seria considerado uma anomalia e pode explicar por que razão alguns membros estão a ser comparadas umas com as outras, que normalmente não são comparados entre si. No entanto, essa condição não é, em geral, consideradas perigosas para a saúde do sistema, Nalgumas concretizações, a vista para esta consulta pode incluir um botão Ver-Membro e um botão Exibir algoritmo tal que a seleção de uma linha na tabela resultante e clicando no Ver-membro botão irá executar os Estados-Bucket Valores consulta para mostrar todos os baldes o membro selecionado e clique no botão Exibir Algoritmo abrirá Algoritmo Editor de 420 e selecione a função balde que criou o balde especificado (veja a Figura 9A).

[0146] Bucket Tamanho Distribuição

[0147] Essa consulta fornece uma visualização abrangente de todos os baldes no Cubo como eles se relacionam com o tamanho. Em algumas concretizações, grandes baldes são mostradas para o lado direito da vista e são indicados por um indicador de cor que vai do verde (baldes pequenos) a amarelo (baldes de tamanho médio) para vermelho (grandes baldes). Os pontos de dados em um gráfico de plotagem uma distribuição de tamanho balde pode seguir uma curva descendente da esquerda (baldes menores) para a direita (caçambas maiores). Assim, pontos de dados extensos no lado direito do gráfico de distribuição de tamanho balde pode ser áreas de preocupação e poderia indicar valores perdidas anônimos, limiares incorretos, problemas de dados, etc. Em algumas concretizações, clicar em um ponto de dados irá selecionar os baldes por Tamanho visualizar e irá executar uma consulta para mostrar esses baldes de que tamanho. Em algumas concretizações, pressionando a tecla de controle antes de clicar no ponto de dados e a consulta pode mostrar esses baldes de que tamanho e maior.

[0148] baldes por tamanho

[0149] Essa consulta fornece a capacidade para consultar baldes que correspondam a um intervalo especificado de tamanhos (número de membros em um balde). Por exemplo, a especificação de um valor de 0 para ambos o tamanho mínimo ou máximo indica que não existe um limite (sem mínimo ou nenhum máximo). Em algumas concretizações, a tabela resultante pode mostrar a contagem de membro, o hash balde, papel balde, e um valor balde amostra de um dos membros do balde. Mais uma vez, o valor de balde pode ser a mesma para os membros ail em qualquer cubeta. Uma exceção a isso é se houve uma colisão de hash que resultou em diferentes valores de balde com o mesmo hash balde. Para verificar esta condição, um usuário pode selecionar o balde e clique em um botão Exibir Bucket para ver todos os membros e os seus valores de balde para qualquer balde. Se for determinado que existe um problema com um papel especial balde (falta de bucketing frequência com base, etc.), Algoritmo Editor do 420 pode ser aberta selecionando uma linha da tabela e clicando em um botão Exibir Algorithm. Isso fará com que o algoritmo do Editor 420 e selecione a função balde especial, que criou o balde selecionado (veja a Figura 9A).

[0150] massa de Distribuição Cross Match comparação

[0151] Esta consulta calcula o número de comparações necessárias para uma partida em massa cruz como ele refere-se ao conjunto de parâmetros balde tamanho máximo (Bucket limite de tamanho) que é especificado em um trabalho mpxcomp. Este número de comparações podem então ser usados em conjunto com o número de linhas e número de comparações por thread por segundo para determinar o tempo de conclusão aproximado para uma correspondência cruzada em massa.

[0152] Bucket Estados-Frequency

[0153] Essa visualização responde à pergunta "Como muitos membros estão em um balde, 2 baldes, 3 baldes, etc. " sob a forma de um gráfico de barras ou semelhantes. Um ponto de 0 dados do eixo-x mostra o número de membros da ONU-bucketed, em algumas concretizações, clicar em um bar no gráfico irá selecionar os usuários por Bucket Contagem vista e executar uma consulta para mostrar os membros com que muitos baldes.

[0154] Valores Balde Membro

[0155] Esta visualização mostra o que baldes um membro especificado está em. A tabela de resultados mostra o hash balde, valor balde, eo papel balde que produziu cada balde. Em algumas concretizações, a seleção de um balde e clicar em um botão Exibir Bucket seleciona a vista Composição Balde e executa uma consulta para mostrar a composição balde para o balde de hash selecionado. Clicando em um botão Exibir Algoritmo abre Algoritmo Editor de 420 e seleciona o papel balde que foi responsável por criar esse balde {ver figura 9A).

[0156] Membro Comparação Distribuição

[0157] Esta visualização mostra o desempenho estimado do sistema no que se refere à número de comparações sendo executada. Isto quer dizer: quando é feita uma pesquisa, o número de comparações real será feita? Como um exemplo, uma comparação dos membros gráfico de distribuição pode indicar que, em média, três comparações são feitas. Mais especificamente, em algumas concretizações, 1 em 10 comparações resultaria em aproximadamente 6 comparação, 1 em 100 seria de 7,5, e 1 em 1000 comparações que resultam em cerca de 8 comparações. Esta informação é baseada em 20.000 aleatoriamente membros incluídos na amostra do sistema. Se houver menos de 20000 membros no sistema, são usados todos os membros. Em média, um membro de destino será comparado com todos os membros que os baldes share com esse membro de destino.

[0158] usuários por Bucket Contagem

[0159] Esta visualização fornece uma consulta para os membros com base no número de baldes um membro está contido. Em algumas concretizações, especificando um valor mínimo e máximo de 0 irá retornar todos os membros unbucketed. Para um número mínimo de maior do que 0, um máximo de 0 indica que não há limite. Em algumas concretizações, a tabela resultante mostra o memrecno, o número de depósitos o elemento se encontra, bem como a cadeia CMPD para esse membro. Em algumas concretizações, a seleção de um membro e clicando em Ver um botão seleciona os Estados-Membros Valores Balde visualizar para mostrar todos os baldes que o membro aparece.

[0160] A Figura 15 mostra imagem de tela 150 de uma realização de análise de ligação ferramenta 438. Em algumas concretizações, Linkage ferramenta de análise de 438 pode fornecer uma consulta dos membros Duplicatas e membro sobreposições consulta.

[0161] Duplicatas Membros

[0162] Esta consulta mostra as várias taxas de erro em torno de membros duplicados (membro registros da mesma fonte que apontam para a mesma entidade) . Como exemplificado na Figura 15, numa concretização, os primeiros quatro colunas de uma tabela resultante pode mostrar os dados em bruto a partir da base de dados de Cubo (discriminado por fonte): número de membros, o número de entidades, o número de conjuntos duplicados, e o número dos membros desses conjuntos duplicados. Os últimos 3 colunas pode listar as várias taxas de erro que podem ser calculados a partir dos valores:

• Grave Error Rate - Indica quantos registros você tem que olhar para resolver suas duplicatas, ou quantos registros têm uma visualização incompleta de um membro.
• Entidade Duplicação Tarifa - Indica quantos membros tem registros duplicados, ou a probabilidade de que um membro aleatório tem um registro duplicado.
• Grave Duplicação Tarifa - Indica quantos registros são duplicados,

ou. talvez a porcentagem de registros que podem ser eliminadas

[0163] Membros sobreposições

[0164] Essa consulta fornece informações sobre o número de sobreposições no cubo. Pode existir uma sobreposição quando uma entidade tem registros de várias fontes. Por exemplo, se uma entidade com três registros existe, e cada registro está em um sistema de fonte separada, então cada fonte seria dito para ter dois sobreposições nele (A com B 1 A com C, et cetera). Em algumas concretizações, uma tabela resultante pode mostrar o número de entidades originais representados numa fonte especificada, assim como a percentagem de todas as entidades que são representados por um registro na referida fonte. Em algumas concretizações, a tabela resultante pode também mostrar a contagem e a percentagem daquelas entidades que tenham sobreposições em pelo menos uma outra fonte (tais entidades têm, pelo menos, um registro na outra fonte). Entidades com sobreposições em várias outras fontes só pode ser contabilizado uma vez na tabela resultante. Em algumas concretizações, a tabela resultante pode também mostrar cada fonte por combinação fonte. Por exemplo, quando a fonte de linha e coluna é a mesma, a percentagem de contagem de 100%. No entanto, quando as fontes de linha e coluna são únicos, a contagem representa o número de sobreposições existentes entre a linha sistema de origem e do sistema de origem da coluna. O valor percentual representa, assim, a percentagem de entidades na fonte de linha que têm sobreposições na fonte coluna.

[0165] Assim, numa concretização, um método para a análise de um cubo de identidade pode compreender as taxas de erro que analisam associadas com um conjunto de registros de dados. Numa concretização, as taxas de erro podem compreender ficha de erro e as taxas de erro pessoa. Numa concretização, a taxa de erro para duplicados ficha é o número de registros que estão envolvidas em conjuntos duplicados, dividido pelo número total de registros. Ela representa a chance de escolher um desenho registro fragmentado aleatoriamente do arquivo. Numa concretização, a taxa de erro pessoa é o número de indivíduo único que tem vários registros dividido pelo número total de indivíduos representados no arquivo. Tomar um caso simples de registros 5, Um 1 B, C, D e E em que A, B, e C representam ail a mesma pessoa. Em seguida, a taxa de erro é 3/5 ficha e a taxa de erro é pessoa 1/3 ( o arquivo representa 3 pessoas distintas ABC, D e E e um deles tem vários registros.)

[0166] Numa concretização, as taxas de erro podem incluir taxas positivos e falsos negativos falsos. Numa concretização, as taxas de erro são associados com revisualização manual (CR) e AutoLink limiares (AL) . Numa concretização, os limiares de RC e AL são indicativos de tolerância do Cubo de identidade 32 a taxas negativas falsos positivos e falsos em combinar um conjunto de registros de dados. Consequentemente, uma concretização de um método para analisar um núcleo de identidade pode compreender a análise do limiar revisualização manual e o limiar autolink. A Figura 16 representa um imagem de tela de uma concretização de uma interface gráfica do usuário através do qual as taxas de erro e limiares associados com registros de membros em um cubo de identidade são analisáveis.

[0167] Uma abordagem para estimar os limiares envolve conseguir uma amostra de ligações produzidos pela cruz granel -match processo, do ajuste dos resultados da pontuação para uma curva-modelo para a taxa de acerto, e utilizando a curva resultante para escolher limiares com base em taxas de erro desejados. Existem algumas dificuldades subjacentes com esta abordagem. Primeiro, exige a escrever e marcar um par de milhares de pares ligados através de uma ampla gama de pontuações. Isto introduz variação inevitável devido a interpretações individuais de jogo ou não-jogo. Em segundo lugar, a taxa atingiu combina inerente taxa de duplicação dos dados e o tamanho do arquivo (se a amostra de dados que usamos não tinha duplicatas, então a taxa de hit seria zero para todos os escores). Em terceiro lugar, este processo produz limiares aplicáveis ao cross-match e que precisam ser traduzidos em taxas de erro da pesquisa ou consulta.

[0168] Em algumas configurações, um novo procedimento de estimação limiar descrito a seguir pode responder a estas preocupações. Uma vantagem desta nova abordagem é que ela pode ser aplicada, inicialmente, com base no perfil de dados ou com base em um novo conjunto de estatísticas que serão produzidas durante a geração de peso automática.

[0169] Taxa de falso-positivos (limiar de auto-link)

[0170] Uma vantagem de usar taxa de probabilidade para a pontuação é que há um teórico expressão que pode ser usada para aproximar a taxa de falsos positivos estatística para um limiar fixo. Isto também significa que, feito corretamente, a probabilidade de uma partida ser um falso jogo depende apenas da pontuação, e não sobre os dados reais.

[0171] Representar os resultados da comparação de dois registros pelos vetores. Em seguida, a razão de verossimilhança, ou pontuação, para esta comparação é dada por:

[0172] Aqui, fΜ (X)é a densidade de probabilidade para essa comparação sob a hipótese de que os registros se referem ao mesmo objeto (pessoa, empresa, etc.) . Ou seja, ele é a probabilidade de observar este resultado, se sabemos que os registros devem ser combinados. Da mesma forma, fU(X) é a densidade de probabilidade de observar este resultado, quando os registros não se referem ao mesmo objeto (ou seja, é a probabilidade de este conjunto de comparações que ocorrem de forma aleatória).

[0173] Em algumas concretizações, o cubo pode ligar dois registros, quando o logaritmo da pontuação é maior que algum limiar, então a probabilidade de falsos positivos é a probabilidade de que uma pontuação de comparação acima do limite de quando os registros não se referem ao mesmo objeto. Matematicamente, este é:

Agora, no conjunto:
fU(X)<10-T fM(X) .
De modo que

[0174] Assim, a probabilidade de um falso positivo, em uma única comparação, é delimitada por:

[0175] Se o limite é relativamente grande, pode-se pensar em uma única pesquisa de um banco de dados contendo n registros como executar n separar comparações. Isso significa que a probabilidade de uma única pesquisa de o banco de dados retornando um falso-positivo acima do limiar é o mesmo que a probabilidade de que o máximo de n comparações individuais independentes está acima do limite. Seja {S1,S2,...Sn} representando a contagem de um único registro contra todos os registros a base de dados, então a probabilidade de a busca criando um falso-positivo pode ser expressa como:

para o grande T. Isto pode ser ainda mais simplificada, como se

em que 10T é grande em relação a n.

[0176] Como um exemplo, se um limiar 11 é usado contra uma base de dados com um milhão de discos, em seguida:
Pfp ≈1000000 ×1011
≈10-5
or about 1 in 100,000 buscas

[0177] Refining Autolink Threshold com base em pares de amostras marcados

[0178] Uma vez que os pares de amostras (assumindo que a amostragem é uniforme) foram marcados, um novo autolink (AL) limiar pode ser calculado a informação necessária para isso pode incluir:

• Um arquivo que contém os pares marcados O arquivo pode conter uma pontuação para cada par e um indicador de se os dois registros do par pode representar a mesma pessoa (SP) , não representam a mesma pessoa (NSP), de se não há suficiente informação para fazer uma determinação (NEI) Um valor pode ser atribuído a partir do procedimento de pontuação correspondente Por exemplo, 1 significa SP, 0 significa NSP, e. - 1 significa NEI.
• Counts por pontuação do número total de pares gerados pela BXM (se as fontes foram filtrados quando os pares aleatórios foram gerados, então esta é a contagem de pares onde ambos os membros estão nas fontes filtrada). · Número de registros no banco de dados ((se as fontes foram filtrados quando os pares aleatórios foram gerados, então esta é a contagem dos registros dessas fontes).

[0179] Em algumas configurações, o primeiro etapa é tomar a amostra uniforme e obter uma parcela percentual de pontuação para o PEN e SPs. Apenas os PTS são necessários para a atualização do limiar AL. O próximo etapa é fazer com que o número total de pares por pontuação. Isto pode ser gerado na etapa que criou os pares de amostras antes da avaliação manual. O próximo etapa é calcular a probabilidade de obter um falso-positivo em função da pontuação. Para isso, é preciso saber o tamanho do banco de dados a fim de normalizar entre a taxa de cross-match granel e a taxa de consulta. Para cada bin pontuação, tomar a probabilidade de um NSP, multiplique pelo número total de par em que a pontuação, dividir pelo tamanho do banco de dados menos 1, e multiplicar a coisa toda por 2. Se a distribuição resultante não é lisa, um função exponencial linear pode ser aplicada aos dados de exemplo. Ou seja, encontrar coeficientes a e b para que a função p = e '' s é uma mínimos quadrados para os dados de exemplo, onde s é a pontuação.

[0180] A partir dos coeficientes de ajuste, o novo limite AL pode ser calculado como:
AL = ln(- fprate . b /(0.1 . Exp(a)))/b.

[0181] A taxa de falsos positivos pode ser determinado como uma função de pontuação utilizando a fórmula:

[0182] Atualizando o Threshold Clerical comentário

[0183] Uma vez que um limiar auto-link apropriado é determinado, uma estimativa das tarefas número pode ser determinado em função da revisualização clerical (CR) limiar. Este pode ser obtido a partir das contagens por par marcador, pela soma para a auto-ligação. O usuário pode ajustar o limiar CR para se obter um determinado número de tarefas. A Figura 17 ilustra a relação entre o desempenho do sistema e tolerância para taxas negativas falsos positivos e falsos associados com ligando registros de membros em um cubo de identidade. No exemplo da figura 17, os limiares AL e CR rendimento 12 tarefas de revisualização de escrita.

[0184] Na descrição anterior, a divulgação foi descrita com referência a concretizações específicas. No entanto, deve ser entendido que a descrição é por meio de apenas exemplo e não deve ser interpretada num sentido limitativo. Deve ser ainda compreendido, portanto, que numerosas alterações nos detalhes das concretizações do presente relatório descritivo e concretizações adicionais do presente relatório descritivo serão evidentes para, e podem ser feitos por, pessoas com conhecimentos normais na técnica tendo em referência esta descrição. É contemplado que todas essas alterações e concretizações adicionais estão dentro do escopo da divulgação, conforme detalhado nas seguintes reivindicações.

Claims

Método para análise de um sistema para associação de registros de dados, caracterizado pelo fato de que compreende:
produzir uma configuração do referido sistema, a configuração do sistema aplicando uma estratégia de bucketing operável para criar buckets por meio da comparação de conjuntos de um ou mais atributos de registros de dados iniciais com atributos correspondentes de registros de dados de candidatos no referido sistema, em que cada bucket é associado a um conjunto correspondente de atributos;
analisar buckets criados de acordo com a estratégia de bucketing associada à referida configuração do referido sistema, em que cada dos referidos buckets compreende registros de dados candidatos com o conjunto de atributos correspondente similar àqueles dos registros de dados iniciais e são utilizados para associar registros de dados com uma entidade comum, e em que a referida análise de buckets compreende adicionalmente analisar estatísticas associadas aos referidos buckets, analisar uma distribuição de tamanho de bucket, analisar os referidos buckets por tamanho, analisar os referidos buckets por composição, analisar uma distribuição de comparação de correspondência cruzada, distribuição de comparação, analisar os membros por contagem de bucket, analisar os valores de bucket de membro, analisar as frequências de bucket de membro, analisar uma distribuição de comparação de membro, ou uma combinação dos mesmos;
analisar um efeito desses buckets sobre o desempenho do referido sistema para determinar e ligar registros de dados associados a uma entidade comum; e
alterar a referida estratégia de bulcketing de acordo para alterar a determinação da associação dos registros de dados com a entidade comum.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a referida mudança de estratégia de bucketing inclui ainda editar um algoritmo utilizado na criação dos referidos buckets ou alterar um ou mais valores de parâmetro associado com o dito algoritmo.
Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o dito algoritmo é associado com um tipo de entidade.
Método, de acordo com a reivindicação 3, caracterizado pelo fato de que compreende ainda analisar as entidades classificadas como tendo o dito tipo de entidade no referido sistema.
Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a referida análise das referidas entidades inclui ainda analisar uma distribuição de tamanho de entidade, analisar as referidas entidades por tamanho, analisar as referidas entidades pela composição, analisar a distribuição de pontuação associada com as referidas entidades, analisar as comparações de membro associadas com as referidas entidades, ou uma combinação das mesmas.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que inclui ainda analisar a validade de atributos do referido conjunto inicial de registros de dados.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente analisar taxas de erro associadas ao referido conjunto inicial de registros de dados, em que as referidas taxas de erro compreendem uma taxa de erro de registro e uma taxa de erro de pessoa.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a referida configuração do referido sistema compreende um limiar de revisão de pessoal e um limiar autolink, e em que o dito limiar de revisão de pessoal e o referido limiar autolink são indicativos da tolerância do referido sistema para taxas falsas positivas e falsas negativas na correspondência do referido conjunto inicial de registros de dados, compreendendo adicionalmente analisar o referido limiar de revisão de pessoal e o referido limiar autolink.
Mídia de armazenamento legível por computador executável por um processador, caracterizada pelo fato de que quando executada pelo processador faz um computador:
produzir uma configuração de um sistema;
criar buckets de acordo com uma estratégia de bucketing associável à referida configuração do referido sistema por meio da comparação de conjuntos de um ou mais atributos de registros de dados iniciais com atributos correspondentes de registros de dados de candidatos no referido sistema, em que cada bucket é associado a um conjunto correspondente de atributos, e em que cada dos referidos buckets compreende registros de dados candidatos com o conjunto de atributos correspondente similar àqueles dos registros de dados iniciais e são utilizados para associar registros de dados com uma entidade comum;
analisar os referidos buckets e um efeito dos referidos buckets no desempenho do referido sistema para determinar e ligar registros de dados associados a uma entidade comum, em que a referida análise de buckets compreende adicionalmente analisar estatísticas associadas aos referidos buckets, analisar uma distribuição de tamanho de bucket, analisar os referidos buckets por tamanho, analisar os referidos buckets por composição, analisar uma distribuição de comparação de correspondência cruzada, analisar os membros por contagem de bucket, analisar os valores de bucket de membro, analisar as frequências de bucket de membro, analisar uma distribuição de comparação de membro, ou uma combinação dos mesmos; e
alterar a dita estratégia de bucketing para alterar a determinação da associação dos registros de dados com a entidade comum.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que quando executada pelo processador faz ainda com que o referido computador exiba um editor de algoritmo através do qual um algoritmo utilizado na criação dos referidos buckets é editado
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que a referida estratégia de bucketing está associada a um tipo de entidade, e em que quando executada pelo dito processador faz com que o referido computador exiba uma ferramenta de análise de entidade através da qual as entidades classificadas como tendo o dito tipo de entidade no referido sistema são analisadas.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que quando executada pelo dito processador faz ainda com que o referido computador forneça uma pluralidade de funções através de uma ferramenta de análise de entidade, em que a referida pluralidade de funções permite a análise de uma distribuição de tamanho de entidade, análise das referidas entidades por tamanho, análise das referidas entidades pela composição, análise da distribuição da pontuação associada com as referidas entidades, e análise das referidas comparações de membro associadas com as referidas entidades.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que quando executada pelo processador faz ainda com que o referido computador exiba uma ferramenta de análise de dados através da qual o referido conjunto inicial de registros de dados é analisado.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 13, caracterizada pelo fato de que quando executada pelo processador faz ainda com que o referido computador forneça pelo menos uma função através da referida ferramenta de análise de dados, em que a referida pelo menos uma função possibilita a análise da validade do atributo do referido conjunto de registros de dados inicial.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que quando executada pelo dito processador faz ainda com que o referido computador exiba uma ferramenta de análise de bucket através da qual os referidos buckets e estatísticas associadas com os referidos buckets são analisados.
Mídia de armazenamento legível por computador, de acordo com a reivindicação 9, caracterizada pelo fato de que quando executada pelo processador faz ainda com que o referido computador exiba uma ferramenta de análise de ligação através da qual as referidas taxas de erro associadas com o dito conjunto inicial de registros de dados são analisadas, em que as referidas taxas de erro incluem uma taxa de erro de registro e uma taxa de erro de pessoa.
Sistema computacional para análise de um centro de identidade, caracterizado pelo fato de que compreende:
pelo menos um processador; e
pelo menos uma mídia de armazenamento legível por computador acessível pelo referido pelo menos um processador, em que quando executada pelo referido pelo menos um processador faz com que o referido sistema computacional:
exiba uma interface gráfica do usuário que faz interface com uma pluralidade de ferramentas compreendendo um editor de configuração, um editor de algoritmo, uma ferramenta de análise de dados, uma ferramenta de análise entidade, uma ferramenta de análise de bucket e uma ferramenta de análise de ligação;
em que o referido editor de configuração cria ou carrega uma configuração do referido centro de identidade local utilizando um conjunto inicial de registros de dados de fontes de informação associadas com o referido centro de identidade;
em que o referido editor de algoritmo edita um algoritmo utilizado na criação de buckets com base no referido conjunto inicial de registros de dados para alterar a determinação de uma associação de registros de dados com um entidade comum, em que os referidos buckets são criados por meio da comparação de conjuntos de um ou mais atributos dos registros de dados iniciais com atributos correspondentes de registros de dados candidatos e cada bucket é associado a um conjunto correspondente de atributos, e em que os referidos buckets compreendem, cada um, registros de dados candidatos com o conjunto correspondente de atributos similar àqueles dos registros de dados inicias e são usados para associar registros de dado à entidade comum;
em que a referida ferramenta de análise de dados permite a análise do atributo de validade do referido conjunto inicial de registros de dados;
em que a referida ferramenta de análise de entidade permite analisar as entidades associadas ao dito conjunto inicial de registros de dados;
em que a referida ferramenta de análise de bucket permite analisar os referidos buckets e um efeito desses buckets no referido centro de identidade para determinar e ligar registros de dados associadas à entidade comum; e
e em que a referida ferramenta de análise de ligação permite analisar as taxas de erros associadas à vinculação dos registros de membro do dito conjunto inicial de registros de dados e os limiares utilizados na contabilização de derivados do referido conjunto inicial de registros de dados.