[go: up one dir, main page]

0% acharam este documento útil (0 voto)
203 visualizações28 páginas

Data Analytics - Apostila Data Analytics

O documento discute técnicas de análise de dados e process mining. Primeiro, introduz conceitos como BI, big data, data analytics e data science. Em seguida, descreve o ciclo de análise de dados, incluindo obtenção, validação, tratamento, análise e relatório de dados. Por fim, lista técnicas comuns de análise como classificação, regressão e clusterização.

Enviado por

Jonas Souza
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
203 visualizações28 páginas

Data Analytics - Apostila Data Analytics

O documento discute técnicas de análise de dados e process mining. Primeiro, introduz conceitos como BI, big data, data analytics e data science. Em seguida, descreve o ciclo de análise de dados, incluindo obtenção, validação, tratamento, análise e relatório de dados. Por fim, lista técnicas comuns de análise como classificação, regressão e clusterização.

Enviado por

Jonas Souza
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 28

Jonas Dos Santos Souza - CPF: 177.402.

822-00

US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
TÉCNICAS DE

O
-I
IA
DATA
E PROCESS MINING

BR
AS
IL
ANALYTICS
Jonas Dos Santos Souza - CPF: 177.402.822-00

US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
Jonas Dos Santos Souza - CPF: 177.402.822-00

US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
TÉCNICAS DE

NT
O
-I
DATA
E PROCESS MINING

IA
BR
ANALYTICS

AS
IL
Jonas Dos Santos Souza - CPF: 177.402.822-00

US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
IL
Conteúdo

AS
1. Introdução...............................................................................................................................................................................1

2. BI (Business Intelligence)...............................................................................................................................................1

BR
3. Big Data....................................................................................................................................................................................2

3.1 Data Analytics.......................................................................................................................................................................5

IA
3.2 Data Science..........................................................................................................................................................................7

4. Pensamento lógico na análise de dados.............................................................................................................8

-I
5. Introdução à Modelagem e aplicações ...............................................................................................................9

O
6. Ciclo de análise de dados.......................................................................................................................................... 11

NT
6.1 Obtenção dos dados e abordagem ao Process Mining.......................................................................... 12
Jonas Dos Santos Souza - CPF: 177.402.822-00

6.1.1 Definição de dados necessários............................................................................................................................. 13

6.1.2 ME
Acesso aos dados............................................................................................................................................................. 14

6.1.3 Importação de dados.................................................................................................................................................... 14


NA
6.2 Validação, tratamento e preparação dos dados.......................................................................................... 15

6.3 Análise.................................................................................................................................................................................... 15
EI

6.3.1 Técnicas de análise de dados.................................................................................................................................. 15


TR

6.4 Relatório................................................................................................................................................................................ 17

6.4.1 Formatos de relatórios................................................................................................................................................. 17

6.4.2 Formatos de gráficos..................................................................................................................................................... 17


DO

6.4.3 Usabilidade de gráficos............................................................................................................................................... 19

6.5 Automatização.................................................................................................................................................................. 19
O
IV
US
CL
EX
O
US

Técnicas de Data Analytics e Process Mining | V


Jonas Dos Santos Souza - CPF: 177.402.822-00

US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
1. Introdução

IL
Dentro de uma empresa a Auditoria Interna é realizada através de entrevistas, análise de documentos,
observação, amostragem do trabalho, dentre outros. Esses mecanismos, que são considerados como

AS
tradicionais, são custosos, implicando em grande quantidade de recursos humanos e financeiros.
A mineração de dados propõe diminuir, o custo das atividades de auditoria, permitindo a verificação

BR
mais rápida e de forma automática da conformidade dos processos executados, refinando os
processos de técnicas tradicionais.

2. BI (Business Intelligence)

IA
Até a década de 80, muitas empresas, tomavam decisões importantes baseadas apenas na

-I
experiencias passadas de seus líderes. O avanço da tecnologia e os resultados que esse avanço trouxe
(aumento da competitividade, surgimento de novos mercados, etc.) tornou o cenário de negócios
muito mais competitivo.

O
Entendendo-se que boas escolhas dependem das informações certas, surgiram uma série de

NT
conceitos e técnicas que permitem coletar, gerenciar e distribuir os dados de uma empresa para
transformá-los em insights, formando o conceito que conhecemos hoje como Business Intelligence.
Jonas Dos Santos Souza - CPF: 177.402.822-00

O BI não é apenas uma ferramenta de visualização de relatórios gerenciais. É um processo que


ME
une técnicas e conceitos de entrega de informações com maneira coerente, íntegra e de fácil
interpretação visual.
O conceito de BI envolve muito mais do que a escolha de uma ferramenta de desenvolvimento. Ao
NA

entender que é necessária a sua implementação, é preciso envolver vários profissionais da empresa,
para realizar o levantamento de requisitos, planejamento, mapeamento dos dados, desenvolvimento
EI

de cubos, relatórios, indicadores e dashboards. Essa abordagem é conhecida como Modelagem


Dimensional, e torna possível trabalhar com uma grande massa de dados sem perda de performance.
TR

É importante montar uma estratégia de BI eficaz para que o mesmo não seja utilizado apenas como
relatório de consulta da empresa e sim como ferramenta de mineração de dados e obtenção de
DO

insights para guiar e orientar a tomada de decisões estratégicas.


Os sistemas de BI atuais têm como características:

 Extração e integração com dados de múltiplas fontes


O

 Análise dados contextualizados


 Elaboração de hipóteses
IV

 Definição de relações de causa e efeito


US

Hoje em dia é muito difícil para uma empresa conseguir sobreviver sem alguma ferramenta de BI.
Mais do que nunca é importante a adoção de um sistema de suporte à decisão eficaz e relevante, que
CL

tenha condições de prover informações de forma contínua para os gestores da área de negócio.
A capacidade de visualizar em gráficos simplificados a atividade da empresa, o seu desempenho,
potenciais riscos ou desvios do planeamento estratégico, bem como a capacidade de obter
EX

indicadores de gestão (PKI), são apenas algumas das grandes vantagens que estas soluções trazem às
empresas. Existem ainda vantagens a médio e longo prazo, tais como a detecção de fraudes, análise
de impacto das decisões tomadas e informação que sustente correções imediatas.
O

Num mercado onde temos uma extrema competitividade, estar no lugar certo e no momento certo
US

é fundamental para o sucesso de uma empresa, e o BI vem para suprir esta lacuna. Os ganhos na
utilização destas ferramentas são enormes, pois os utilizadores contam com uma maior rapidez no
acesso às informações, na automatização de processos de reporting e na descentralização do acesso à
informação.

Técnicas de Data Analytics e Process Mining | 1


3. Big Data

IL
No princípio dos anos 2000 o termo BIG Data passou a ser muito utilizado, porém ele é
discutido desde a década de 70, quando surgiram os primeiros Data Centers. Nesta época as

AS
empresas armazenavam os dados de forma analógica utilizando Discos Rígidos, Discos de vinil,
fitas de vídeo VHS e fitas cassete que, comparados aos meios digitais que temos hoje, eram

BR
frágeis, caros, possuíam pouco espaço e dificultavam o compartilhamento dos dados.
Com a troca do armazenamento analógico para o armazenamento digital e em nuvem, as
questões de custo, espaço e compartilhamento foi saneada, mas um outro problema foi
gerado. Como teoricamente não existe a limitação de espaço para armazenamento a avaliação

IA
das informaçoes que devem ser guardadas não é realizada, mantendo lixos eletrônicos como
fotos, músicas, relatórios e documentos muitas vezes em duplicidade.

-I
A dificuldade que as empresas encontram hoje consiste em armazenar seus dados limpos e
organizados com eficiência, qualidade e relevância. Segundo um artigo publicado na revista

O
Forbes: “Atualmente, o número de dados armazenados na internet vem crescendo mais

NT
rápido do que nunca e tudo indica que até 2020 cerca de 1,7 megabyte de novas informações
serão criadas por segundo para cada uma das pessoas no planeta”( https://forbes.com.br/
Jonas Dos Santos Souza - CPF: 177.402.822-00

fotos/2015/10/20-fatos-sobre-a-internet-que-voce-provavelmente-nao-sabe/#foto2 - Extraído em

ME
01/10/2020 as 18h00). Podemos comparar com todos os habitantes do planeta armazenando
uma foto a cada quatro segundos. Sendo assim, um grande volume de dados armazenados
sem critérios ocupará muito espaço do que o necessário.
NA
EI
TR
DO
O
IV
US
CL
EX
O
US

Figura 1 - Infográfico do que acontece na internet em 1 minuto

2 | Técnicas de Data Analytics e Process Mining


IL
Com esse alto volume de dados somente armazenar grande volume de dados não é mais o
suficiente. É necessário trabalhar as análises que serão geradas a partir desses dados e como as

AS
mesmas serão disponibilizadas para os envolvidos.

“Big Data faz referência ao grande volume, variedade e velocidade de dados que demandam

BR
formas inovadoras e rentáveis de processamento da informação, para melhor percepção e
tomada de decisão.”(Gartner)

IA
Essa definição apresenta o que é conhecido como os três Vs do Big Data.
Volume: quantidade de dados

-I
Velocidade: rapidez com que os dados são processados
Variedade: os vários tipos de dados existentes.

O
Mas, com o avanço do conceito, foram acrescentados mais dois Vs devido a quantidade e a
desarmonia das informações:

NT
Veracidade: necessidades de garantir a autenticidade dos dados
Jonas Dos Santos Souza - CPF: 177.402.822-00

Valor: utilidade e importância dos dados para os negócios.

ME
Volume
NA

 Terabytes
 Records/Arch
EI

Transactions
Variety 
Velocity
 Tables, Files
Structured Batch
TR

 
 Unstructured  Real/near-time
 Multi-factor  Processes
Probabilistic Streams
5 Vc of Big Data
DO

 
O

Veracity Value
IV

 Trustworthiness  Statistical
 Authenticity  Events
US

 Origin, Reputation  Correlations


 Availability  Hypothetical
 Accountability
CL

Figura 2 - 5 V´s do Big Data


EX
O
US

Técnicas de Data Analytics e Process Mining | 3


Portanto, resumidamente podemos tratar Big Data como um conjunto de dados maior e mais

IL
complexo. Esses conjuntos de dados são tão volumosos que o software tradicional de processamento
de dados simplesmente não consegue gerenciá-los. Assim começa a necessidade de aquisição de

AS
softwares de monitoramento e análises com grande desempenho.

Processadores de alta capacidade e softwares focados no tratamento de dados formam o Big Data

BR
Analytics, que também abrange as técnicas utilizadas para transformar dados em informações
estratégicas para os negócios. Do mesmo modo, o Big Data representa uma fonte importante de
informações para o BI (Business Intelligence), traduzindo os dados em KPIs (indicadores-chave de

IA
desempenho) da empresa.

-I
Uma pergunta recorrente de quem tem um grande volume de dados é: que tipo de projeto posso
desenvolver utilizando Big Data?

O
Abaixo seguem algumas aplicações que podem ser realizadas:

NT
E-commerce
Jonas Dos Santos Souza - CPF: 177.402.822-00

 Vendas cruzadas e adicionais (produtos que complementam a compra);



Manutenção
ME
buscas por itens semelhantes (produtos similares com cores e ou modelo ao gerado pela busca);

 Veículos de frota conectados: registrar online a quilometragem rodada e programar suas devidas
NA
manutenções
Saúde
 Resultados de exames avaliando possíveis curvas e cruzamento entre exames.
EI

Turismo
 Evidenciar pacotes turísticos com base nas últimas buscas.
TR

Investimentos
 Aplicações de acordo com recebimentos e pagamentos.
Bancos
DO

 Prevenção a fraudes (detecção de vários saques bancários com tempo insuficiente para a distância
entre as agências)

Para uma boa atuação com Big Data é necessário estabelecer alguns critérios preciosos para que o
O

grande volume de informação não onere a empresa adquirindo um Data Center de última geração,
IV

com dados sem utilização.


US

A imagem a seguir mostra um exemplo de dados inseridos sem políticas de limpeza das informações:
CL
EX
O
US

4 | Técnicas de Data Analytics e Process Mining


Verifique os problemas nesses registros, são problemas até comuns em bases de dados que não

IL
há uma política de limpeza e correção que garanta que os dados serão inseridos com precisão e
coerência, neste exemplo uma varredura pela cidade com maior número de compras e ou pelo sexo,

AS
torna se impossível.

Construir bases com abordagem Big Data requer uma perfeita otimização do seu dataware house,

BR
mantendo uma periocidade de limpeza, evitando assim atualizações desnecessárias e com alto custo
e preparando o ambiente para ser trabalhado com variedade, volume e velocidade de um Big Data,
um bom gerenciamento de seus dados, trará grandes conquistas, onde será possível usufruir de dados

IA
confiáveis e adequados com refinamento das informações. A obtenção desta conquista se dá através
de políticas confiáveis de gerenciamento e armazenamento de dados, regras rígidas inclusive baseada

-I
em legislações de acordo com a localidade de armazenamento e consumo.

O
Com apenas algumas regras simples se utilizadas trataram para que suas informações armazenadas
tenham maior fidelidade na análise.

NT
 Verificar dados duplicados;
Jonas Dos Santos Souza - CPF: 177.402.822-00

 Informações incompletas;


Erros de digitação;
Dados iguais representados de forma diferente;
ME
 Dados que violam regras de negócios;
NA
 Dados necessários ausentes.
Em tempos de compras virtuais, reclamações e elogios via web, a armazenagem de dados é o carro
chefe das empresas, fazendo toda a diferença em uma análise correta para entrega de KPIs para a
EI

tomada de decisões.
TR

3.1 Data Analytics


É muito comum não saber a diferença entre Data Analytics e Data Science, a técnica Data Analytics
vem de encontra a análise de dados em seu estado bruto e Data Science analisa os dados já
DO

aplicando técnicas avançadas como de Machine Learning.

Data analytics está diretamente ligado a mineração de dados de um Big Data, ou seja, pela
preparação e análise das grandes massas de dados.
O
IV

A mineração de dados surgiu da década de 90, mas suas origens na matemática, estatística e
computação são muito anteriores a esse período. A área também ganhou evidência nos últimos anos
US

depois de ser cunhado o termo Big Data na publicação do relatório intitulado Big Data: The Next
Frontier for Innovation, Competition, and Productivity pelo McKinsey Global Institute em meados de
2011.
CL

Com a junção das técnicas tradicionais de Analytics e Big Data, surgiu o Big Data Analytics, que tem
EX

como foco a extração de informações através de uma avalanche de dados.


Atualmente as técnicas da Data Analytics podem ser divididas em quatro diferentes categorias, que
se distinguem pelos resultados que elas produzem e pelas técnicas utilizadas.
análise descritiva
O


 analise diagnostica
US

 analise preditiva
 analise prescritiva

Técnicas de Data Analytics e Process Mining | 5


Configura a seguir uma ilustração que relata um breve resumo sobre elas:

IL
AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

Figura 3 - Big Data Analytics


ME
Para o inicio da utilização de Data Analytics ou Big Data Analytics, deve entender todas as fontes de
NA
dados que estão acessíveis em sua empresa. Trabalhando com o exemplo de um e-commerce, pode
se desenvolver uma análise baseada no sistema de SAC(serviço de atendimento ao cliente), onde
criará evidencias de melhorias para gestão de entregas e devoluções de produtos.
EI

Colher o máximo de dados sem um direcionamento, pode causar uma grande decepção com
centenas de informações desencontradas, por isso, é necessário focar nos dados que estão
TR

diretamente ligados ao que será desenvolvido dentro do conceito Data Analytics.


Na coleta de dados é necessário um grande cuidado com falsos positivos, ou informações que podem
levar a grandes erros dentro de sua análise. Algumas fontes de dados merecem mais atenção do
DO

que outras, como é o caso das redes sociais, que sofrem alterações constantes e alguns dados falsos
podem ser contabilizados erroneamente.
O

Segue uma ilustração com alguns possíveis erros nos dados:


IV
US
CL
EX
O
US

6 | Técnicas de Data Analytics e Process Mining


Como frisamos o Data Analytics ou Big Data Analytics é o rei das decisões eficientes. Suas análises

IL
sofisticadas podem melhorar substancialmente a forma como a sua empresa escolhe o que
fazer, minimizar riscos e desenterrar informações valiosas que de outras formas permaneceriam

AS
desconhecidas. Por isso, ele interage muito bem com negócios em todas as indústrias.

3.2 Data Science

BR
A relevância do termo Data Science começou em 2012, quando o termo se popularizou pelas análises
feitas com algoritmos complexos e métodos modernos chamando atenção para os gráficos que
agregavam de forma prática valores as grandes organizações.

IA
A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução

-I
das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O
gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 médias

O
popularidade e 0 nenhuma popularidade.

NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR
DO
O

O principal conceito do Data Science é extrair informações de dados desorganizados, com o uso de
método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial.
IV

Como exemplo vemos a própria Google, quando realizamos uma busca de algo relacionado a
gravidez, automaticamente as próximas evidencias serão relacionados também a gestação e ou
US

roupas de recém nascidos, essas empresas geram uma grande massa de dados chamados de data-
driven, que são empresas orientadas a dados e utilizam de Data Science para tomadas de decisões.
CL

Outro exemplo que podemos citar são as grandes campanhas eleitorais que empregam vários
cientistas de dados, que buscam minerar os dados explorando dados novos e antigos para identificar,
no caso de uma campanha eleitoral, eleitores que possam estar em dúvidas com seu voto, em uma
EX

atenção especial e criação de novas estratégias de abordagens, vimos isso na campanha de Obama
em 2012, por exemplo e que foi de grande eficácia elegendo o então candidato.
O

Utilizar todas as informações geradas e capturadas é uma inovação digital que necessita de
tecnologias avançadas, envolve muito mais do que o conhecimento de linguagens de programação,
US

como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência
artificial.

Assim, para aplicar o Data Science em negócios é necessário envolver tanto áreas mais técnicas,
quanto áreas mais de negócios, onde os técnicos ficarão responsáveis pelas ferramentas que envolvem

Técnicas de Data Analytics e Process Mining | 7


conceitos de programação e a área de negócio auxiliará com o domínio dos problemas à serem

IL
resolvidos.

AS
Mas como criar um projeto que envolva data Science? O Ideal é pensar em como ficará a sua
visualização de dados, com gráficos e diagramas que tornem atrativos para quem precisa interpretar
as informações apresentadas, pois os dados são informações em forma mais bruta que não causam

BR
impacto imediato quando analisados inicialmente.
Dentro do ciclo do projeto que envolve desde os dados brutos até a visualização dos seus dados,
podemos dividir em 5 fases:

IA
 Entendimento do problema

-I
 Coleta de dados
 Exploração dos dados

O
 Análise profunda dos dados
 Comunicação dos resultados

NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

É possível notar que as fases que envolvem um projeto Data Science, vão de encontro à aquelas que

ME
utilizamos para desenvolver qualquer ação em vários segmentos de negócios, Pois é disso que se trata
o Data Science, resolução de problemas simples e complexos de forma estruturada, falaremos mais
sobre o assunto no capítulo 5.
NA

Assim Data Science não trata apenas dos quesitos técnicos é necessário entender o negócio e analisar
os dados para uma boa avaliação, fazendo análises qualitativas e quantitativas das tecnologias
EI

que serão utilizadas, ajudando muito a alavancar as empresas, resolvendo problemas de forma
estruturada.
TR

4. Pensamento lógico na análise de dados


Ao tratarmos de pensamento lógico, automaticamente ligamos a lógica de execução de tarefas sendo
DO

necessários passar por uma série de procedimentos até que finde o processo.

O uso do raciocínio é um fenômeno comum na vida do ser humano, pois situações problemáticas
O

aparecem-lhe frequentemente. Muitas vezes, é necessário que se analisem posicionamentos que


exigem pensamentos lógicos, comumente usados para equacionar problemas.
IV

É cada vez mais frequente nas organizações a necessidade de se trabalhar voltado a processos
US

e práticas estruturadas onde envolva o pensamento lógico, sejam estes empregados nas etapas
produtivas ou de apoio.
CL

O pensamento lógico é necessário para pessoas que desejam trabalhar com desenvolvimento
seja voltado para programação de sistemas ou para análise de dados, onde é permitido definir a
EX

sequencia lógica para o desenvolvimento.

Então lógica é a técnica de encadear pensamentos para atingir determinado objetivo e esses
O

pensamentos podem ser descritos como uma sequência de instruções, que devem ser seguidas para
se comprimir uma determinada tarefa.
US

Convém ressaltar que uma ordem isolada não permite realizar o processo completo, para isso é
necessário um conjunto de instruções colocadas em ordem sequencial. Por exemplo, se quisermos
fazer uma omelete de batatas, precisaremos colocar em prática uma série de instruções: descascar as
batatas, bater os ovos, fritar as batatas etc.

8 | Técnicas de Data Analytics e Process Mining


É evidente que essas instruções têm que ser executadas em uma ordem adequada (não se pode

IL
descascar as batatas depois de fritá-las). Dessa maneira, uma instrução tomada em separado não
tem muito sentido para obtermos o resultado, precisamos colocar em prática o conjunto de todas as

AS
instruções, na ordem correta.

Exercício:

BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
5. Introdução à Modelagem e aplicações
NA
O que é um modelo? Um livro de receitas implica um modelo que relaciona entradas como
“ingredientes” e “quantidade resultante” para as quantidades dos ingredientes necessários.
EI

Outro exemplo que temos é em um jogo de futebol você sabe que eles estimam a “probabilidade
do time ganhar, empatar ou perder” de em tempo real baseado em um modelo que leva em
TR

consideração as posse de bola, estilo de jogo, bola parada, faltas, cartões amarelos, expulsões,
escalações, chutes a gols e escanteios que aconteceram até o momento da análise do jogo, que pode
ser feita antes ou durante a partida.
DO

A modelagem de dados é um requisito fundamental para a obtenção de resultados com maior


qualidade e confiabilidade. Entretanto, percebe-se que cada vez menos profissionais têm dado a
atenção devida ao processo de construção de modelos de suas aplicações, devido as pressões por
O

sistemas em prazos cada vez mais curtos e com menores custos de produção mas, por outro lado,
IV

acaba por prejudicar o entendimento correto do problema e, consequentemente, a construção do


resultado que atenda às reais expectativas do usuário.
US

Bancos de dados são baseados em modelos de Entidade-Relacionamento, independente do SGBD


(Sistemas Gerenciadores de Bancos de Dados), e a forma mais comum de representar como será
CL

feita a modelagem dos dados inseridos é através do DER (Diagrama Entidade-Relacionamento),


exemplificado na figura a seguir, onde os retângulos representam as entidades (elementos do
EX

domínio do problema) e os losangos representam os relacionamentos entre estas entidades.


O
US

Técnicas de Data Analytics e Process Mining | 9


IL
AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

Figura 4 DER
ME
NA
Um diagrama entidade relacionamento (ER) é um tipo de fluxograma que ilustra como “entidades”,
p. ex., pessoas, objetos ou conceitos, se relacionam entre si dentro de um sistema. Diagramas ER são
mais utilizados para projetar ou depurar bancos de dados relacionais nas áreas de engenharia de
EI

software, sistemas de informações empresariais, educação e pesquisa. Também conhecidos como


DERs, ou modelos ER, usam um conjunto definido de símbolos, tais como retângulos, diamantes,
TR

ovais e linhas de conexão para representar a interconectividade de entidades, relacionamentos e seus


atributos. Eles espelham estruturas gramaticais, onde entidades são substantivos e relacionamentos
são verbos.
DO

Usos de diagramas entidade relacionamento


 Design de banco de dados: diagramas ER são usados ​​para modelar e criar bancos de dados
O

relacionais, em termos de regras lógicas e de negócio (em um modelo lógico de dados) e em


termos da tecnologia específica a ser implementada (em um modelo físico de dados.) Na
IV

engenharia de software, um diagrama ER é muitas vezes um passo inicial na determinação de


requisitos para um projeto de sistemas da informação. Também é usado para modelar certos
US

bancos de dados. Um banco de dados relacional possui uma tabela relacional equivalente, e pode
potencialmente ser expressado dessa forma, conforme necessário.
CL

 Solução de problemas de bancos de dados: diagramas ER são usados para


​​ analisar bancos
de dados existentes para encontrar e resolver problemas de lógica ou de implementação. Ao
desenhar o diagrama, o erro deverá ser revelado.
EX

 Sistemas de informação de negócios: os diagramas são usados ​​para criar ou analisar bancos de
dados relacionais utilizados em processos de negócios. Qualquer processo de negócio que use
dados padronizados envolvendo entidades, ações e interação pode potencialmente se beneficiar
O

de um banco de dados relacional. Ele pode agilizar os processos, revelar informações mais
facilmente e melhorar os resultados.
US

 Reengenharia de processos de negócio (RPN): diagramas ER ajudam na análise de bancos


de dados utilizados na reengenharia de processos de negócio e na modelagem de uma nova
configuração de bancos de dados.
 Educação: bancos de dados são o método atual de armazenamento de informação relacional
para fins educacionais e sua posterior recuperação. Portanto, diagramas ER podem ajudar no

10 | Técnicas de Data Analytics e Process Mining


planejamento dessas estruturas de dados.

IL
 Pesquisa: como muitas pesquisas baseiam-se em dados estruturados, diagramas ER podem
desempenhar um papel fundamental na criação de bancos de dados úteis para analisar dados.

AS
Como desenhar um diagrama ER básico
 Finalidade e alcance: defina a finalidade e o alcance do que você está analisando ou modelando.

BR
 Entidades: identifique as entidades que estão envolvidas. Quando estiver pronto, comece
a desenhá-las em retângulos (ou preferência de forma de seu sistema) e rotulá-las como
substantivos.

IA
 Relacionamentos: determine como as entidades estão todas relacionadas. Desenhe linhas entre
elas para mostrar as relações e rotulá-las. Algumas entidades podem não estar relacionadas, e

-I
isso não é um problema. Em diferentes sistemas de notação, a relação pode ser rotulada em um
diamante, outro retângulo ou diretamente em cima da linha de ligação.

O
 Atributos: acrescente mais camadas de detalhes ao adicionar atributos-chave de entidades.
Atributos são frequentemente apresentados como ovais.

NT
 Cardinalidade: mostre se a relação é de um-para-um, um-para-muitos ou muitos-para-muitos.
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
Podem haver diferentes abordagens para um diagrama ER. Contanto que ele forneça as informações
necessárias para seu alcance e objetivo, é válido.
NA
Exercicio:
 Liste os relacionamentos encontrados:
mãe_bebê: relacionamento entre Mãe e Bebê.
EI

Médico_bebê: relacionamento entre Médico e Bebê


TR

6.Ciclo de análise de dados


Os projetos de análises de dados são desenvolvidos baseado nas cinco fases do ciclo de análise
DO

de dados: Planejamento, Importação de Dados, Preparação, Análise e Resultados. É de extrema


importância considerar essas fases antes de iniciar um novo projeto.
O

 Planejamento do trabalho
Planejar o trabalho é um passo essencial antes de dar início a um projeto. É muito importante
IV

formular objetivos claros, pois isso ajuda no desenvolvimento de estratégias e no orçamento


eficiente de recursos.
US

 Importação de arquivos
Antes da análise, a etapa fundamental é a importação dos dados descritos no planejamento. Isso
CL

envolve localizar, adquirir os dados e criar layouts da tabela para os arquivos de origem.
 Preparação dos dados para análise
Há diversos problemas que podem prejudicar a integridade dos dados. Por exemplo, podemos
EX

citar: dados corrompidos, total de controle incorreto, intervalos de data incorretos e transações
ausentes. As falhas na conclusão desta fase podem acarretar resultados incorretos, o que faz com
que todo o trabalho seja invalidado.
O

 Análise dos dados


Esta é a etapa de analisar os dados preparados para alcançar os objetivos do projeto. É importante
US

citar que vários objetivos possivelmente envolverão variadas etapas, visto que em alguns
momentos as análises podem ser simples, mas também podemos nos deparar com objetivos mais
complexos.
Se os objetivos foram definidos de forma clara, ficará mais fácil saber qual análise

Técnicas de Data Analytics e Process Mining | 11


executar. Nesta etapa pode ser necessário implementar um processo de filtragens para ser

IL
possível responder a perguntas específicas sobre os dados.
 Reporte de problemas

AS
Nesta etapa final, é o momento de relatar ou apresentar os resultados de todo o processo
desenvolvido no projeto.
Os relatórios serão fornecidos a públicos diversos, dependendo do intuito do projeto e por quem

BR
ele foi requisitado. Ao determinar qual o tipo de relatório a ser usado, é importante levar em
consideração o objetivo e os possíveis públicos.

IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR
DO
O
IV
US
CL

6.1 Obtenção dos dados e abordagem ao Process Mining


EX

Na Auditoria Interna, busca se não só a mineração de dados como também a mineração de processos
ou Process Mining.
O

A mineração de processos é uma área relativamente nova dentro das empresas e, portanto, pouco
US

abordada. A ideia básica da Mineração de Processos é descobrir, monitorar e melhorar processos reais,
extraindo conhecimentos de logs de eventos disponíveis em diversos sistemas de informação.

Nesta metodologia de mapeamento, que usa informações coletadas nos bancos de dados das
empresas. Essa mineração é obtida por meio de movimentações sistêmicas, ou logs (eventos).

12 | Técnicas de Data Analytics e Process Mining


Dentro da aplicação dos Process Mining, pode se trabalhar em três fases:

IL
 Descoberta: as informações são organizadas para a construção dos processos, ainda de forma

AS
“bruta”, sendo moldados somente com os dados apresentados pelo sistema.
 Confirmação: comparados alguns cenários: o teórico, esperado pela organização, e o modelo real,
a partir de dados coletados.

BR
 Melhoria: baseado no que acontece de fato dentro da empresa, identificando mudanças eficientes
no cenário apresentado.

IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR
DO
O
IV

Figura 5 Process Mining


US

Sendo assim, a Mineração de Processos representa ganho competitivo ao recuperar conhecimento


CL

sem a necessidade de formalização prévia dos Processos através de entrevistas a equipe auditada.
EX

6.1.1 Definição de dados necessários


Existem dezenas de técnicas para definição dados necessários de um modelo de processo a partir
de dados brutos. Em algumas empresas gera se surpresa ao tomarem conhecimento que existem
O

técnicas que permitem descobrir processos reais baseando-se apenas em exemplos de execuções
registradas em logs de eventos. Frequentemente usam o processo de descoberta como um ponto de
US

partida para outros tipos de análise.


A extração dos fluxos dos processos a partir dos logs de eventos, muitas vezes permite a engenharia
reversa de dados reais de sua execução, extraídos a partir de banco de dados.

Técnicas de Data Analytics e Process Mining | 13


IL
AS
BR
IA
-I
Com a mineração de processos obtém modelos a partir de dados reais de execução, o fluxo modelado

O
é menos sujeito a erros do que aquele obtido através de métodos tradicionais, como as entrevistas,

NT
por exemplo. Sua contestação fica dificultada, permitindo utilizá-lo como prova da necessidade de se
iniciar um projeto de reengenharia organizacional.
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
Antes de qualquer trabalhando mineração de dados ou processos, é necessário determinar onde os
dados estão e identificação dos campos e tabelas necessárias para cumprir o objetivo do seu relatório
final.
NA

A identificação dos campos necessários para cumprir os objetivos de análise pode envolver trabalho
de investigação, incluindo reuniões, principalmente com o pessoal de TI (tecnologia da Informação).
EI

Assim dar andamento a solicitação dos dados necessários.


TR

Não se esqueça de considerar os requisitos para a verificação de integridade dos dados e relatórios,
porque os campos adicionais são muitas vezes necessários para cumprir esses objetivos.
DO

Mesmo sem qualquer conhecimento prévio do banco de dados, há sempre alguns campos que são
conhecidos no arquivo. Por exemplo, uma tabela representa transações a receber deve conter campos
que envolva clientes, data da transação e fatura.
O

Esta é uma fase crítica para o sucesso da conclusão da auditoria e a identificação de campos e tabelas
IV

requer paciência e dedicação.


US

6.1.2 Acesso aos dados


É possível acessar os dados através de duas maneiras:
CL

 Receber uma cópia das informações solicitadas:


Quando o acesso aos dados acontecer através do recebimento de uma cópia é importante definir
previamente o formato de recebimento, pois muitas vezes o tipo formato pode danificar a qualidade
EX

dos dados, devido a formatações que o provedor de dados pode realizar erroneamente.
 Acesso ao banco de dados:
É necessário nome de usuário, senha e configurações na máquina em que fará o acesso de acordo
O

com o banco de dados. Cada banco de dados, possui uma particularidade de acesso aos dados que
influencia diretamente a segurança da informação de cada empresa.
US

6.1.3 Importação de dados


Antes de qualquer análise ser realizada, os dados devem ser importados dentro do software
necessário e escolhido para a sua análise. Claro que neste momento você já onde os dados estão, os
dados disponíveis (campos, conteúdo etc.) necessários para cumprir os objetivos de análise.

14 | Técnicas de Data Analytics e Process Mining


Como ocorrerá a importação dependerá do software e do tipo de arquivo que você receberá ou o

IL
acesso que será dado ao banco de dados da empresa.

AS
Após cada importação é necessário analisar se as informações recebidas contemplam todas as
informações solicitadas, é necessário verificar possíveis erros em transmissão de dados, bem como
campos com dados que não condizem com o nome do campo e ou tabela.

BR
6.2 Validação, tratamento e preparação dos dados
Como citado no tópico anterior a validação dos dados recebidos implicará diretamente em seu

IA
resultado final, pois uma informação faltante ou com dados corrompidos tornará necessário o retorno
em fases do processo.

-I
Portanto, segue uma lista contendo as principais ações para validação, tratamento e preparação dos

O
dados recebidos:

NT
 Validação de formato / conteúdo: verificar se há dados em branco e ou com formato incorreto;
Jonas Dos Santos Souza - CPF: 177.402.822-00

 Validação do escopo: todos os dados solicitados foram entregues? Validar campos e quantidade de


registros;
ME
Validação da razoabilidade dos dados: existem dados negativos onde deveria haver somente
positivos;
NA
 Organização dos dados para realização da análise: Extração de informações relevantes dos campos;
 Melhores práticas na preparação dos dados: tabelas e campos com nomes de maior compreensão.
EI

6.3 Análise
A análise do Big Data passa por diferentes técnicas e os modelos que se destacam pela
TR

potencialidade de trazer bons resultados e fácil usabilidade. É importante saber que há duas camadas
de análise que ajudam a diferenciar o Business Intelligence e o Analytics. A primeira é a tradicional,
que abrange avaliações descritivas, que indicam o que já ocorreu sem emitir julgamentos.
DO

Elambém envolve análises diagnósticas, que derivam da descritiva. O objetivo é apresentar o que
motivou determinado evento a partir da relação entre duas ou mais variáveis. Nesse caso, são
O

construídos indicadores e é adotado o julgamento de valor.


IV

Em uma segunda camada, existem os tipos de análise prescritivos e preditivos. Esses definem o
US

Analytics por serem mais aprofundados. Isso não significa que as avaliações descritiva e diagnóstica
devam ser deixadas em segundo plano: as leituras são complementares e permitem compreender
melhor o cenário.
CL

6.3.1 Técnicas de análise de dados


Confira as 4 principais técnicas de análise existentes:
EX

1. Análise preditiva
O

Esse é o modelo mais conhecido, pois ajuda a prever cenários futuros com base na análise de padrões
da base de dados. Assim, é possível tomar decisões mais precisas.
US

Os métodos usados pela análise preditiva são dados estatísticos e históricos, além da mineração de
dados e da inteligência artificial. Ela é indicada para projetar comportamentos futuros do público e
do mercado, além de avaliar flutuações da economia e tendências de consumo.

Técnicas de Data Analytics e Process Mining | 15


2. Análise prescritiva

IL
A ideia aqui é verificar as consequências das ações tomadas, o que possibilita saber o que deverá
ocorrer ao escolher determinadas atitudes. Essa camada é a que possui mais valor, pois precisa do

AS
elemento humano para se concretizar. Além disso, ela é relevante porque define o caminho a ser
tomado para que a ação ocorra conforme o esperado.

BR
Em outras palavras, uma meta é traçada e, a partir disso, são indicados os caminhos que devem
ser percorridos para alcançá-la. Por isso, a análise prescritiva é considerada a mais complexa, já
que o profissional deve conhecer técnicas de data Science e ser um especialista no negócio e no

IA
ecossistema em que se insere.

-I
Apesar de sua importância, muitas empresas ainda não usam essa análise. Isso pode ser feito pela

O
listagem de padrões e aplicação de filtros por especificidades, o que permite ter um contexto real da
situação e dos efeitos das ações.

NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

Um exemplo é a saúde, que pode delinear padrões de doenças para os pacientes e verificar como

ME
cada atitude impactará sobre esse grupo. Assim, é possível verificar a melhor alternativa.

3. Análise descritiva
NA

O objetivo desse modelo é permitir que o analista compreenda os eventos em tempo real. É muito
utilizado em situações como a análise de crédito. Nesse caso, o banco avalia as informações do
EI

indivíduo e confere o risco envolvido no processo. Assim, define-se a taxa de juros.


TR

Como a análise descritiva não emite julgamento de valor, ela é indicada para visualizar os dados e
entender o impacto no presente, mas sem fazer relação com o passado ou o futuro. Ajuda a tomar
decisões imediatas com tranquilidade e segurança.
DO

4. Análise diagnóstica
A finalidade dessa prática é compreender as causas de um evento, ou seja, responder às perguntas:
O

Quem?
Quando?
IV

Como?
Por quê?
US

O ideal é analisar o impacto e alcance de uma ação tomada. A partir disso, pode-se traçar estratégias
para aprimorar os resultados. Esse é um modelo muito usado em vendas e deve ser complementado
CL

com a análise preditiva para reforçar a projeção dos dados.

Para que servem os tipos de análises de dados?


EX

Cada um dos tipos de análise de dados serve a um propósito específico

As análises de dados preditivas são as mais utilizadas por aí, porque permitem que as empresas
O

entendam algumas das métricas com que estão trabalhando. Ela indica coisas como as informações
demográficas dos consumidores e permite que a sua empresa gere inteligência de mercado e saiba
US

exatamente que produto um cliente procura.

Já a análise prescritiva é útil para verificar a eficiência de processos. Esse tipo de análise é utilizado por
empresas como o Google, para entender exatamente que websites exibidos na busca são relevantes

16 | Técnicas de Data Analytics e Process Mining


para os usuários e corrigir os resultados apresentados para determinadas palavras-chave.

IL
As análises descritivas são feitas a todo o tempo e adotadas pela sua operadora de cartão de crédito
quando você usa recursos como a avaliação emergencial. Nesse tipo de situação, o cliente contrata

AS
o serviço que aumenta o seu limite caso uma compra o extrapole, de acordo com seu perfil de
consumo e a assiduidade com que realiza pagamentos.

BR
A análise descritiva é tão precisa que ela oferece uma resposta instantânea para essa demanda e
aprova (ou não) um pagamento e a liberação de um crédito extra.

IA
As análises diagnósticas, por sua vez, avaliam a dimensão de uma ação realizada pelo negócio. Ela
ajuda a comparar métricas como as de marketing e de vendas, relacionando ambas para entender

-I
seus efeitos.

O
6.4 Relatório

NT
6.4.1 Formatos de relatórios
Considere o cenário em que uma análise foi realizada em um determinado conjunto de dados,
Jonas Dos Santos Souza - CPF: 177.402.822-00

e as observações obtidas a partir dessa análise precisam ser repassadas para outras pessoas. Essa
ME
exposição dos resultados pode ocorrer de inúmeras formas.

Por exemplo, é possível apresentar os resultados usando uma planilha eletrônica, com dados em
NA
formato tabular. Também é possível gerar um relatório, reportando textualmente os resultados
observados. Como uma terceira alternativa, é possível fazer uma apresentação oral dos resultados
obtidos.
EI

Mas será que essas alternativas são as mais eficazes? Você consegue perceber algum problema que
TR

pode ocorrer em alguma delas? Um dos possíveis problemas com a apresentação dos dados em
formato tabular é a dificuldade que nós, humanos, temos para fazer comparações a partir desse
formato. Isso torna a assimilação dos resultados um processo árduo, especialmente se a quantidade
DO

de itens for alta. Com a utilização de um relatório, somente o relato textual dos resultados da análise,
é possível que as observações não sejam apresentadas em sua completude. Isso pode gerar dúvidas
ao leitor em alguns aspectos dos dados não relatados.
O

Por fim, uma apresentação oral dos resultados pode fazer com que as pessoas tenham conclusões
IV

distintas do que foi apresentado, de acordo com o seu nível de compreensão da mensagem do
orador. Isso nos faz concluir que, embora sejam muito utilizadas, essas alternativas podem gerar
US

problemas referentes à compreensão do


leitor sobre os dados apresentados.
CL

6.4.2 Formatos de gráficos


Interpretar gráficos e formatos com representação dos dados são questões essenciais para qualquer
EX

profissional que trabalhe com a geração da informação.

Para que a interpretação destes dados seja feita da forma correta, é preciso saber qual o tipo de
O

gráfico é indicado para cada situação, a seguir vamos entender como trabalham os quatro tipos de
gráficos mais utilizados:
US

Gráfico em Linha: O gráfico de linha é um tipo de gráfico que exibe informações com uma série de
pontos de dados chamados de marcadores ligados por segmentos de linha reta.

Técnicas de Data Analytics e Process Mining | 17


IL
AS
BR
IA
Gráfico de barras: Um gráfico de barras é uma forma de resumir um conjunto de dados categóricos.

-I
Ele mostra os dados utilizando um número de barras de mesma largura, cada uma delas
representando uma categoria particular.

O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR

Gráfico Pizza: Utilizado para dados com até quatro tipos de informação diferentes, como por exemplo
gênero, sentimento ou rede social mais utilizada. Sua visualização é mais eficaz para dados rápidos.
DO
O
IV
US
CL
EX
O
US

18 | Técnicas de Data Analytics e Process Mining


Gráfico de dispersão: Os gráficos de dispersão são também conhecidos como gráficos de

IL
Scatter. Eles servem para mostrar a relação entre duas variáveis, ou revelar as tendências da
distribuição.

AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
6.4.3 Usabilidade de gráficos
NA

Os gráficos devem ser utilizados com cautela dentro da sua análise de dados, pois a escolha dele
impactará diretamente em como ele será interpretado, sendo assim, as seguintes questões devem ser
EI

levadas em consideração:
TR

 Qual resultado pretende mostrar?


 Quantas variáveis serão visualizadas?
 Qual público que interpretará?
DO

A partir do resumo dessas respostas será possível definir o gráfico ideal para os seus resultados,
principalmente levando em conta o objetivo de quem irá visualizar.
O

Muitas variáveis ou excesso de informações tornará seu gráfico poluído e de difícil interpretação, leve
IV

isso em conta durante a criação, tendo em mente as funções e suas intenções para cada gráfico
desenvolvido.
US

6.5 Automatização
Dentro de todos os tópicos abordados até o momento, notamos o grande volume de dados e uma
CL

vasta quantidade de análises que podemos trabalhar. Com a possibilidade de acesso aos dados, torna
se inviável trabalhar com todas as análises executadas manualmente, sendo assim a automatização
EX

vem de encontro para resultados que muitas vezes podem ser analisados em tempo real.

Ao tratarmos de indústria estas informações são os dados coletados no chão de fábrica, que são a
base para a obtenção de conhecimento que irá guiar tomadas de ações eficientes, reduzir custos,
O

melhorar produção e qualidade de produto. Manter a informação industrial no papel impresso


US

pode apresentar falhas e dificultar o seu acesso enquanto que disponibilizar esta informação
automaticamente capilariza o conhecimento.

Técnicas de Data Analytics e Process Mining | 19


Dentro das vantagens da automatização estão:

IL
 Aumentar produtividade e reduzir perdas
Dados automatizados ficam facilmente disponíveis para tomadas de decisões em tempo real, tal

AS
como em um varejo para a venda de produtos que estão com alto estoque.
 Credibilidade da informação
Quando automatizamos os dados dentro da indústria, os dados coletados e, consequentemente as

BR
informações baseadas neles, são mais confiáveis e precisas.
 Centralização da informação
Dados automatizados são passíveis de serem centralizados, e esta centralização da informação

IA
pode gerar conhecimento mais rico do que quando os dados são avaliados individualmente.
 Transparência e organização de informação

-I
Hoje temos a necessidade de notícias em tempo real para acompanhar e compreender o que
acontece diariamente, desta mesma maneira precisamos desta informação rápida e efetiva dentro

O
das empresas para compreender o dia a dia do mercado abordado.

NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR
DO
O
IV
US
CL
EX
O
US

20 | Técnicas de Data Analytics e Process Mining


IL
AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00

ME
NA
EI
TR
DO
O
IV
US
CL
EX
O
US

Todos os direitos reservados


Não é permitida a reprodução total ou parcial desse material sem a
autorização do IIA Brasil - Instituto dos Auditores Internos do Brasil.

Técnicas de Data Analytics e Process Mining | 21


Jonas Dos Santos Souza - CPF: 177.402.822-00

US
O
EX
CL
US
IV
O
DO

22 | Técnicas de Data Analytics e Process Mining


TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL

Você também pode gostar