Data Analytics - Apostila Data Analytics
Data Analytics - Apostila Data Analytics
822-00
US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
TÉCNICAS DE
O
-I
IA
DATA
E PROCESS MINING
BR
AS
IL
ANALYTICS
Jonas Dos Santos Souza - CPF: 177.402.822-00
US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
Jonas Dos Santos Souza - CPF: 177.402.822-00
US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
TÉCNICAS DE
NT
O
-I
DATA
E PROCESS MINING
IA
BR
ANALYTICS
AS
IL
Jonas Dos Santos Souza - CPF: 177.402.822-00
US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
IL
Conteúdo
AS
1. Introdução...............................................................................................................................................................................1
2. BI (Business Intelligence)...............................................................................................................................................1
BR
3. Big Data....................................................................................................................................................................................2
IA
3.2 Data Science..........................................................................................................................................................................7
-I
5. Introdução à Modelagem e aplicações ...............................................................................................................9
O
6. Ciclo de análise de dados.......................................................................................................................................... 11
NT
6.1 Obtenção dos dados e abordagem ao Process Mining.......................................................................... 12
Jonas Dos Santos Souza - CPF: 177.402.822-00
6.1.2 ME
Acesso aos dados............................................................................................................................................................. 14
6.3 Análise.................................................................................................................................................................................... 15
EI
6.4 Relatório................................................................................................................................................................................ 17
6.5 Automatização.................................................................................................................................................................. 19
O
IV
US
CL
EX
O
US
US
O
EX
CL
US
IV
O
DO
TR
EI
NA
ME
NT
O
-I
IA
BR
AS
IL
1. Introdução
IL
Dentro de uma empresa a Auditoria Interna é realizada através de entrevistas, análise de documentos,
observação, amostragem do trabalho, dentre outros. Esses mecanismos, que são considerados como
AS
tradicionais, são custosos, implicando em grande quantidade de recursos humanos e financeiros.
A mineração de dados propõe diminuir, o custo das atividades de auditoria, permitindo a verificação
BR
mais rápida e de forma automática da conformidade dos processos executados, refinando os
processos de técnicas tradicionais.
2. BI (Business Intelligence)
IA
Até a década de 80, muitas empresas, tomavam decisões importantes baseadas apenas na
-I
experiencias passadas de seus líderes. O avanço da tecnologia e os resultados que esse avanço trouxe
(aumento da competitividade, surgimento de novos mercados, etc.) tornou o cenário de negócios
muito mais competitivo.
O
Entendendo-se que boas escolhas dependem das informações certas, surgiram uma série de
NT
conceitos e técnicas que permitem coletar, gerenciar e distribuir os dados de uma empresa para
transformá-los em insights, formando o conceito que conhecemos hoje como Business Intelligence.
Jonas Dos Santos Souza - CPF: 177.402.822-00
entender que é necessária a sua implementação, é preciso envolver vários profissionais da empresa,
para realizar o levantamento de requisitos, planejamento, mapeamento dos dados, desenvolvimento
EI
É importante montar uma estratégia de BI eficaz para que o mesmo não seja utilizado apenas como
relatório de consulta da empresa e sim como ferramenta de mineração de dados e obtenção de
DO
Hoje em dia é muito difícil para uma empresa conseguir sobreviver sem alguma ferramenta de BI.
Mais do que nunca é importante a adoção de um sistema de suporte à decisão eficaz e relevante, que
CL
tenha condições de prover informações de forma contínua para os gestores da área de negócio.
A capacidade de visualizar em gráficos simplificados a atividade da empresa, o seu desempenho,
potenciais riscos ou desvios do planeamento estratégico, bem como a capacidade de obter
EX
indicadores de gestão (PKI), são apenas algumas das grandes vantagens que estas soluções trazem às
empresas. Existem ainda vantagens a médio e longo prazo, tais como a detecção de fraudes, análise
de impacto das decisões tomadas e informação que sustente correções imediatas.
O
Num mercado onde temos uma extrema competitividade, estar no lugar certo e no momento certo
US
é fundamental para o sucesso de uma empresa, e o BI vem para suprir esta lacuna. Os ganhos na
utilização destas ferramentas são enormes, pois os utilizadores contam com uma maior rapidez no
acesso às informações, na automatização de processos de reporting e na descentralização do acesso à
informação.
IL
No princípio dos anos 2000 o termo BIG Data passou a ser muito utilizado, porém ele é
discutido desde a década de 70, quando surgiram os primeiros Data Centers. Nesta época as
AS
empresas armazenavam os dados de forma analógica utilizando Discos Rígidos, Discos de vinil,
fitas de vídeo VHS e fitas cassete que, comparados aos meios digitais que temos hoje, eram
BR
frágeis, caros, possuíam pouco espaço e dificultavam o compartilhamento dos dados.
Com a troca do armazenamento analógico para o armazenamento digital e em nuvem, as
questões de custo, espaço e compartilhamento foi saneada, mas um outro problema foi
gerado. Como teoricamente não existe a limitação de espaço para armazenamento a avaliação
IA
das informaçoes que devem ser guardadas não é realizada, mantendo lixos eletrônicos como
fotos, músicas, relatórios e documentos muitas vezes em duplicidade.
-I
A dificuldade que as empresas encontram hoje consiste em armazenar seus dados limpos e
organizados com eficiência, qualidade e relevância. Segundo um artigo publicado na revista
O
Forbes: “Atualmente, o número de dados armazenados na internet vem crescendo mais
NT
rápido do que nunca e tudo indica que até 2020 cerca de 1,7 megabyte de novas informações
serão criadas por segundo para cada uma das pessoas no planeta”( https://forbes.com.br/
Jonas Dos Santos Souza - CPF: 177.402.822-00
fotos/2015/10/20-fatos-sobre-a-internet-que-voce-provavelmente-nao-sabe/#foto2 - Extraído em
ME
01/10/2020 as 18h00). Podemos comparar com todos os habitantes do planeta armazenando
uma foto a cada quatro segundos. Sendo assim, um grande volume de dados armazenados
sem critérios ocupará muito espaço do que o necessário.
NA
EI
TR
DO
O
IV
US
CL
EX
O
US
AS
mesmas serão disponibilizadas para os envolvidos.
“Big Data faz referência ao grande volume, variedade e velocidade de dados que demandam
BR
formas inovadoras e rentáveis de processamento da informação, para melhor percepção e
tomada de decisão.”(Gartner)
IA
Essa definição apresenta o que é conhecido como os três Vs do Big Data.
Volume: quantidade de dados
-I
Velocidade: rapidez com que os dados são processados
Variedade: os vários tipos de dados existentes.
O
Mas, com o avanço do conceito, foram acrescentados mais dois Vs devido a quantidade e a
desarmonia das informações:
NT
Veracidade: necessidades de garantir a autenticidade dos dados
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
Volume
NA
Terabytes
Records/Arch
EI
Transactions
Variety
Velocity
Tables, Files
Structured Batch
TR
Unstructured Real/near-time
Multi-factor Processes
Probabilistic Streams
5 Vc of Big Data
DO
O
Veracity Value
IV
Trustworthiness Statistical
Authenticity Events
US
IL
complexo. Esses conjuntos de dados são tão volumosos que o software tradicional de processamento
de dados simplesmente não consegue gerenciá-los. Assim começa a necessidade de aquisição de
AS
softwares de monitoramento e análises com grande desempenho.
Processadores de alta capacidade e softwares focados no tratamento de dados formam o Big Data
BR
Analytics, que também abrange as técnicas utilizadas para transformar dados em informações
estratégicas para os negócios. Do mesmo modo, o Big Data representa uma fonte importante de
informações para o BI (Business Intelligence), traduzindo os dados em KPIs (indicadores-chave de
IA
desempenho) da empresa.
-I
Uma pergunta recorrente de quem tem um grande volume de dados é: que tipo de projeto posso
desenvolver utilizando Big Data?
O
Abaixo seguem algumas aplicações que podem ser realizadas:
NT
E-commerce
Jonas Dos Santos Souza - CPF: 177.402.822-00
Veículos de frota conectados: registrar online a quilometragem rodada e programar suas devidas
NA
manutenções
Saúde
Resultados de exames avaliando possíveis curvas e cruzamento entre exames.
EI
Turismo
Evidenciar pacotes turísticos com base nas últimas buscas.
TR
Investimentos
Aplicações de acordo com recebimentos e pagamentos.
Bancos
DO
Prevenção a fraudes (detecção de vários saques bancários com tempo insuficiente para a distância
entre as agências)
Para uma boa atuação com Big Data é necessário estabelecer alguns critérios preciosos para que o
O
grande volume de informação não onere a empresa adquirindo um Data Center de última geração,
IV
A imagem a seguir mostra um exemplo de dados inseridos sem políticas de limpeza das informações:
CL
EX
O
US
IL
há uma política de limpeza e correção que garanta que os dados serão inseridos com precisão e
coerência, neste exemplo uma varredura pela cidade com maior número de compras e ou pelo sexo,
AS
torna se impossível.
Construir bases com abordagem Big Data requer uma perfeita otimização do seu dataware house,
BR
mantendo uma periocidade de limpeza, evitando assim atualizações desnecessárias e com alto custo
e preparando o ambiente para ser trabalhado com variedade, volume e velocidade de um Big Data,
um bom gerenciamento de seus dados, trará grandes conquistas, onde será possível usufruir de dados
IA
confiáveis e adequados com refinamento das informações. A obtenção desta conquista se dá através
de políticas confiáveis de gerenciamento e armazenamento de dados, regras rígidas inclusive baseada
-I
em legislações de acordo com a localidade de armazenamento e consumo.
O
Com apenas algumas regras simples se utilizadas trataram para que suas informações armazenadas
tenham maior fidelidade na análise.
NT
Verificar dados duplicados;
Jonas Dos Santos Souza - CPF: 177.402.822-00
Informações incompletas;
Erros de digitação;
Dados iguais representados de forma diferente;
ME
Dados que violam regras de negócios;
NA
Dados necessários ausentes.
Em tempos de compras virtuais, reclamações e elogios via web, a armazenagem de dados é o carro
chefe das empresas, fazendo toda a diferença em uma análise correta para entrega de KPIs para a
EI
tomada de decisões.
TR
Data analytics está diretamente ligado a mineração de dados de um Big Data, ou seja, pela
preparação e análise das grandes massas de dados.
O
IV
A mineração de dados surgiu da década de 90, mas suas origens na matemática, estatística e
computação são muito anteriores a esse período. A área também ganhou evidência nos últimos anos
US
depois de ser cunhado o termo Big Data na publicação do relatório intitulado Big Data: The Next
Frontier for Innovation, Competition, and Productivity pelo McKinsey Global Institute em meados de
2011.
CL
Com a junção das técnicas tradicionais de Analytics e Big Data, surgiu o Big Data Analytics, que tem
EX
analise diagnostica
US
analise preditiva
analise prescritiva
IL
AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
Colher o máximo de dados sem um direcionamento, pode causar uma grande decepção com
centenas de informações desencontradas, por isso, é necessário focar nos dados que estão
TR
que outras, como é o caso das redes sociais, que sofrem alterações constantes e alguns dados falsos
podem ser contabilizados erroneamente.
O
IL
sofisticadas podem melhorar substancialmente a forma como a sua empresa escolhe o que
fazer, minimizar riscos e desenterrar informações valiosas que de outras formas permaneceriam
AS
desconhecidas. Por isso, ele interage muito bem com negócios em todas as indústrias.
BR
A relevância do termo Data Science começou em 2012, quando o termo se popularizou pelas análises
feitas com algoritmos complexos e métodos modernos chamando atenção para os gráficos que
agregavam de forma prática valores as grandes organizações.
IA
A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução
-I
das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O
gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 médias
O
popularidade e 0 nenhuma popularidade.
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
NA
EI
TR
DO
O
O principal conceito do Data Science é extrair informações de dados desorganizados, com o uso de
método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial.
IV
Como exemplo vemos a própria Google, quando realizamos uma busca de algo relacionado a
gravidez, automaticamente as próximas evidencias serão relacionados também a gestação e ou
US
roupas de recém nascidos, essas empresas geram uma grande massa de dados chamados de data-
driven, que são empresas orientadas a dados e utilizam de Data Science para tomadas de decisões.
CL
Outro exemplo que podemos citar são as grandes campanhas eleitorais que empregam vários
cientistas de dados, que buscam minerar os dados explorando dados novos e antigos para identificar,
no caso de uma campanha eleitoral, eleitores que possam estar em dúvidas com seu voto, em uma
EX
atenção especial e criação de novas estratégias de abordagens, vimos isso na campanha de Obama
em 2012, por exemplo e que foi de grande eficácia elegendo o então candidato.
O
Utilizar todas as informações geradas e capturadas é uma inovação digital que necessita de
tecnologias avançadas, envolve muito mais do que o conhecimento de linguagens de programação,
US
como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência
artificial.
Assim, para aplicar o Data Science em negócios é necessário envolver tanto áreas mais técnicas,
quanto áreas mais de negócios, onde os técnicos ficarão responsáveis pelas ferramentas que envolvem
IL
resolvidos.
AS
Mas como criar um projeto que envolva data Science? O Ideal é pensar em como ficará a sua
visualização de dados, com gráficos e diagramas que tornem atrativos para quem precisa interpretar
as informações apresentadas, pois os dados são informações em forma mais bruta que não causam
BR
impacto imediato quando analisados inicialmente.
Dentro do ciclo do projeto que envolve desde os dados brutos até a visualização dos seus dados,
podemos dividir em 5 fases:
IA
Entendimento do problema
-I
Coleta de dados
Exploração dos dados
O
Análise profunda dos dados
Comunicação dos resultados
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
É possível notar que as fases que envolvem um projeto Data Science, vão de encontro à aquelas que
ME
utilizamos para desenvolver qualquer ação em vários segmentos de negócios, Pois é disso que se trata
o Data Science, resolução de problemas simples e complexos de forma estruturada, falaremos mais
sobre o assunto no capítulo 5.
NA
Assim Data Science não trata apenas dos quesitos técnicos é necessário entender o negócio e analisar
os dados para uma boa avaliação, fazendo análises qualitativas e quantitativas das tecnologias
EI
que serão utilizadas, ajudando muito a alavancar as empresas, resolvendo problemas de forma
estruturada.
TR
necessários passar por uma série de procedimentos até que finde o processo.
O uso do raciocínio é um fenômeno comum na vida do ser humano, pois situações problemáticas
O
É cada vez mais frequente nas organizações a necessidade de se trabalhar voltado a processos
US
e práticas estruturadas onde envolva o pensamento lógico, sejam estes empregados nas etapas
produtivas ou de apoio.
CL
O pensamento lógico é necessário para pessoas que desejam trabalhar com desenvolvimento
seja voltado para programação de sistemas ou para análise de dados, onde é permitido definir a
EX
Então lógica é a técnica de encadear pensamentos para atingir determinado objetivo e esses
O
pensamentos podem ser descritos como uma sequência de instruções, que devem ser seguidas para
se comprimir uma determinada tarefa.
US
Convém ressaltar que uma ordem isolada não permite realizar o processo completo, para isso é
necessário um conjunto de instruções colocadas em ordem sequencial. Por exemplo, se quisermos
fazer uma omelete de batatas, precisaremos colocar em prática uma série de instruções: descascar as
batatas, bater os ovos, fritar as batatas etc.
IL
descascar as batatas depois de fritá-las). Dessa maneira, uma instrução tomada em separado não
tem muito sentido para obtermos o resultado, precisamos colocar em prática o conjunto de todas as
AS
instruções, na ordem correta.
Exercício:
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
5. Introdução à Modelagem e aplicações
NA
O que é um modelo? Um livro de receitas implica um modelo que relaciona entradas como
“ingredientes” e “quantidade resultante” para as quantidades dos ingredientes necessários.
EI
Outro exemplo que temos é em um jogo de futebol você sabe que eles estimam a “probabilidade
do time ganhar, empatar ou perder” de em tempo real baseado em um modelo que leva em
TR
consideração as posse de bola, estilo de jogo, bola parada, faltas, cartões amarelos, expulsões,
escalações, chutes a gols e escanteios que aconteceram até o momento da análise do jogo, que pode
ser feita antes ou durante a partida.
DO
sistemas em prazos cada vez mais curtos e com menores custos de produção mas, por outro lado,
IV
Figura 4 DER
ME
NA
Um diagrama entidade relacionamento (ER) é um tipo de fluxograma que ilustra como “entidades”,
p. ex., pessoas, objetos ou conceitos, se relacionam entre si dentro de um sistema. Diagramas ER são
mais utilizados para projetar ou depurar bancos de dados relacionais nas áreas de engenharia de
EI
bancos de dados. Um banco de dados relacional possui uma tabela relacional equivalente, e pode
potencialmente ser expressado dessa forma, conforme necessário.
CL
Sistemas de informação de negócios: os diagramas são usados para criar ou analisar bancos de
dados relacionais utilizados em processos de negócios. Qualquer processo de negócio que use
dados padronizados envolvendo entidades, ações e interação pode potencialmente se beneficiar
O
de um banco de dados relacional. Ele pode agilizar os processos, revelar informações mais
facilmente e melhorar os resultados.
US
IL
Pesquisa: como muitas pesquisas baseiam-se em dados estruturados, diagramas ER podem
desempenhar um papel fundamental na criação de bancos de dados úteis para analisar dados.
AS
Como desenhar um diagrama ER básico
Finalidade e alcance: defina a finalidade e o alcance do que você está analisando ou modelando.
BR
Entidades: identifique as entidades que estão envolvidas. Quando estiver pronto, comece
a desenhá-las em retângulos (ou preferência de forma de seu sistema) e rotulá-las como
substantivos.
IA
Relacionamentos: determine como as entidades estão todas relacionadas. Desenhe linhas entre
elas para mostrar as relações e rotulá-las. Algumas entidades podem não estar relacionadas, e
-I
isso não é um problema. Em diferentes sistemas de notação, a relação pode ser rotulada em um
diamante, outro retângulo ou diretamente em cima da linha de ligação.
O
Atributos: acrescente mais camadas de detalhes ao adicionar atributos-chave de entidades.
Atributos são frequentemente apresentados como ovais.
NT
Cardinalidade: mostre se a relação é de um-para-um, um-para-muitos ou muitos-para-muitos.
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
Podem haver diferentes abordagens para um diagrama ER. Contanto que ele forneça as informações
necessárias para seu alcance e objetivo, é válido.
NA
Exercicio:
Liste os relacionamentos encontrados:
mãe_bebê: relacionamento entre Mãe e Bebê.
EI
Planejamento do trabalho
Planejar o trabalho é um passo essencial antes de dar início a um projeto. É muito importante
IV
Importação de arquivos
Antes da análise, a etapa fundamental é a importação dos dados descritos no planejamento. Isso
CL
envolve localizar, adquirir os dados e criar layouts da tabela para os arquivos de origem.
Preparação dos dados para análise
Há diversos problemas que podem prejudicar a integridade dos dados. Por exemplo, podemos
EX
citar: dados corrompidos, total de controle incorreto, intervalos de data incorretos e transações
ausentes. As falhas na conclusão desta fase podem acarretar resultados incorretos, o que faz com
que todo o trabalho seja invalidado.
O
citar que vários objetivos possivelmente envolverão variadas etapas, visto que em alguns
momentos as análises podem ser simples, mas também podemos nos deparar com objetivos mais
complexos.
Se os objetivos foram definidos de forma clara, ficará mais fácil saber qual análise
IL
possível responder a perguntas específicas sobre os dados.
Reporte de problemas
AS
Nesta etapa final, é o momento de relatar ou apresentar os resultados de todo o processo
desenvolvido no projeto.
Os relatórios serão fornecidos a públicos diversos, dependendo do intuito do projeto e por quem
BR
ele foi requisitado. Ao determinar qual o tipo de relatório a ser usado, é importante levar em
consideração o objetivo e os possíveis públicos.
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
NA
EI
TR
DO
O
IV
US
CL
Na Auditoria Interna, busca se não só a mineração de dados como também a mineração de processos
ou Process Mining.
O
A mineração de processos é uma área relativamente nova dentro das empresas e, portanto, pouco
US
abordada. A ideia básica da Mineração de Processos é descobrir, monitorar e melhorar processos reais,
extraindo conhecimentos de logs de eventos disponíveis em diversos sistemas de informação.
Nesta metodologia de mapeamento, que usa informações coletadas nos bancos de dados das
empresas. Essa mineração é obtida por meio de movimentações sistêmicas, ou logs (eventos).
IL
Descoberta: as informações são organizadas para a construção dos processos, ainda de forma
AS
“bruta”, sendo moldados somente com os dados apresentados pelo sistema.
Confirmação: comparados alguns cenários: o teórico, esperado pela organização, e o modelo real,
a partir de dados coletados.
BR
Melhoria: baseado no que acontece de fato dentro da empresa, identificando mudanças eficientes
no cenário apresentado.
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
NA
EI
TR
DO
O
IV
sem a necessidade de formalização prévia dos Processos através de entrevistas a equipe auditada.
EX
técnicas que permitem descobrir processos reais baseando-se apenas em exemplos de execuções
registradas em logs de eventos. Frequentemente usam o processo de descoberta como um ponto de
US
O
é menos sujeito a erros do que aquele obtido através de métodos tradicionais, como as entrevistas,
NT
por exemplo. Sua contestação fica dificultada, permitindo utilizá-lo como prova da necessidade de se
iniciar um projeto de reengenharia organizacional.
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
Antes de qualquer trabalhando mineração de dados ou processos, é necessário determinar onde os
dados estão e identificação dos campos e tabelas necessárias para cumprir o objetivo do seu relatório
final.
NA
A identificação dos campos necessários para cumprir os objetivos de análise pode envolver trabalho
de investigação, incluindo reuniões, principalmente com o pessoal de TI (tecnologia da Informação).
EI
Não se esqueça de considerar os requisitos para a verificação de integridade dos dados e relatórios,
porque os campos adicionais são muitas vezes necessários para cumprir esses objetivos.
DO
Mesmo sem qualquer conhecimento prévio do banco de dados, há sempre alguns campos que são
conhecidos no arquivo. Por exemplo, uma tabela representa transações a receber deve conter campos
que envolva clientes, data da transação e fatura.
O
Esta é uma fase crítica para o sucesso da conclusão da auditoria e a identificação de campos e tabelas
IV
dos dados, devido a formatações que o provedor de dados pode realizar erroneamente.
Acesso ao banco de dados:
É necessário nome de usuário, senha e configurações na máquina em que fará o acesso de acordo
O
com o banco de dados. Cada banco de dados, possui uma particularidade de acesso aos dados que
influencia diretamente a segurança da informação de cada empresa.
US
IL
acesso que será dado ao banco de dados da empresa.
AS
Após cada importação é necessário analisar se as informações recebidas contemplam todas as
informações solicitadas, é necessário verificar possíveis erros em transmissão de dados, bem como
campos com dados que não condizem com o nome do campo e ou tabela.
BR
6.2 Validação, tratamento e preparação dos dados
Como citado no tópico anterior a validação dos dados recebidos implicará diretamente em seu
IA
resultado final, pois uma informação faltante ou com dados corrompidos tornará necessário o retorno
em fases do processo.
-I
Portanto, segue uma lista contendo as principais ações para validação, tratamento e preparação dos
O
dados recebidos:
NT
Validação de formato / conteúdo: verificar se há dados em branco e ou com formato incorreto;
Jonas Dos Santos Souza - CPF: 177.402.822-00
Validação do escopo: todos os dados solicitados foram entregues? Validar campos e quantidade de
registros;
ME
Validação da razoabilidade dos dados: existem dados negativos onde deveria haver somente
positivos;
NA
Organização dos dados para realização da análise: Extração de informações relevantes dos campos;
Melhores práticas na preparação dos dados: tabelas e campos com nomes de maior compreensão.
EI
6.3 Análise
A análise do Big Data passa por diferentes técnicas e os modelos que se destacam pela
TR
potencialidade de trazer bons resultados e fácil usabilidade. É importante saber que há duas camadas
de análise que ajudam a diferenciar o Business Intelligence e o Analytics. A primeira é a tradicional,
que abrange avaliações descritivas, que indicam o que já ocorreu sem emitir julgamentos.
DO
Elambém envolve análises diagnósticas, que derivam da descritiva. O objetivo é apresentar o que
motivou determinado evento a partir da relação entre duas ou mais variáveis. Nesse caso, são
O
Em uma segunda camada, existem os tipos de análise prescritivos e preditivos. Esses definem o
US
Analytics por serem mais aprofundados. Isso não significa que as avaliações descritiva e diagnóstica
devam ser deixadas em segundo plano: as leituras são complementares e permitem compreender
melhor o cenário.
CL
1. Análise preditiva
O
Esse é o modelo mais conhecido, pois ajuda a prever cenários futuros com base na análise de padrões
da base de dados. Assim, é possível tomar decisões mais precisas.
US
Os métodos usados pela análise preditiva são dados estatísticos e históricos, além da mineração de
dados e da inteligência artificial. Ela é indicada para projetar comportamentos futuros do público e
do mercado, além de avaliar flutuações da economia e tendências de consumo.
IL
A ideia aqui é verificar as consequências das ações tomadas, o que possibilita saber o que deverá
ocorrer ao escolher determinadas atitudes. Essa camada é a que possui mais valor, pois precisa do
AS
elemento humano para se concretizar. Além disso, ela é relevante porque define o caminho a ser
tomado para que a ação ocorra conforme o esperado.
BR
Em outras palavras, uma meta é traçada e, a partir disso, são indicados os caminhos que devem
ser percorridos para alcançá-la. Por isso, a análise prescritiva é considerada a mais complexa, já
que o profissional deve conhecer técnicas de data Science e ser um especialista no negócio e no
IA
ecossistema em que se insere.
-I
Apesar de sua importância, muitas empresas ainda não usam essa análise. Isso pode ser feito pela
O
listagem de padrões e aplicação de filtros por especificidades, o que permite ter um contexto real da
situação e dos efeitos das ações.
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
Um exemplo é a saúde, que pode delinear padrões de doenças para os pacientes e verificar como
ME
cada atitude impactará sobre esse grupo. Assim, é possível verificar a melhor alternativa.
3. Análise descritiva
NA
O objetivo desse modelo é permitir que o analista compreenda os eventos em tempo real. É muito
utilizado em situações como a análise de crédito. Nesse caso, o banco avalia as informações do
EI
Como a análise descritiva não emite julgamento de valor, ela é indicada para visualizar os dados e
entender o impacto no presente, mas sem fazer relação com o passado ou o futuro. Ajuda a tomar
decisões imediatas com tranquilidade e segurança.
DO
4. Análise diagnóstica
A finalidade dessa prática é compreender as causas de um evento, ou seja, responder às perguntas:
O
Quem?
Quando?
IV
Como?
Por quê?
US
O ideal é analisar o impacto e alcance de uma ação tomada. A partir disso, pode-se traçar estratégias
para aprimorar os resultados. Esse é um modelo muito usado em vendas e deve ser complementado
CL
As análises de dados preditivas são as mais utilizadas por aí, porque permitem que as empresas
O
entendam algumas das métricas com que estão trabalhando. Ela indica coisas como as informações
demográficas dos consumidores e permite que a sua empresa gere inteligência de mercado e saiba
US
Já a análise prescritiva é útil para verificar a eficiência de processos. Esse tipo de análise é utilizado por
empresas como o Google, para entender exatamente que websites exibidos na busca são relevantes
IL
As análises descritivas são feitas a todo o tempo e adotadas pela sua operadora de cartão de crédito
quando você usa recursos como a avaliação emergencial. Nesse tipo de situação, o cliente contrata
AS
o serviço que aumenta o seu limite caso uma compra o extrapole, de acordo com seu perfil de
consumo e a assiduidade com que realiza pagamentos.
BR
A análise descritiva é tão precisa que ela oferece uma resposta instantânea para essa demanda e
aprova (ou não) um pagamento e a liberação de um crédito extra.
IA
As análises diagnósticas, por sua vez, avaliam a dimensão de uma ação realizada pelo negócio. Ela
ajuda a comparar métricas como as de marketing e de vendas, relacionando ambas para entender
-I
seus efeitos.
O
6.4 Relatório
NT
6.4.1 Formatos de relatórios
Considere o cenário em que uma análise foi realizada em um determinado conjunto de dados,
Jonas Dos Santos Souza - CPF: 177.402.822-00
e as observações obtidas a partir dessa análise precisam ser repassadas para outras pessoas. Essa
ME
exposição dos resultados pode ocorrer de inúmeras formas.
Por exemplo, é possível apresentar os resultados usando uma planilha eletrônica, com dados em
NA
formato tabular. Também é possível gerar um relatório, reportando textualmente os resultados
observados. Como uma terceira alternativa, é possível fazer uma apresentação oral dos resultados
obtidos.
EI
Mas será que essas alternativas são as mais eficazes? Você consegue perceber algum problema que
TR
pode ocorrer em alguma delas? Um dos possíveis problemas com a apresentação dos dados em
formato tabular é a dificuldade que nós, humanos, temos para fazer comparações a partir desse
formato. Isso torna a assimilação dos resultados um processo árduo, especialmente se a quantidade
DO
de itens for alta. Com a utilização de um relatório, somente o relato textual dos resultados da análise,
é possível que as observações não sejam apresentadas em sua completude. Isso pode gerar dúvidas
ao leitor em alguns aspectos dos dados não relatados.
O
Por fim, uma apresentação oral dos resultados pode fazer com que as pessoas tenham conclusões
IV
distintas do que foi apresentado, de acordo com o seu nível de compreensão da mensagem do
orador. Isso nos faz concluir que, embora sejam muito utilizadas, essas alternativas podem gerar
US
Para que a interpretação destes dados seja feita da forma correta, é preciso saber qual o tipo de
O
gráfico é indicado para cada situação, a seguir vamos entender como trabalham os quatro tipos de
gráficos mais utilizados:
US
Gráfico em Linha: O gráfico de linha é um tipo de gráfico que exibe informações com uma série de
pontos de dados chamados de marcadores ligados por segmentos de linha reta.
-I
Ele mostra os dados utilizando um número de barras de mesma largura, cada uma delas
representando uma categoria particular.
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
NA
EI
TR
Gráfico Pizza: Utilizado para dados com até quatro tipos de informação diferentes, como por exemplo
gênero, sentimento ou rede social mais utilizada. Sua visualização é mais eficaz para dados rápidos.
DO
O
IV
US
CL
EX
O
US
IL
Scatter. Eles servem para mostrar a relação entre duas variáveis, ou revelar as tendências da
distribuição.
AS
BR
IA
-I
O
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
6.4.3 Usabilidade de gráficos
NA
Os gráficos devem ser utilizados com cautela dentro da sua análise de dados, pois a escolha dele
impactará diretamente em como ele será interpretado, sendo assim, as seguintes questões devem ser
EI
levadas em consideração:
TR
A partir do resumo dessas respostas será possível definir o gráfico ideal para os seus resultados,
principalmente levando em conta o objetivo de quem irá visualizar.
O
Muitas variáveis ou excesso de informações tornará seu gráfico poluído e de difícil interpretação, leve
IV
isso em conta durante a criação, tendo em mente as funções e suas intenções para cada gráfico
desenvolvido.
US
6.5 Automatização
Dentro de todos os tópicos abordados até o momento, notamos o grande volume de dados e uma
CL
vasta quantidade de análises que podemos trabalhar. Com a possibilidade de acesso aos dados, torna
se inviável trabalhar com todas as análises executadas manualmente, sendo assim a automatização
EX
vem de encontro para resultados que muitas vezes podem ser analisados em tempo real.
Ao tratarmos de indústria estas informações são os dados coletados no chão de fábrica, que são a
base para a obtenção de conhecimento que irá guiar tomadas de ações eficientes, reduzir custos,
O
pode apresentar falhas e dificultar o seu acesso enquanto que disponibilizar esta informação
automaticamente capilariza o conhecimento.
IL
Aumentar produtividade e reduzir perdas
Dados automatizados ficam facilmente disponíveis para tomadas de decisões em tempo real, tal
AS
como em um varejo para a venda de produtos que estão com alto estoque.
Credibilidade da informação
Quando automatizamos os dados dentro da indústria, os dados coletados e, consequentemente as
BR
informações baseadas neles, são mais confiáveis e precisas.
Centralização da informação
Dados automatizados são passíveis de serem centralizados, e esta centralização da informação
IA
pode gerar conhecimento mais rico do que quando os dados são avaliados individualmente.
Transparência e organização de informação
-I
Hoje temos a necessidade de notícias em tempo real para acompanhar e compreender o que
acontece diariamente, desta mesma maneira precisamos desta informação rápida e efetiva dentro
O
das empresas para compreender o dia a dia do mercado abordado.
NT
Jonas Dos Santos Souza - CPF: 177.402.822-00
ME
NA
EI
TR
DO
O
IV
US
CL
EX
O
US
ME
NA
EI
TR
DO
O
IV
US
CL
EX
O
US
US
O
EX
CL
US
IV
O
DO