TÓPICOS DE BIG DATA EM PYTHON
Questão 1:
( ) Aumentar a diversidade dos dados.
( ) Ampliar o volume de dados de aplicação.
( ) Aumentar a complexidade do processo de gestão dos dados.
( ) Obter dados que sirvam como base na tomada de decisão.
( X ) Melhorar a interatividade com o usuário.
Questão 2: Selecione a opção a respeito da computação em nuvem:
( ) É um outra forma de denominar a internet das coisas.
( ) Trata-se da utilização de aplicações com finalidades específicas.
( ) É uma forma de abstrair serviços da internet das coisas em redes locais distribuídas.
( X ) É um conjunto de tecnologias que disponibilizam sistemas e recursos na internet.
( ) É a definição para aplicações de Big Data que utilizam os protocolos de internet.
Questão 3: O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi
idealizado para trabalhar com grandes volumes de dados. Selecione a opção correta que
apresenta o paradigma como o HDFS funciona.
( ) Centralizado e distribuído.
( ) Distribuído e centralizado.
( X ) Mestre e escravo.
( ) Centralizado e centralizado.
( ) Distribuído e distribuído.
Questão 4: Em relação ao Hadoop, selecione a opção correta que trata da otimização da
relação custo e benefício a respeito da expansão de uma infraestrutura.
( ) Volume de dados.
( X ) Escalabilidade.
( ) Tempo de resposta.
( ) Flexibilidade.
( ) Variedade de dados.
Questão 5: Observe o trecho de código abaixo:
import numpy as np
x = np.array ([1, 5, 1, 6, 4, 7, 7])
função_teste = lambda x: X+X
print(função_teste(x))
Selecione a opção correta a respeito dele.
( X ) O programa vai gerar e imprimir [ 2 10 2 12 8 14 14 ].
( ) O programa vai gerar erro.
( ) A saída do programa é [2].
( ) O programa produz a saída 31.
( ) O programa ficará sintaticamente correto se for acrescentado o “SparkContext” para
executar o MapReduce.
Questão 6: O Apache Spark é um framework de código aberto aplicado para projetos de
Big Data. Selecione a opção correta que contenha apenas funções que podem ser
categorizadas como ações no Spark.
( X ) first, take e reduce
( ) take, filter e sample
( ) reduce, map e filter
( ) collect, flatMap e sample
( ) count, collect e map
Questão 7: No contexto de Coleta de Dados, o que podemos afirmar sobre Dados
primários:
I – São dados obtidos em primeira mão pelo cientista de dados ou pelo analista de dados.
II – São dados que precisam ser pré-processados para análise, e serão feitos
exclusivamente no primeiro momento pelo dono dos dados, o analista em questão
III – São obtidos através de softwares de monitoramento de logs, surveys e banco de
dados.
Analise as frases listas e assinale a alternativa correta.
( ) Apenas as opções II e III.
( X ) As opções I, II e III estão corretas.
( ) Apenas as opções I e III.
( ) Apenas a opção I.
( ) Apenas a opção II.
Questão 8: Qual o processo irmão do KDD que é utilizado comumente no âmbito
industrial?
( ) SIGM
( ) SIGKDD
( X ) CRISP-DM
( ) KDD-DM
( ) KDM
Questão 9: O seguinte constructo da linguagem Python representa o condicional simples:
( X ) if
( ) else
( ) while
( ) with
( ) for
Questão 10: O boom da IA se deve ao surgimento de novas tecnologias e dispositivos
que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes
dados que alimentam os modelos de aprendizado de máquina também são conhecidos
como:
( ) Conhecimento
( X ) Big Data
( ) Observações
( ) Informações
( ) Dados Faltantes
Questão 11: Em relação à fase de mapeamento de Hadoop, selecione a opção correta que
apresenta o responsável pela geração de fragmento para os componentes da fase de
redução.
( ) Leitor de registros
( ) Redutor
( ) Mapeador
( ) Combinador
( X ) Particionador
Questão 12: Em relação as redes de internet das coisas, selecione a opção correta que
relaciona os dispositivos entre si.
( ) São um relacionamento máquina a máquina
( ) São redes locais.
( ) São um conjunto de sinais.
( ) É uma conexão rede a rede.
( X ) São interconectados entre si.
Questão 13: As bibliotecas são coleções de subprogramas utilizados no desenvolvimento
de softwares. Selecione a opção correta que contém o componente do ecossistema do
Spark responsável por realizar operações paralelas em grafos.
( ) MLlib
( ) Spark Core
( ) RDDs
( ) Spark Streaming
( X ) GraphX
Questão 14: A biblioteca Pandas é amplamente utilizada para manipular dados
heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione
a opção que contém a estrutura de dados que possibilitar o Cientista de dados atribuir
nome para as colunas
( X ) DataFrame
( ) SQL
( ) numpy.array
( ) RDD
( ) PySpark
Questão 15: Os dados que, por alguma razão, normalmente interferência humana, não
chegam com todos os atributos esperados durante a coleta de dados, são conhecidos
como:
( X ) Faltantes
( ) Enviesados
( ) Corrompidos
( ) Embaralhados
( ) Nulos
Questão 16: Os modelos simbólicos são aqueles que:
( ) Se baseiam em táticas de agrupamento por similaridade.
( ) Se baseiam estritamente em dados e inferências estatísticas em cima deles.
( ) São aqueles que só lidam com problemas categóricos.
( ) São aqueles que lidam apenas com problemas numéricos.
( X ) Se baseiam em lógica e regras de inferência para aprende e raciocinar.
Questão 17: Selecione a opção correta a respeito do processamento e streaming de dados.
( ) Os dados sempre estão no mesmo formato.
( ) Os dados são caracterizados também são denominados de lotes estáticos.
( ) Os dados sempre são provenientes de aplicações transacionais.
( ) Caracterizam-se pelo envio do mesmo dados por várias fontes.
( X ) Os dados podem vir de várias fontes.
Questão 18: Em relação as características do processamento de fluxo de dados, selecione
a opção correta.
( ) Sempre são do mesmo tipo.
( ) São invariáveis no tempo.
( ) O fluxo de dados é intermitente.
( X ) Representam o estado de um sistema em um dado momento.
( ) São relacionados à aplicações de internet das coisas.
Questão 19: Selecione a opção correta que contenha as categorias em que transformações
podem ser classificadas.
( ) Embaralhamento e redução
( ) Mapeamento e redução
( X ) Estreitas e simples
( ) Mapeamento e partição
( ) Separação e finalização
Questão 20: Selecione a opção correta que contenha a ação responsável por retornar os
elementos de um conjunto de dados como um vetor.
( ) take
( X ) collect
( ) coalesce
( ) join
( ) reduce
Questão 21: A coleta e preparação dos dados para análise no Python são de extrema
importância. Os dados secundários são assim definidos devido:
( ) O fato de ocuparem menos espaço de memória.
( ) O fato de virem de uma fonte alternativa não convencional.
( ) A sua baixa qualidade.
( ) O fato de requererem muito mais pré-processamento.
( X ) O fato de terem sido obtidos a partir de terceiros.
Questão 22: As redes neurais são implementadas em Python através de uma biblioteca
de processamento de cálculos em paralelo baseado em grafos. Qual o nome desta
biblioteca?
( ) Scipy
( X ) Tensorflow
( ) Plotly
( ) Numpy
( ) Pandas
Questão 23: Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade
fundamental para o profissional de Tecnologia da Informação. Sendo assim, analise as
alternativas e selecione a opção que apresenta o componente responsável por
desempenhar o papel de mestre na arquitetura do Hadoop.
( ) HServerMap
( ) Bloco de dados
( X ) NameNode
( ) Replicador
( ) DateNode
Questão 24: O MapReduce é uma técnica de computação distribuída considerada
extremamente eficiente para o processamento de dados, desempenhando papel
fundamental no Spark. Em relação ao MapReduce, selecione a opção correta.
( ) Projetos de big data só podem ser tratados por MapReduce.
( ) Só é possível utilizar o MapReduce no Spark através do PySpark.
( ) A principal característica do MapReduce é a utilização eficiente de memória.
( X ) Pode ser aplicada para projetos que envolvam grandes volumes e variedade de dados.
( ) As fases de processamento do MapReduce podem variar de acordo com a aplicação.
Questão 25: Selecione a opção correta sobre o uso de Big Data.
( ) Com projetos de Big Data é sempre possível detectar fraudes em operações
financeiras.
( ) Projetos de Big Data são uma forma de organizar tabelas normalizadas com grande
volume de dados.
( ) É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet
das coisas.
( ) Grandes volumes de dados são úteis para testar a capacidade dos servidores de
gerenciamento de dados.
( X ) O volume e diversidade dos dados podem dar uma visão realística do que está sendo
observado.
Questão 26: A respeito dos componentes do ecossistema do Hadoop, selecione a opção
correta que apresenta o componente responsável pelo gerenciamento dos clusters.
( X ) Zookeeper
( ) HBase
( ) Flume
( ) Spark
( ) HCluster
Questão 27: A escolha adequada de uma linguagem de programação é fundamental para
a maximização dos resultados almejados. Nesse sentido, selecione a opção que contém a
linguagem de programação mais adequada para desenvolver aplicações para o Spark.
( ) Java Script
( X ) Scala
( ) Python
( )R
( ) Java
Questão 28: Selecione a opção correta que contenha as categorias em que transformações
podem ser classificadas.
( ) Separação e finalização
( ) Mapeamento e partição
( ) Mapeamento e redução
( ) Embaralhamento e redução
Questão 29: Compreender a tecnologia Hadoop e os aspectos fundamentais do seu
ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim,
selecione a opção correta sobre o Hadoop.
( ) Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
( ) O Hadoop não funciona com pequenos volumes de dados
( ) A estrutura de desenvolvimento no Hadoop é sequencial.
( ) O Hadoop tem apenas uma única distribuição.
( X ) O Hadoop utiliza o HDFS para armazenar dados.
Questão 30: A biblioteca pandas é poderosa e de grande valia para a vida de um cientista
de dados. Sobre ela podemos afirmar que:
I – O nome Pandas se refere a dados em painel ou panel data.
II – O DataFrame é o coletivo de listas (lists)
III – É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados,
principalmente CSVs, Excels e JSONs.
Analise as frases listas e assinale a alternativa correta.
( ) Apenas II e III
( ) Apenas I e II
( ) Apenas I
( X ) Apenas I e III
( ) Apenas II
Questão 31: Em relação aos RDBMS, selecione a opção que apresenta a característica
que trata as transações em um banco de dados como uma unidade indivisível.
( X ) Atomicidade
( ) Indivisibilidade
( ) Isolamento
( ) Consistência
( ) Durabilidade
Questão 32: Em relação aos formatos que os dados de Big Data, selecione a opção que
corresponde a quantidade de formas que pode ser encontrados.
(X)6
( )2
( )3
( )5
( )4
Questão 33: O date lake é composto por camadas e níveis. Selecione a opção correta a
respeito da camada responsável por fazer a marcação dos dados do Date lake.
( ) Camada de gerenciamento de dados
( X ) Camada de Metadados
( ) Camada de segurança
( ) Camada de gerenciamento do ciclo de vida da informação
( ) Camada de governança
Questão 34: Qual o tipo de método nos permite visualizar a árvore de decisão na
biblioteca Scikit-Learn?
( ) print
( ) printf
( X ) plot_tree
( ) console.log
( ) cout
Questão 35: Em relação aos desafios do processamento de fluxo de dados, selecione a
opção correta.
( X ) Garantir a consistência da informação através da ordenação dos dados.
( ) Dimensionar o projeto logo no início para evitar a necessidade de expansão
posteriormente.
( ) Garantir a qualidade dos dados através de ferramentas de controle que não aceitem
qualquer inconsistência.
( ) Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
( ) Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Questão 36: Em relação ao protocolo de transporte para transmissão de aplicações de
streaming, selecione a opção correta.
( ) HTTP
( ) CoAP
( ) MQTT
( X ) UDP
( ) TCP
Questão 37: A respeito do Hadoop, selecione a opção correta com o componente que faz
o rastreamento de tarefas.
( ) Task manager
( ) HDFS
( X ) MapReduce
( ) Camada de ingestão
( ) Mrjob
Questão 38: Selecione a opção correta que contenha a operação responsável por retornar
um subconjunto aleatório dos dados de entrada.
( ) filter
( X ) sample
( ) random
( ) mapRandom
( ) distinct
Questão 39: Atualmente, o Apache Spark é o mais bem-sucedido framework para Big
Data. Selecione a opção correta que contenha apenas funções que podem ser
categorizadas como transformações no Spark.
( ) map, sample e collect
( ) reduce, first e map
( ) count, collect e take
( ) map, take e reduce
( X ) map, filter e union
Questão 40: Bibliotecas poderosas de análise e manipulação de dados podem ser
utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre
DataFrames no pandas?
( ) set_index
( ) sum
( X ) merge
( ) reset_index
( ) values
Questão 41: Selecione a opção em que a camada fornece comunicação ponta a ponta nas
aplicações de internet das coisas.
( ) Camada de sessão
( ) Camada de aplicação
( ) Camada de enlace em dados
( X ) Camada de transporte
( ) Camada de lógica.
Questão 42: Selecione a opção em que a computação se refere à execução de aplicações
e serviços em uma rede distribuída usando recursos virtualizados.
( ) Computação de banco de dados
( ) Computação Paralela
( ) Computação de Big Data
( ) Computação centralizada
( X ) Computação em Nuvem
Questão 43: Reconhecer os conceitos de Data Lake é fundamental para o profissional de
Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake.
( ) Aplicam processos de tratamento nos dados.
( ) Possui alta latência para acesso dos dados.
( ) Demandam por equipamentos especiais
( ) São exclusivos da distribuição Hadoop Apache.
( X ) Armazenam os dados de modo eficiente.
Questão 44: Reconhecer os conceitos de Data Lake é fundamental para o profissional de
Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é
o Data Lake.
( ) É uma tecnologia de armazenamento e processamento de dados.
( X ) É um repositório centralizado para o armazenamento de dados.
( ) Trata-se de um componente do HDFS responsável pela implementação do mecanismo
MapReduce para fazer o gerenciamento dos dados.
( ) É um repositório para tratamento dos dados.
( ) É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Questão 45: Os componentes do Spark têm como objetivo facilitar o desenvolvimento
de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o
componente responsável por estabelecer uma conexão com o Cluster.
( ) SparkSession
( X ) SparkContext
( ) Spark.Catalog
( ) DateFrame
( ) RDD
Questão 46: Sobre o Pandas Dataframe o que podemos afirmar?
I – É o coletiva de séries temporais pandas.Series
II – É a estrutura de dados que representa os dados em painel
III – É uma matriz conjunto de vetores
IV – É o bloco fundamental da análise de dados moderna, principalmente para
aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
( ) Todas as opções I, II, III, IV.
( ) Apenas as opções II, III.
( ) Apenas a opção III.
( ) Apenas as opções I, II, III.
( X ) Apenas as opções I, II, IV.
Questão 47: A linguagem Python se destaca como intuitiva e de fácil aprendizagem.
Analise o código abaixo que apresenta laços condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?
( X ) Serão impressos no console os números pares entre 0 e 9.
( ) Serão impressos no console os números ímpares entre 0 e 9.
( ) Serão impressos no console os números racionais entre 0 e 9.
( ) Serão impressos no console os número pares entre 1 e 10.
( ) Serão impressos no console os números ímpares entre 0 e 10.
Questão 48: Em relação ao Hadoop, selecione a opção correta que trata da otimização da
relação custo e benefício a respeito da expansão de uma infraestrutura.
( ) Variedade dos dados
( X ) Escalabilidade
( ) Volume de dados
( ) Flexibilidade
( ) Tempo de resposta
Questão 49: Observe o trecho de código abaixo:
import numpy as np
from pyspark importe SparkContext
spark_contexto = SparkContext ( )
a = np.array ([ 1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize (a)
Selecione a opção correta a respeito dele.
( ) O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do
vetor “a”.
( ) A execução do trecho de código vai gerar um erro.
( ) A linha “spark_contexto.parallelize(a)” aplica a técnica MapReduce para processar o
vetor “a”.
( ) A utilização do SparkContext é opcional.
( X ) A variável “teste” corresponde a um RDD.
Questão 50: Existem diversos motivos que justificam o uso da computação em nuvem,
apesar disso, existe um conceito que é essencial para computação em nuvem. Selecione
a opção correta que contenha esse conceito.
( X ) Disponibilidade
( ) Confiabilidade
( ) Abstração
( ) Segurança
( ) Produtividade
Questão 51: Luís foi contratado recentemente para trabalhar em uma empresa de
consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os
colegas de Luís lhe disseram que estavam preparando o conjunto de dados para poder
passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas
de Luís estão removendo dados faltantes, em qual etapa do processo deKDD, Luís se
encontra:
( ) Avaliação
( ) Descoberta de Padrões
( ) Coleta de Dados
( X ) Pré-processamento
( ) Transformação de Dados
Questão 52: Selecione a opção correta que contém a principal plataforma de tecnologia
de nuvem que é usada como referência para as outras plataformas
( ) IBM Cloud
( ) Microsoft Azure
( ) Google Cloud
( X ) Amazon AWS
( ) Oracle Cloud
Questão 53: A respeito das aplicações de fluxos de dados, selecione a opção correta.
( ) Serviços de comprar online
( ) Reapresentação de programas de televisão
( ) Transações bancárias, como o serviço de PIX
( ) Serviço de correio eletrônico
( X ) Serviços sob demanda, como serviços de filme online
Questão 54: Em relação aos arquivos de configuração do Hadoop, selecione a opção
correta que contém o arquivo que trata das configurações do HDFS.
( ) yam-site.xml
( ) mapred-site.xml
( X ) hdfs-site.xml
( ) hadoop-env.cmd
( ) core-site.xml
Questão 55: O paradigma MapReduce é uma estratégia de computação com capacidade
de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em
relação à técnica MapReduce, selecione a opção que é responsável por consolidar os
resultados produzidos ao longo do processamento.
( X ) Redução
( ) Mapeamento
( ) Processamento
( ) Agregação
( ) Separação
Questão 56: Em relação aos modelos de serviço de nuvem, selecione a opção correta
com o modelo de serviço focado no hardware.
( ) CaaS
( ) PaaS
( ) HaaS
( X ) IaaS
( ) MaaS
Questão 57: Em relação à Internet das coisas, selecione a opção correta que relaciona os
dispositivos com aos servidores de aplicação.
( ) Tecnologia da Informação
( X ) Nuvem
( ) Dispositivos de recepção
( ) Servidores de banco de dados
( ) Redes locais
Questão 58: O Spark é um framework de alto desempenho usado para aplicações de Big
Data. Em relação à arquitetura do Spark, selecione a opção correta.
( ) O Executor e os Worker Nodes desempenham papéis equivalentes na arquitetura do
Spark.
( X ) O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
( ) Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das
máquinas que executarão como escravos.
( ) O Executor corresponde ao conjunto de máquina que executam como escravos.
( ) O gerenciados de cluster do Spark faz o gerenciamento da execução das tarefas.
Questão 59: Quais os métodos de aprendizado de máquina que existem?
( ) Aprendizado Supervisionado, Escondido, Por Esforço e Semisupervisionado
( X ) Aprendizado Supervisionado, Não-Supervisionado, Por Esforço e
Semisupervisionado
( ) Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta e
Semisupervisionado
( ) Aprendizado Supervisionado, Não-Supervisionado, Por reforço e Aleatório
( ) Aprendizado Supersticioso, Não-Supervisionado, Por esforço e Semisupervisionado
Questão 60: Selecione a opção correta com a medida de volume de dados que
normalmente é usada para se referenciar a projetos de Big Data.
( ) Exabytes
( ) Zetabytes
( X ) Petabytes
( ) Terabytes
( ) Gigabytes
Questão 61: Em relação ao formato dos dados, selecione a opção correta que corresponde
ao formato dos dados de transações bancárias.
( ) Dados semiestruturados
( ) Dados de internet das coisas
( ) Dados não estruturados
( ) Dados de Big Data
( X ) Dados estruturados
Questão 62: O Spark é uma ferramenta computacional voltada para aplicações de Big
Data. Selecione a opção correta a respeito do componente que pode ser tratado como
Spark SQL.
( ) DAG
( ) Work Node
( X ) RDD
( ) Tasks
( ) Executor
Questão 63: O Hadoop é uma tecnologia especializada em atender as demandas de Big
Data. Selecione a opção correta que contenha a linguagem de programação utilizada para
o desenvolvimento e implementação do Hadoop.
( ) Lua
( ) Java Script
( ) Perl
( X ) Java
( ) Python
Questão 64: Em relação às plataformas para Internet das Coisas, selecione a opção
correta sobre o Arduino.
( ) É uma placa de hardware.
( X ) É um ecossistema que envolve software e hardware
( ) É o outro nome para Raspberry PI
( ) É um protocolo de internet das coisas
( ) É um programa
Questão 65: Em relação as fases do Hadoop, selecione a opção correta que apresentar o
componente responsável pela geração de pares intermediários de valor e chave.
( ) Redução
( ) Gravação da saída
( X ) Embaralhamento
( ) Combinação
( ) Agrupamento
Questão 66: Gabriel entrou recentemente em uma empresa de gestão de fundos de
investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os
relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O
departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna
valores brutos de compras, quantidades de produtos etc. Então os contadores organizam,
por agregação, informação relevante no relatório em planilhas por eles desenvolvidos.
Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo
de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:
( ) Primária; Primária.
( ) Primária; Secundária.
( X ) Secundária; Primária.
( ) Secundária; Terciária.
( ) Secundária; Secundária.