Conceitos básicos - 000001

Description

Resumo Conceitos básicos de bigdata. O que é, motivação e ferramentas.
Luiz Alberto Nunes
Note by Luiz Alberto Nunes, updated more than 1 year ago
Luiz Alberto Nunes
Created by Luiz Alberto Nunes over 7 years ago
19
0

Resource summary

Page 1

BigData    Definições         Grande volume de dados produzidos.         Dados gerados em alta velocidade.    Caracteristicas             Diferentes Tipos de dados.         Diferentes Origens de dados.             Dado vs Informação         Dados             OQE                 códigos que constituem a matéria prima da informação.                 informação não tratada             Caracteristicas                 não podem transmitir uma mensagem ou representar algum conhecimento.         Informação             OQE                 Informações são dados tratados.                 resultado do processamento de dados.                     Conjuto de dados >> Processamento >> Informação             Caracteristicas                 têm significado                 podem ser tomadas decisões ou fazer afirmações considerando as informações.         Exemplo:             Dados:                 Grande, Azul, Casa,..             Informação                 A casa azul é grande.         Conclusão:             Dado é diferente de informção.         Refefências:             https://www.binapratica.com.br/dados-x-informacao             https://pt.slideshare.net/erosaugusto/dados-x-informao7             http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html             http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx     Importância     4Vs         Componenes técnicos             Volume(25%) - Grande quantidade de dados gerados.             Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc.             Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc);         Veracidade - Confianças nos dados.     Valor             Tecnologias             Hadoop         Ecosistema Hadoop         NoSql         Spark   Tópicos estudos a parate kerberos DFS

Page 2

Hadoop     OQE         È um framework open source que facilita o processamento em lagar         escala de um grande volume de dados usando um cluster com varias         máquinas de baixo custo.     Caract.         Foi escrito na linguagem java e baisea-se no google file sistem(GFS).         Permite a computação distribuida mas com baixo custo.         Escalável (Horizontalmente)         Tolerante a falhas         Flexível     Módulos            Os principais módulos são: HDFS, MapReduce e YARN.             HDFS                 OQE                     Sistema de arquivos distribuidos de alta velocidade e que                     permite rápida transferência de dados entre os nodes Hadoop.                     Foi desenvolvido utilizando como base o (DFS)                 Caract.                     Tolerancia a falhas e recuperação automática.                     Pode rodar em máquinas com sistema operacionais diferentes.                     Escalabilidade                     Confiabiliade - mantém várias cópias dos dados.                     Segurança é feita com o kerberos.                     E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro.                     Foi pensado para ser ótimo em WORM                     Cluster HDFS                     Tipos de noldes.                         Namenode(Master node')                             Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios.                         Datanode(Work node)                             Armazena e buscas os blocos de dados.                             Reporta ao namenode a lista de blocos armazenados.             MapReduce                 OQE                     Modelo de programação.                 Caract.                     Processo computacional que utiliza chave e valores.                     Usa força bruta - todo o conjunto de dados é processado em cada query.                     Modelo de processamento batch                     Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado.                     Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros.                     Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).              YARN - Agendador de jobs e gerenciador de recursos               Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.  

Show full summary Hide full summary

Similar

River Processes and Landforms
1jdjdjd1
10 Study Techniques
PatrickNoonan
Work, Energy & Power: Quiz
alex.examtime9373
The SAT Test
philip.ellis
B3, C3, P3
George Moores
Psychology subject map
Jake Pickup
Mind Maps with GoConqr
Elysa Din
Latin Literature Exam Techniques
mouldybiscuit
Guia rápido: Bem-vindo a GoConqr
miminoma
Germany 1918-39
Cam Burke
General Pathoanatomy Final MCQs (301-400)- 3rd Year- PMU
Med Student