[SOM] [SOM]
Etapas de projeto de Big Data.
A implantação de projeto de Big Data envolve cinco fases.
A tomada de decisão deve ser realizada com base nos resultados
obtidos pelo projeto de Big Data.
[SOM] O sucesso de projeto de Big Data depende de uma boa pergunta.
Os executivos precisam ter bem claro propósito para a empresa.
É necessário ter objetivo a ser atingido.
O projeto precisa ser viável para ser realizado no tempo desejado.
Perguntas frequentes para equipes de Big Data.
Qual o custo de implantação do projeto?
Qual o valor agregado ao negócio?
Qual o retorno financeiro?
Qual o aumento esperado de mercado?
[SOM] Preparar o ambiente e armazenar a informação.
Para definição da forma mais adequada para armazenamento da informação,
deve-se ter atenção com relação a escalabilidade,
alta disponibilidade e flexibilidade.
Escalabilidade.
A quantidade de usuários que acessam o banco de dados pode crescer e
decrescer rapidamente.
A empresa deve estar pronta para uma solução escalável,
por exemplo, deve estar pronta para o pico de venda uma data comerativa.
Alta disponibilidade.
O acesso a informação deve estar sempre disponível.
Os bancos, por exemplo, devem estar com seus sistemas sempre disponíveis.
O banco de dados nunca pode sair do ar.
O sistema sempre deve estar funcionando.
O cliente sempre deve ser privilegiado.
Alta disponibilidade é fundamental para todas as empresas.
Flexibilidade.
A forma de armazenamento da informação deve ser flexível para
que se possa armazenar dados estruturados e não estruturados
que serão processados com a utilização de diversas tecnologias.
Além da preocupação com a escalabilidade, alta disponibilidade e flexibilidade,
para determinar a melhor estratégia de armazenar as informações,
deve-se considerar a estrutura do banco de dados.
Custo dos equipamentos.
Custo da equipe de Big Data.
Aspectos de segurança da informação.
Como as informações serão processadas?
Quais os softwares e aplicativos envolvidos no projeto?
Como os dados serão gerenciados pela equipe?
O ideal é criar único repositório, para que todas as
informações estejam disponíveis a todos os usuários.
Este repositório é denominado Data Lake.
No Data Lake as informações são armazenadas de forma bruta,
da forma que foram coletadas na fonte de dados.
O Data Lake pode ser criado na empresa, com a utilização, por exemplo,
da Cloudera que é uma das principais fornecedoras de soluções,
suporte e serviços de software para Big Data.
Para criação de Data Lake, vários membros da empresa devem participar.
A equipe de Ti, a área de modelagem, a área de negócios e os diretores.
Quando as informações da empresa estão desorganizadas, equivale a lago poluído.
Deve-se verificar se as informações são verídicas.
É muito difícil elaborar projeto de Big Data quando não é feito
Data Lake de forma adequada.
Alguns casos, as bases de dados possuem informação incorreta,
como idade negativa, por exemplo.
O Data Lake pode ser criado na Nuvem.
A Microsoft oferece serviço de armazenagem de dados.
A Azure Data Lake possibilita armazenar dados de qualquer tamanho,
forma e velocidade, bem como, realizar todo o tipo de
processamento e análise diferentes plataformas e linguagem.
O Azure remove as complexidades relacionadas a ingerir
e armazenar os dados, enquanto acelera a execução das análises.
O Big Data trouxe inovação na forma de armazenar as informações.
Pode-se utilizar bancos de dados SQL e NOSQL.
Dependendo do objetivo do projeto, pode-se utilizar bancos de dados com
cada uma das características, orientado a chave-valor, orientado a coluna,
orientado a documentos ou orientado a gráficos.
[SOM] Cloud Computing.
Segundo a definição de Cloud Computing, de acordo com o NIST,
Cloud Computing é modelo que permite acesso sob demanda,
via redes de computadores a conjunto compartilhado de recursos
computacionais que podem ser rapidamente provisionado e liberado,
com o mínimo de esforço administrativo ou interação com o provedor dos serviços.
A empresa pode optar por armazenar os dados uma Cloud privada,
Cloud pública ou uma Cloud híbrida.
Cloud pública é de uso público.
Uma organização é dona da infraestrutura e vende os serviços.
Uma Cloud pública pode-se dimensionar a quantidade de
servidores de acordo com a necessidade da empresa.
Exemplos de períodos com grande utilização: venda de Natal,
entrega de imposto de renda, promoções, vendas de ingresso, Black Friday.
A utilização de software e dos serviços disponíveis ocorrem de
acordo com a necessidade do cliente.
Pode-se utilizar na Nuvem email como Gmail e Hotmail,
Google Docs, Microsoft Office 365.
São serviços disponíveis na Nuvem.
Na Cloud pública o pagamento é feito de acordo com a utilização.
Isso tem uma vantagem porque a empresa não precisa investir
previamente num pack tecnológico.
Ela utiliza e paga conforme a utilização como é feito, por exemplo,
com a conta de luz.
A Cloud privada é de uso exclusivo de uma empresa quando deseja-se
nível muito alto de segurança e confidencialidade.
Utiliza-se uma Cloud privada.
O ambiente de Nuvem híbrido é a combinação do do
ambiente público com o ambiente privado.
Alguns casos, a empresa pode fazer modelo misto,
colocamos a parte mais confidencial internamente, dentro da empresa e
as outras informações, podem ser armazenadas numa Cloud pública.
Neste bloco foram apresentados alguns exemplos de bancos de dados
e formas para armazenar a informação.
[SOM]