Mesmo que o leitor do blog não trabalhe diretamente com o assunto, ou ainda, mesmo que não trabalhe diretamente com tecnologia, certamente já deve ter ouvido falar do termo “Big Data” (Ou “megadados”, em português).

O que exatamente é Big Data?

Mas o que exatamente é Big Data? O nome em si é sugestivo, e nos induz a pensar que se trata meramente (ou necessariamente) de algo que envolve grandes volume de dados – Um engano comum entre leigos no assunto. Sim, o Big Data na grande maioria dos casos envolve grandes volumes de dados. Contudo, o BI tradicional também – Posso citar os exemplos de auditorias de mercado farmacêutico, que chegam no nível de receitas prescritas por médico e paciente e análises de cesta de compras, que obrigatoriamente devem ser realizadas considerando os itens de cada nota fiscal. Nestes 2 exemplos clássicos, não é difícil que se chegue ao número de bilhões de linhas de dados. Volumes grandes? Sim. Mas são exemplos de sistemas de BI tradicionais, e não Big Data.

Então, o que diferencia o Big Data do BI tradicional? Para responder à pergunta, passamos pela definição de Big Data: Trata-se de um conjunto de grande volume de dados, os quais podem estar estruturados ou não, e os quais podem ser complexos ou não – podem estar armazenados em algum SGBD ou simplesmente em um stream, sendo constantemente transmitidos.

Alguns exemplos de dados desestruturados: imagens, gravações de áudio, vídeos, documentos PDF ou digitalizados, e-mails… Em geral, todos os exemplos citados também são complexos, no sentido das informações que contém internamente. E com a IOT (Internet Of Things), cada vez mais teremos aparelhos e sensores ligados na rede, transmitindo constantemente um grande volume de informações dos mais diversos tipos.

Os 5 Vs

Mas o termo Big Data é mais abrangente que somente o conjunto de dados em si. Significa também todos os desafios inerentes à análise e extração de valor dos dados – Principalmente com a utilização de análise preditiva e modelos estatísticos e matemáticos avançados. Costuma-se dizer que o Big Data é baseado em 5 pilares – Os 5 Vs: velocidade, volume, variedade, veracidade e valor.

A velocidade se refere à grande velocidade com que os dados são produzidos: Para se ter uma ideia, desde 2012, cerca de 2,5 hexabytes de dados (2,5 x 10^18) foram produzidos pela humanidade todos os dias. Se dividirmos este valor por 86400, que é a quantidade de segundos em um dia, pode-se concluir que 29 terabytes de informação são produzidos a cada segundo – um número impressionante mas que, segundo algumas estimativas, poderá ainda crescer muito com o aumento da IOT.

O volume diz respeito aos grandes volumes de informações: Cada pessoa em suas atividades usuais do dia-a-dia produz uma infinidade de informações que podem ser muito valiosas para a obtenção de valor, desde suas preferências musicais, sua localização durante os diferentes horários do dia, seu meio de transporte, os aplicativos que acessou, e até o restaurante que almoçou. Multiplique esta grande quantidade de informações por bilhões de pessoas conectadas à rede, e pode-se ter uma ideia do volume astronômico de dados que poderiam ser consumidos em potencial. Estima-se que o volume de informações produzidas dobre a cada 18 meses.

A variedade tem sua origem no grande diversidade de informações que podem ser úteis para a geração de valor: Desde o texto de uma opinião registrada em um site de reclamações, uma “curtida” em uma rede social, coordenadas de um GPS, upload de fotos e gravações em um aplicativo de mensagens instantâneas, até filmagens transmitidas em tempo real por um drone conectado à rede – Um dos maiores desafios de aplicações Big Data é justamente lidar com todos estes tipos diferentes de informações simultaneamente.

A veracidade faz referência à necessidade de se garantir que os dados são autênticos (com relação à fonte da informação) e que são verdadeiros naquele momento. Dados desatualizados ou antigos, não confiáveis ou de origem não identificada de nada servem para o processo de geração de valor de uma aplicação Big Data. A veracidade das informações é muito, mas muito importante mesmo – Pode-se tomar decisões erradas ou chegar a conclusões totalmente opostas, caso baseadas em informações incorretas ou obsoletas!

E o último “V”, de valor, representa o ponto mais importante quando falamos de Big Data. Nada dos conceitos e exemplos citados anteriormente faz sentido, se não for possível extrair valor dos dados – Nos projetos de Big Data, deve-se sempre (e em primeiro lugar) definir muito bem a estratégia de obtenção de valor à partir das informações analisadas. Deve ser a principal prioridade – Se o projeto não atingir o objetivo de geração de valor esperado, estará fadado ao fracasso.

Porque Big Data é muito diferente do BI tradicional

Com os conceitos de Big Data bem definidos, podemos agora realizar uma comparação com o BI tradicional.

Orientação temporal: De forma geral, o BI tradicional consiste em olhar para o histórico, ou seja, o passado dos dados. Este passado pode se tratar de anos, meses, ou dias, mas raramente mais recente que o dia anterior (D-1). Já quando olhamos para Big Data, os dados podem ser extremamente recentes (segundos, minutos, horas), às vezes até em tempo real. No mundo Big Data, a informação se torna obsoleta (e consequentemente inútil) muito rapidamente.

Orientação analítica: Em projetos de BI, é muito comum tendências serem descobertas através de conceitos conhecidos e pré-estabelecidos, muitas vezes utilizando indicadores padrão de mercado, acompanhando a evolução com o passar do tempo. Decisões são tomadas com base em análises what-if com regras pré-definidas. Projetos de BI são em geral implementados para suprir necessidades de relatórios, respondendo a perguntas do tipo: O que? Quanto? Quando? Onde? Os cálculos geralmente são de complexidade baixa ou média, e podem, por exemplo, ser reproduzidos em um aplicativo de planilha eletrônica, como o MS-Excel. Já no Big Data, apesar de ser possível utilizar indicadores padrão e modelos simples como o BI, na maior parte das vezes, os algoritmos analíticos têm orientação preditiva, (ou seja, prever o que irá acontecer em cenários onde não é facilmente determinável) e prescritiva (ou seja, recomendar o que fazer em cenários onde, novamente, não é facilmente determinável). O Big Data procura responder a perguntas como: Por quê? E se? O que acontecerá? Como otimizar? As técnicas para chegar a estas respostas envolvem data mining, (identificação de padrões e relacionamentos entre variáveis), análises estatísticas, qualitativas e quantitativas (explicar o motivo de algum resultado ter ocorrido), Testes A / B e multivariados (experimentação para validar decisões anteriores) e análise e modelagem preditiva (previsão de resultados futuros).

Estruturação dos dados de origem: Uma análise recente do Gartner calcula que as organizações possuem somente 20% de seus dados armazenados de forma estruturada (CRMs, sistemas financeiros, bases de dados). Os 80% restantes residem em e-mails, textos, imagens, e planilhas eletrônicas, ou seja, estão armazenados de forma desestruturada. Projetos de business intelligence, na maior parte das vezes, têm como proposta consumir os 20% estruturados (mesmo quando a fonte de dados é uma planilha, a mesma deve estar perfeitamente estruturada para que possa ser lida).

Já em projetos de Big Data, o consumo dos dados desestruturados é uma realidade. As limitações do BI são basicamente oriundas de suas ferramentas, concebidas com base em paradigmas e casos de uso mais antigos, inseridos em um contexto onde, por exemplo, o custo computacional de processamento era um importante gargalo. Ferramentas de Big Data têm uma abordagem diferente. Nos últimos anos, com a massificação e barateamento do processamento e armazenamento em nuvem (cloud computing), o que antes era impossível se tornou não só possível mas viável. A capacidade de processamento e armazenamento praticamente infinitos (além de alguns avanços nas áreas de inteligência artificial, machine learning, e algoritmos estatísticos e de reconhecimento de voz e imagens) tornou possível o consumo e processamento de informações desestruturadas em grande quantidade e em um tempo aceitável, algo que não faz parte da realidade do BI tradicional.

Perfil profissional: Projetos de BI geralmente envolvem profissionais que conhecem muito bem diversos bancos de dados, linguagem SQL, modelagem relacional e multidimensional, stored procedures, processos de carga e ferramentas de transformação de informações, e é claro o negócio. É imprescindível que o típico consultor de BI tenha um perfil minimamente técnico, já que as atividades inerentes ao seu trabalho do dia-a-dia exigem esta condição. Já no universo Big Data, um novo tipo de profissional vem ganhando cada vez mais espaço: O data scientist (ou cientista de dados, em português). O perfil do data scientist pode não envolver nenhum skill técnico de tecnologia – o profissional está muito mais próximo das áreas de negócio (comumente marketing) e além de conhecer muito bem o negócio, deve ter conhecimentos profundos de estatística e modelos matemáticos.

Parece impensável que não seja obrigatória a formação técnica, mas em contato com os colegas de turma do curso que atualmente frequento (FIAP – MBA em Big Data / Data Science), pude comprovar que alguns destes profissionais já estão trabalhando justamente desta forma – elaborando puramente modelos estatísticos  ou de simulação e repassando a uma equipe técnica para que esta sim realize a implementação técnica. A forma de trabalhar dos profissionais também é totalmente diferente. Embora não seja o foco deste artigo (o assunto é complexo e merece um artigo por si só), vale a pena observar que o processo de obtenção de valor inerente ao Big Data envolve, em grande parte, criação, inovação, e muitas tentativas (que podem ou não levar a insights úteis – deve-se estar preparado para errar muito). Além disso, o Big Data está forçando as empresas a criarem novas estruturas corporativas para fomentar o processo de inovação.

Tenho necessidades analíticas. Preciso de BI ou Big Data?

Muito embora o Big Data seja uma realidade (até mesmo no Brasil, onde tudo demora um pouco mais para engrenar) são poucas as empresas que realmente estão colocando-o em prática com sucesso. Aqui, cabe a analogia que está na moda: “O Big Data é como assunto do sexo entre adolescentes: Todo mundo diz que está fazendo, e acha que os outros estão fazendo, mas poucos estão fazendo de verdade!”. Brincadeiras à parte, a verdade é que o processo de obtenção de valor e geração de insights inerente ao Big Data é tecnicamente difícil, envolve muitas tentativas e erros (e mudança de paradigmas e cultura corporativa) e não se aplica a todas as realidades e necessidades de negócio.

Diferentes segmentos de mercado estão em níveis de maturidade de análise e captura de dados menores, impossibilitando também a implementação de projetos de Big Data – Algumas empresas simplesmente ainda não estão preparadas, ou ainda não tem o perfil adequado. Por outro lado, esta realidade significa que ainda há muito espaço para o crescimento do Big Data – principalmente no Brasil, que está atrás neste sentido com relação a outros países.

Então, se você precisa analisar os dados internos de sua empresa, ou olhar para o histórico consolidado de algumas bases de dados de sistemas legados, automatizar algum processo que hoje é manual, produzir relatórios ou divulgar indicadores de mercado, há grande chance que você ou sua empresa ainda não precisam de Big Data, e sim de um sistema de Business Intelligence. Porém, se seu negócio envolve o consumidor final, e se você precisa descobrir tendências de consumo escondidas, ou correlações desconhecidas que possam aumentar a lucratividade e alavancar mais negócios, ou ainda obter alguma vantagem competitiva através de análises de comportamento das massas; se sua empresa reconhece a importância e fomenta a inovação e está preparada a investir na obtenção de vantagem competitiva apesar do alto risco, é bem provável que você e sua empresa estejam prontos e que precisem genuinamente de Big Data.

Exemplos práticos de Big Data

Para finalizar, alguns exemplos conhecidos (alguns talvez nem tanto) de projetos de Big Data que obtiveram êxito – foram escolhidos os mais populares propositalmente, para facilidade de assimilação.

Amazon.com – Aplicativo de e-commerce, um dos pioneiros na utilização de Big Data. Foi um dos primeiros a oferecer a opção “o que outros compraram também”, obtendo instantaneamente vantagem competitiva com relação a seus concorrentes;

Google Now – Aplicativo que “aprende” sobre a rotina diária das pessoas, e sugere automaticamente meios de transporte, restaurantes, opções de entretenimento, entre outras coisas, baseando-se no comportamento individual de cada um;

Waze – Aplicativo que analisa em tempo real a situação do trânsito das cidades, e sugere o caminho mais rápido, baseado no feedback dos usuários e de análises de velocidade de deslocamento informados automaticamente pelos dispositivos conectados;

Netflix – Aplicativo que oferece filmes e séries online, e sugere automaticamente conteúdo a seus usuários baseado no que foi assistido anteriormente. Talvez o melhor exemplo de sucesso de Big Data, o Netflix passou a não somente oferecer sugestões de conteúdo similar, mas sim produzir conteúdo direcionado para as preferências das massas, de acordo com o que vem “aprendendo” ao longo dos anos.

Governo americano – Apesar de muitas informações sobre o sistema do governo americano ainda serem secretas e não confirmadas, é de comum consenso entre especialistas que o governo americano possui um sofisticado sistema de análise de comunicações em tempo real. O sistema analisa as comunicações de redes sociais, redes telefônicas, e redes de transmissão de dados, buscando padrões e palavras-chave de “interesse”, e separa as mensagens “interessantes” para uma posterior análise mais detalhada ou análise humana. O objetivo do sistema é prevenir ataques terroristas e identificar padrões que indiquem quando um ataque estaria próximo de acontecer.

Fim!

Há muito mais a ser coberto e aprofundado no assunto de Big Data e data analytics, mas serão assuntos para futuros artigos. Por hora, vou ficando por aqui. Espero que tenham gostado deste meu primeiro artigo – Não hesitem em dar seus feedbacks e sugestões para futuros temas!