Fórum PCs

Apenas no ano passado produziu-se uma quantidade de dados expressa em bytes quase duzentas vezes maior que a existência do universo expressa em segundos.

Acha impossível? Vamos ver...

Na quarta-feira da semana passada realizou-se em São Paulo o EMC FORUM 2012, a nona edição do evento no Brasil.

Figura 1: "Banner" do evento

Seu objetivo foi reunir os principais executivos e técnicos da empresa com seus parceiros, clientes e com a imprensa especializada. O EMC Fórum é um evento enxuto: dura apenas um dia e consiste de um conjunto de palestras e uma mesa redonda, tudo isto centrado em um tema. O deste ano foi "Transformando negócios + TI + você". O que não diz muito. Mas, destrinchando o Fórum e, sobretudo, acompanhando as palestras, percebe-se que este ano as coisas gravitaram em torno de um assunto que vem tomando um vulto cada vez maior e cuja solução definitiva ainda está longe de ser alcançada: a administração e análise inteligente dos imensos volumes de dados que vêm se acumulando cada vez mais rapidamente em praticamente todo meio de armazenamento de massa, desde os milhares de servidores de dados dos centros de processamento das grandes empresas até os discos de memória ("pen-drives") pendurados em nossos chaveiros. Uma tarefa que passou a ser conhecida por "big data".

E se o assunto é armazenamento e administração de dados, ninguém melhor que a EMC para discuti-lo. Afinal, trata-se da líder mundial na tecnologia de armazenamento de dados e computação em nuvem. E vem se beneficiando desta liderança não apenas na área tecnológica como também na comercial. Há alguns anos, depois do "estouro da bolha" da Internet, visitei a sede da empresa em Boston, EUA, e tomei conhecimento dos esforços que fazia para se adaptar aos novos tempos, que incluiu uma redução de sua força de trabalho, que atingiu um patamar inferior a vinte mil funcionários. Hoje, com as aquisições e incorporações que efetuou no período de rápido crescimento que se seguiu, o número de funcionários beira a casa dos cinquenta mil. É um salto e tanto.

Mas voltemos ao "big data", o tema principal do encontro. E começando pela questão principal: quão "big" realmente é o "big data"?

Bem, lá no início da coluna você teve uma pálida ideia do problema. E pode se informar mais sobre ele – e, provavelmente, se assustar com seu tamanho – lendo o relatório da EMC (infelizmente disponível apenas em inglês) < http://brazil.emc.com/microsites/cio/articles/big-data-big-opportunities/LCIA-BigData-Opportunities-Value.pdf > "Big Data: Big Opportunities to Create Business Value". Mas, para responder a esta – e outras – perguntas, a EMC convidou Sílvio Meira para proferir uma das palestras de abertura do evento.

Eu não me atreverei a apresentar Silvio Meira. O homem é uma lenda. Consegue acumular as responsabilidades de Presidente do Conselho do Porto Digital, em Recife, com as de Cientista Chefe do Centro de Estudos e Sistemas Avançados de Recife (C.E.S.A.R), professor de Engenharia de Software da UFPE e, por último mas não menos importante, a de Fundador e Batuqueiro do Maracatu "A Cabra Alada". E desempenha todas, inclusive a última, com competência e garbo.

Assistir uma palestra de Sílvio é um privilégio. Que, infelizmente, não dá para dividir com vocês nestes poucos parágrafos. Mas vou tentar, pelo menos, abordar um pouco do conteúdo.

Antes, porém, uma pergunta: você faz ideia do que representa o prefixo grego "zetta"?

Note que não perguntei se você sabe o que é. Afinal, todo mundo – ou quase – sabe que da mesma forma que "mega" representa 1 x 106 (um milhão), "zetta" representa 1 x 1021 (um sextilhão).

O que eu perguntei é se você faz ideia do que representa.

Veja lá: estima-se que o universo tenha aproximadamente treze bilhões de anos. Quantos dias terá? Fácil: (13 x 109) x 365 = 4,745 x 1012, menos de 5 peta-dias. Merreca.

Pulemos as horas e os minutos. Vamos diretamente aos segundos, multiplicando o número de dias por 86.400. O resultado (arredondado para cima) é: 9,84 x 1018, menos de dez exa-segundos. Ou seja: mais de cem vezes menor que um zetta-segundos. Quer dizer: o tempo de existência do universo medido em segundos é algo da ordem de 0,001 zetta.

Pois bem: agora que você faz ideia do que é um zetta, olhe para a figura abaixo, extraída da apresentação de Sílvio Meira, e tente não sentir vertigem.

Figura 2: quantidade de dados gerados em 2011

Isso mesmo: somente em 2011 foram gerados 1,8 ZB (zettabytes) de informação. Entendeu agora de onde eu tirei aquela frase com que abri a coluna?

Este e outros dados que dão uma pálida ideia do que vem a ser o "universo digital" de hoje em dia podem ser encontrados no documento de John Gantz and David Reinsel "Extracting Value from Chaos", produzido pela IDC por solicitação da EMC e que pode ser obtido na < http://www.emc.com/leadership/programs/digital-universe.htm > página "Digital Universe" do sítio da empresa e cuja leitura recomendo enfaticamente a quem se interessa pelo tema.

Mas de onde surgem estes dados? De novo Silvio Meira nos dá a resposta na figura abaixo, também extraída de sua apresentação.

Figura 3: Origem dos dados

Sim, a maioria deles, três quartos, para ser exato, é gerada por nós, gente como eu e você que acumula terabytes de informações sob a forma de fotos, vídeos, documentos, registros, dados médicos, prontuários diversos, fichas escolares, isto sem contar as mensagens em redes sociais e coisas que tais.

Mas por que Meira afirma que 80% destes dados envolvem algum tipo de responsabilidade das empresas? A resposta está na figura abaixo, desta vez, para variar, obtida do próprio
documento da IDC acima citado.

Figura 4: Nossa "sombra digital"

Sim, pois muitíssimo maior que a quantidade de informações que nós produzimos é a imensa quantidade de informações geradas sobre cada um de nós. Uma enorme massa de dados que vamos deixando em nosso rastro e que a IDC denominou de "sombra digital". São dados pessoais dos quais, alguns, nós mesmos tornamos públicos. Outros, porém, são confidenciais – ou pelo menos demasiadamente pessoais para serem divulgados, como informações sobre nossas preferências armazenadas por empresas que acumulam dados sobre, por exemplo, nossas compras e consultas a dispositivos de busca na Internet e das quais sequer tomamos conhecimento. Não obstante elas existem, sua quantidade cresce cada vez mais rapidamente e não apenas por razões sociais, mas também por exigências legais, devem ser bem administradas pelas empresas que as coletam e armazenam para não violar nossa privacidade.

Este crescimento, que Sílvio Meira batizou de "inflação informacional", é efetivamente muito rápido. E se você se impressionou com os 1,8 ZB de dados gerados em 2011, mais ainda se impressionará com o que consta da figura abaixo, também da apresentação de Meira, baseada nos dados da IDC.

Figura 5: O crescimento do "big data"

Percebeu? Dentro de oito anos serão gerados (apenas no ano) quase cem zettabytes de dados, 50 vezes mais que em 2001. E, para complicar ainda mais sua administração, estes dados serão armazenados em um número 75 vezes maior de repositórios que atualmente.

E se você está achando que administrar tudo isto hoje já é complicado, imagine então em 2020, com um contingente de administradores e técnicos de tecnologia da informação apenas 50% maior que o de hoje.

Se você acha que tudo isto é um exagero, pense um pouco. Esqueça as corporações, pois no que toca a elas a magnitude do problema é tamanha que fica difícil para nós, usuários comuns, sequer ter consciência de sua abrangência. Mas, se você já é usuário de computador há, digamos, mais de cinco anos, procure lembrar da capacidade de armazenamento total disponível em todos os seus computadores, incluindo notebooks e seja lá o que mais você tivesse naquele tempo. Agora, compare com a de hoje, incluindo por exemplo seu cartão de memória do telefone celular que, se duvidar, tem capacidade maior que a de seu disco rígido principal de há alguns anos. Eu, que uso este tipo de parafernália há quase 25 anos, comecei – com muito sacrifício devido ao alto custo – com um disco rígido de 40 MB (isso, Megabytes, para não pensarem que foi erro de digitação). Hoje, incluindo cartões de memória, discos rígidos dos diversos computadores que uso em casa, no trabalho e em viagens, além dos dispositivo de armazenamento em rede da Iomega que tenho conectados, a capacidade total passa dos cinco Terabytes. Coisa de uma empresa de grande porte de alguns anos atrás.

Pois é este o tamanho da encrenca. Não é de admirar, portanto, que tenha sido o tema central do evento da EMC. Pois não será com a tecnologia disponível hoje em dia que poderemos enfrentar tamanho desafio. Ela será importante, naturalmente, e não é à toa que a EMC oferece dezenas de soluções de todo o tipo – especialmente serviços e armazenamento em nuvem – para encarar o problema. Mas é preciso desenvolver muita coisa nova, tirar muito coelho da cartola, inventar o até agora impensável.

E é com este objetivo – naturalmente, expresso com maior seriedade – que a EMC acaba de criar seu Centro de Pesquisa e Desenvolvimento de Big Data, aqui mesmo no Rio de Janeiro. E escolheu a Dra. Karin Breitman para dirigir o Centro.

Dia destes vou até lá para uma visita e conto para vocês.

Sítio do Piropo B. Piropo	< Coluna em Fórum PCs >
13/08/2012	< Um universo de dados >