Grandes volumes de dados não devem significar altos custos

João Pé de Feijão
O volume de dados está explodindo com taxas que nossa indústria nunca viu antes, e a grande oportunidade para alavancar esses processos são impedidos pelas práticas de licenciamento arcaico ainda em uso pelas empresas de software da velha escola.

Atualmente, os grandes como Oracle, IBM, SAP e Teradata, têm uma solução muito simples para ambientes com grande volume de informações - basta continuar cobrando mais dinheiro, muito mais dinheiro.

Os únicos "vencedores" neste cenário são os representantes de vendas de software. Nossa indústria (Tech) é artificialmente retardada, apoiam os modelos de negócio da velha escola - não podem se dar ao luxo de inovar no licenciamento, certamente não querem matar a galinha dos ovos de ouro - a taxa de licença perpétua.

Organizações como a Mozilla, Facebook, Amazon, Yahoo, RealNetworks e muitos outros estão a recolher imensa quantidade de dados estruturados e não estruturados. O gerenciamento desse novo ambiente deve ser capaz de conhecer e mensurar o que as pessoas estão fazendo em seus sites, a fim de realizar um melhor trabalho:


a) Corresponder às perspectivas dos clientes

b) Oferecer aos clientes o que eles querem de uma maneira mais rápida e eficiente.

c) Detectar tendências e reagir a elas em tempo real.

Qualquer empresa, pequena ou grande, que está tentando peneirar terabytes de dados estruturados e complexos, numa base horária diária ou semanal para qualquer tipo de análise, deveria melhor analisar o que está realmente pagando.

Assim como a recessão mundial de 09/08 trouxe uma enorme atenção ao menor custo, alternativas como o Pentaho, está fazendo a mesma coisa no espaço DB / DW. E onde você encontra algumas das melhores inovações no espaço da tecnologia? A resposta é open source.

Especificamente, uma tecnologia de fonte aberta chamado Apache Hadoop, aborda a "melhor proposta de valor para grande volume de dados." Também é a única tecnologia capaz de lidar com alguns desses aplicativos de grandes volumes. Parece ótimo, né? Bem, não exatamente. O problema com o Hadoop é que é um produto muito técnico, com uma interface de linha de comando. Uma vez que os dados ficam em Hadoop, como você consegue trabalha-los? Como você analisa esses dados? Se ao menos houvesse um ETL e produto de BI totalmente integrado com o Hadoop, e está disponível com os termos de licenciamento adequado...

A Pentaho tem feito exatamente isso. Em 19 de maio anunciaram os planos para oferecer a primeira indústria completa end-to-end de integração de dados e plataforma de business intelligence para suporte do Apache Hadoop. Durante os poucos meses seguintes estarão sendo lançadas versões do produto Suite Pentaho Data Integration e os produtos de BI que irão fornecer ao Hadoop com uma rica solução analítica e visual.

O Feedback da comunidade Pentaho têm sido extremamente positivo, e o nível de excitação é elevado.

Hadoop saiu do campo de código aberto Apache. É a melhor tecnologia em torno do armazenamento de monstruosos conjuntos de dados. Até recentemente, apenas um pequeno número de organizações usaram, principalmente aqueles com profundos recursos técnicos. No entanto, como a tecnologia amadurece a platéia está aumentando e agora com uma solução de ETL rica e analítica, está prestes a ficar ainda maior.

Versão original do artigo você encontra aqui: Blog do Pentaho

Até a próxima!

Fontes Imagens:
http://theblueelephantproject.blogspot.com/2009/04/projecto-06i-shop-therefore-i-am.html

Comentários

Horacio disse…
Valeu, Alvi!
Ontem tinha corrido os olhos, hoje pude ler com mais calma.
Abraço!
Antonio Ricardo disse…
Gostei do artigo!
Parabéns!

Postagens mais visitadas deste blog

Falhas em projetos de BI

Pentaho - O que é?

Informação. Nova moeda de troca?!