Grandes volumes de dados não devem significar altos custos
O volume de dados está explodindo com taxas que nossa indústria nunca viu antes, e a grande oportunidade para alavancar esses processos são impedidos pelas práticas de licenciamento arcaico ainda em uso pelas empresas de software da velha escola.
Atualmente, os grandes como Oracle, IBM, SAP e Teradata, têm uma solução muito simples para ambientes com grande volume de informações - basta continuar cobrando mais dinheiro, muito mais dinheiro.
Os únicos "vencedores" neste cenário são os representantes de vendas de software. Nossa indústria (Tech) é artificialmente retardada, apoiam os modelos de negócio da velha escola - não podem se dar ao luxo de inovar no licenciamento, certamente não querem matar a galinha dos ovos de ouro - a taxa de licença perpétua.
Organizações como a Mozilla, Facebook, Amazon, Yahoo, RealNetworks e muitos outros estão a recolher imensa quantidade de dados estruturados e não estruturados. O gerenciamento desse novo ambiente deve ser capaz de conhecer e mensurar o que as pessoas estão fazendo em seus sites, a fim de realizar um melhor trabalho:
a) Corresponder às perspectivas dos clientes
b) Oferecer aos clientes o que eles querem de uma maneira mais rápida e eficiente.
c) Detectar tendências e reagir a elas em tempo real.
Qualquer empresa, pequena ou grande, que está tentando peneirar terabytes de dados estruturados e complexos, numa base horária diária ou semanal para qualquer tipo de análise, deveria melhor analisar o que está realmente pagando.
Assim como a recessão mundial de 09/08 trouxe uma enorme atenção ao menor custo, alternativas como o Pentaho, está fazendo a mesma coisa no espaço DB / DW. E onde você encontra algumas das melhores inovações no espaço da tecnologia? A resposta é open source.
Especificamente, uma tecnologia de fonte aberta chamado Apache Hadoop, aborda a "melhor proposta de valor para grande volume de dados." Também é a única tecnologia capaz de lidar com alguns desses aplicativos de grandes volumes. Parece ótimo, né? Bem, não exatamente. O problema com o Hadoop é que é um produto muito técnico, com uma interface de linha de comando. Uma vez que os dados ficam em Hadoop, como você consegue trabalha-los? Como você analisa esses dados? Se ao menos houvesse um ETL e produto de BI totalmente integrado com o Hadoop, e está disponível com os termos de licenciamento adequado...
A Pentaho tem feito exatamente isso. Em 19 de maio anunciaram os planos para oferecer a primeira indústria completa end-to-end de integração de dados e plataforma de business intelligence para suporte do Apache Hadoop. Durante os poucos meses seguintes estarão sendo lançadas versões do produto Suite Pentaho Data Integration e os produtos de BI que irão fornecer ao Hadoop com uma rica solução analítica e visual.
O Feedback da comunidade Pentaho têm sido extremamente positivo, e o nível de excitação é elevado.
Hadoop saiu do campo de código aberto Apache. É a melhor tecnologia em torno do armazenamento de monstruosos conjuntos de dados. Até recentemente, apenas um pequeno número de organizações usaram, principalmente aqueles com profundos recursos técnicos. No entanto, como a tecnologia amadurece a platéia está aumentando e agora com uma solução de ETL rica e analítica, está prestes a ficar ainda maior.
Versão original do artigo você encontra aqui: Blog do Pentaho
Até a próxima!
Fontes Imagens:
http://theblueelephantproject.blogspot.com/2009/04/projecto-06i-shop-therefore-i-am.html
Comentários
Ontem tinha corrido os olhos, hoje pude ler com mais calma.
Abraço!
Parabéns!