Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. Foi inspirado pelo MapReduce e GoogleFS. Trata-se de um projeto de alto-nível da Apache que vai sendo construído por uma comunidade de contribuidores utilizando a linguagem de programação Java. AYahoo! tem sido o maior contribuidor do projeto, utilizando-o intensivamente no seu negócio.Sendo mais especifico o Hadoop é uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS).
O HMR é um spinoff do MapReduce, software que Google usa para fazer aquela magica de acelerar as pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuidos otimizados para atuar em dados não estruturados e é tambem baseado na tecnologia do Google, neste caso o Google File System. Existe também o Hadoop Common, conjunto de bibliotecas e utilitários que suportam os projetos Hadoop. Na pratica, para que o HMR processe os dados, eles devem estar armazenados no HDFS.
O Hadoop é um projeto Open Source, com licenciamento Apache. Diversas empresas vem contribuindo com código para seu desenvolvimento como a Yahoo, Facebook,IBM dentre outras. Em torno do código base, surgem as distribuições, como Cloudera (www.cloudera.com) e DataStax (http://www.datastax.com/brisk), que agregam valor com utilitários e serviços de suporte e educação, no mesmo modelo das distribuições Linux. Interessante que a distribuição da DataStax, chamado de Brisk, substituiu o HDFS por um sistema de arquivos distribuidos baseados no software NoSQL Cassandra, chamado agora de CassandraFS.
Tá contribuir é uma coisa mas, quem usa o Hadoop? Existem os casos emblemáticos como Facebook, Yahoo, Twitter e Netflix (na nuvem da Amazon), mas também já começamos ver seu uso em ambientes corporativos “brick-and-mortar”. Recentemente uma pesquisa mostrou que pelo menos umas 20 empresas da lista da Fortune 1000 assumiram publicamente que usam Hadoop de alguma forma. A adoção do Hadoop em aplicações analíticas corporativas como as ofertadas pela IBM vão ajudar na sua disseminação. Eu não sei se vocês se recordam mas, quando a IBM anunciou seu apoio ao Linux, em 2001, o Linux passou a ser visto sob outra ótica pelo ambiente corporativo.