Datenanalyse 23.11.2012, 19:56 Uhr

Hadoop immer öfter die Nr. 1

Die Analyseplattform Hadoop gewinnt immer mehr Freunde, und zwar sowohl bei den System-und Datenbankanbietern als auch bei kleinen und großen Anwendern. Auslöser dafür ist „Big Data“ – also der explosionsartige Anstieg der Datenmengen, vor allem bei den unstrukturierten Daten, wie sie bei Social Media anfallen.

Hadoop: Intensive Rechenleistung mit großen Datenmengen.

Hadoop: Intensive Rechenleistung mit großen Datenmengen.

Foto: SAP

Vor fünf Jahren hat die Apache Software Foundation die Hadoop-Plattform als Open Source freigegeben und seitdem erfreut sie sich einer rasant zunehmenden Beliebtheit im Bereich von Business Analytics (BA).

So meinen die Marktforscher von IDC, dass der Markt für Hadoop und ähnliche Map-Reduce-Anwendungen (s. Kasten) von 77 Mio. $ im Jahr 2011 auf 812,8 Mio. $ bis 2016 ansteigen wird. Das entspricht einer durchschnittlichen Steigerung von 60,2 % pro Jahr. Hintergrund dafür sind die rasant ansteigenden Datenmengen – Stichwort Big Data. „Hadoop und die anderen Map-Reduce-Frameworks haben bewiesen, dass sie immense Datenberge schnell und preiswert analysieren können“, sagt IDCs Vizepräsident Carl Olofson. Als weiteren Grund für seine Prognose verweist er darauf, dass immer mehr große und etablierte Analytics-Unternehmen auf diese Technologie setzen.

Oracle, IBM und Microsoft setzen auf Hadoop

So bietet Oracle bereits seit Längerem Hadoop an, IBM nutzt es auch und Microsoft hat sogar die Entwicklung der eigenen Big-Data-Analytics-Plattform Dryad zugunsten von Hadoop eingestellt. Auch EMC, Teradata, VMware, Hewlett-Packard, Intel, NetApp und SAS gehören zu den Anbietern von Hadoop – oder bieten zumindest ergänzende Technologien an. Bei den Anwendern gibt es ebenfalls eine Reihe an bekannten Namen. Hier wird die Liste von Yahoo, Facebook, der Chase Bank und AOL angeführt.

Dass so viele etablierte Unternehmen auf Hadoop setzen, liegt an dessen Softwarearchitektur, die mithilfe der Map-Reduce-Technologie alle Möglichkeiten der Parallelverarbeitung voll ausschöpft. Das macht sie besonders schnell – und das ist heute bei der Datenanalyse ein wichtiges Kriterium.

Basis dafür ist das „Hadoop Distributed File System“ (HDFS), bei dem es keine Spaltenorientierung gibt. Damit lassen sich jederzeit ohne großen Aufwand Attribute hinzufügen oder entfernen. Während bei relationalen Datenbanken der Aufwand für eine Strukturänderung exponentiell mit der Größe der Datenbank ansteigt, ist dieser Aufwand bei Hadoop konstant klein, egal wie groß die Datenmenge ist.

Hadoop ist für die Analyse von Social Media und Clickstreams besonders interessant

Dieser Punkt ist dann besonders wichtig, wenn die Analyseabfragen häufigen Änderungen unterworfen sind oder wenn die Struktur des Datenangebotes sehr variabel ist. Beispiele hierfür sind die Attribute von Kundenprofilen oder das Klickverhalten bei Webseiten. Hier ergeben sich die Fragen immer erst dann, wenn die ersten Datenbestände zur Verfügung stehen und eine Art „erster Eindruck“ vorliegt, der dann zu präziseren Fragen führt.

Der zweite großer Unterschied von Hadoop zu relationalen Datenbanken ist der, dass es aufgrund der Spaltenunabhängigkeit keinen Unterschied zwischen strukturierten und unstrukturierten Daten gibt. Vor allem die Möglichkeit der spaltenunabhängigen Speicherung macht Hadoop für die Analyse von Social Media und Clickstreams besonders interessant. Die Webagentur ComScore will beispielsweise in Zukunft Hadoop für seine Clickstream-Analyse von Rohdaten einsetzen und damit eine überalterte Selbstentwicklung ablösen. Mit Hadoop sollen die Basisdaten so weit verfeinert und verdichtet werden, dass sie anschließend in eine strukturierte relationale Datenbank passen. Hierzu setzt ComScore ein 150 TByte großes Sybase IQ Datawarehouse ein.

AOL will mit 700-Node-Hadoop-Umgebung das Nutzer- und Klickverhalten besser analysieren

Hadoop ist so programmiert, dass es sowohl eine Vielzahl an x86-Prozessoren parallel nutzen kann als auch die Parallelität von Mehrkernprozessoren voll ausnutzt. Hierzu bietet Hadoop die Data-Flow-Language Pig an, mit der sich derartige Paralleljobs einfach erstellen lassen. AOL baut beispielsweise derzeit eine 700-Node-Hadoop-Umgebung auf, mit der das Unternehmen das gesamte Nutzer- und Klickverhalten besser analysieren will.

Der Aufbau einer Node-Architektur mit einfachen Standard-Hardwarekomponenten ist besonders kostengünstig. So bestehen moderne Hadoop-Nodes aus 16-Kern-Prozessoren mit 128 MByte RAM und 4 TByte Festplatten. Ein solcher Node kostet laut Cloudera rund 4000 $. Das ist nur ein Bruchteil von den 10 000 $ bis 12 000 $ pro Terabyte, die man bei relationalen Datenbanken zugrunde legen muss. Cloudera ist ein Start-up und einer der führenden Anbieter von kommerziellen Hadoop-Installationen.

Stellenangebote im Bereich Softwareentwicklung

FERCHAU GmbH-Firmenlogo
FERCHAU GmbH Softwareentwickler (m/w/d) C/C++ Automotive Hannover
FERCHAU GmbH-Firmenlogo
FERCHAU GmbH Basis Software Developer (m/w/d) Metropolregion Nürnberg
Packsize GmbH-Firmenlogo
Packsize GmbH Software Engineer (m/w/d) Data Solutions Integration / Software Inbetriebnahme Herford
FERCHAU GmbH-Firmenlogo
FERCHAU GmbH DevOps Engineer (m/w/d) Raum Stuttgart
ALTEN GmbH-Firmenlogo
ALTEN GmbH Werkstudent (m/w/d) Embedded Softwareentwicklung Automotive München
ALTEN GmbH-Firmenlogo
ALTEN GmbH Masterarbeit "Datendeklarationstool für Motorsteuergeräte" München
Bonn-Netz GmbH-Firmenlogo
Bonn-Netz GmbH Betriebsingenieur (m/w/d) Smart Metering Bonn
M Plan GmbH-Firmenlogo
M Plan GmbH Softwareentwickler (m/w/d) C/C++ Wolfsburg
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI-Firmenlogo
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI Softwareentwicklerin / Softwareentwickler Digitaler Zwilling für Material- und Prozessmodellierung Sankt Augustin
Blickfeld GmbH-Firmenlogo
Blickfeld GmbH Embedded Software Engineer für Regelungssysteme (m/w/d) München

Alle Softwareentwicklung Jobs

Top 5 IT & T…

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.