Ein neues Ibis-Projekt für Python schließt die Lücke zwischen Data Science und Business Intelligence
(PresseBox) - 05.08.2015 - Während die weltweiten Datenbestände weiterhin exponenziell wachsen, benötigen Data Scientists in zunehmendem Maße Möglichkeiten, in großem Stil wiedergabetreue Analysen der gesammelten Informationen vorzunehmen.
Cloudera, führender Anbieter im analytischen Datenmanagement für Unternehmen auf Basis von Apache Hadoop?, hat nun einige Initiativen gestartet, damit Data Scientists bei komplexeren Arbeitsabläufen zur Analyse von Big Data Hadoop und die damit verbundenen Vorteile nutzen können.
Den Anfang macht dabei die Bereitstellung von Ibis, das die Cloudera Labs als Open Source-Projekt entwickelt haben. Ibis ermöglicht eine erweiterte Datenanalyse auf Basis eines 100-prozentigen Python-Stacks. Auf diese Weise wird eine native Python-Erfahrung maßstabsgetreu auf Hadoop übertragen.
"Hadoop hat sich über die vergangenen zehn Jahre hinweg von einem Batch Processing Tool hin zu einem kompletten Ökosystem gewaltig weiterentwickelt und treibt heute die meisten aktuellen Datenarchitekturen ebenso an wie traditionelle BI-Arbeitslasten", stellt Wes McKinney fest. Der Cloudera-Softwareingenieur und Erfinder der Python-Pandas ergänzt: "Wir wollen diese Dynamik nutzen und die Infrastruktur von Hadoop gegenüber der Data Science Community leichter zugänglich machen. Das erreichen wir, indem wir Python in größerem Umfang in das Ökosystem übertragen, unseren Support für maschinelles Lernen auf Spark erweitern und uns auf reale, praktische Anwendungen der Data Science konzentrieren."
Ibis
Cloudera hat die große Bedeutung der Python-Sprache für das Daten-Engineering und die Datenwissenschaft der Gegenwart erkannt. Dank der Einsatzmöglichkeiten für komplexere Arbeitsabläufe hat sich Python zur bevorzugten Sprache auf den Gebieten der Datentransformation und interaktiven Analyse entwickelt. Die Python-Entwicklung beschränkte sich jedoch auf die lokale Datenverarbeitung und kleinere Datenbestände; um mit Big Data arbeiten zu können, mussten Data Scientists beim Einsatz von Python daher bislang zahleiche Kompromisse eingehen. Indem Ibis als neues Open Source-Framework zur Datenanalyse eingesetzt wird, sind Python-Nutzer endlich in der Lage, Daten maßstabsgetreu und ohne Abstriche bei der Leistung oder der Nutzererfahrung zu verarbeiten.
Die erste Version des Ibis bietet eine End-to-End-Erfahrung von Python, wobei die in Impala integrierten Analysefunktionen zum vereinfachten ETL, zum Data Wrangling und zur Analytik umfassend unterstützt werden. Künftige Versionen werden die Nutzung der gesamten Bandbreite an Python-Paketen erlauben und auch effiziente kundenspezifische Logik durch den Einsatz von Python ausdrücken. Durch die Verknüpfung mit Impala als führender MPP-Datenbank-Engine für Hadoop erreicht Ibis die für Big Data erforderliche interaktive Leistungsfähigkeit und Skalierbarkeit.
"Python ist für viele Data Scientists die Open Source-Sprache erster Wahl, und dank der Benutzerfreundlichkeit, der Ausbaufähigkeit und des robusten Bibliotheken-Ökosystems von Drittanbietern ist das auch leicht zu verstehen", stellt Wes McKinney fest. "Wir kennen aber auch die Grenzen von Python, denn hohe Leistungen im Hadoop-Maßstab sind damit nicht erreichbar", so McKinney weiter. "Mit Ibis wollen wir auf hoch skalierbaren Architekturen wie Hadoop ein erstklassiges Python-Erlebnis schaffen, wobei es einen vollen Zugriff auf das Ökosystem des Python-Tools gibt."
Ibis steht als Preview über die Cloudera Labs (cloudera.com/labs) zur Verfügung. Cloudera Labs stellt einen virtuellen Inkubator für neue Projekte dar, die die Community und das Ökosystem von Hadoop weiter bereichern sollen. Ibis ist ein lizenziertes Apache-Projekt und kann von der Open Source Community beliebig erweitert werden (github.com/cloudera/ibis).
Weitere Details zu den technischen Ãœberlegungen in Zusammenhang mit Ibis finden Sie unter http://blog.cloudera.com/blog/2015/07/ibis-on-impala-python-at-scale-for-data-science.
Big Data-Technologien stellen für Data Scientists entscheidende Werkzeuge dar. Unabhängig vom konkreten Anwendungsfall und der damit verbundenen Komplexität stellt Cloudera sicher, dass Datenwissenschaftler die Leistungsfähigkeit von Hadoop auf einfache Weise nutzen können - ganz gleich, welche Tools sie dabei bevorzugen.
Weitere Informationen über Ibis finden Sie auch auf www.ibis-project.org.
Mit der ersten integrierten Big Data-Plattform auf Basis des Apache Hadoop?-Frameworks gestaltet Cloudera die Datenverwaltung im Unternehmen von Grund auf neu. Cloudera bietet Unternehmenskunden integriertes Speichern, Bearbeiten und Analysieren all ihrer Daten und ermöglicht ihnen damit nicht nur eine effizientere Nutzung ihrer Systemlandschaft, sondern auch völlig neue Methoden der Datenverwertung. Nur Cloudera liefert sämtliche für den Aufbau eines internen Daten-Hubs erforderlichen Komponenten, einschließlich der Software für geschäftskritische Kernfunktionen wie Speicherung, Zugang, Verwaltung, Analyse, Schutz und Suche von Daten. Als führender Anbieter hat Cloudera weltweit bereits mehr als 27.000 Hadoop?-Experten geschult. Darüber hinaus sorgen über 1.400 Partner und ein erfahrenes Serviceteam für den schnellstmöglichen Einsatz neuer Software. Nur Cloudera bietet den dynamischen und zukunftsorientierten Support, der Unternehmen darin unterstützt, ihren Enterprise Data Hub effizient einzusetzen. Führende Unternehmen aller Wirtschaftsbereiche, sowie staatliche Institutionen setzen bei der Verarbeitung und Analyse großer Datenvolumen auf Cloudera.
www.cloudera.com
Mit der ersten integrierten Big Data-Plattform auf Basis des Apache Hadoop?-Frameworks gestaltet Cloudera die Datenverwaltung im Unternehmen von Grund auf neu. Cloudera bietet Unternehmenskunden integriertes Speichern, Bearbeiten und Analysieren all ihrer Daten und ermöglicht ihnen damit nicht nur eine effizientere Nutzung ihrer Systemlandschaft, sondern auch völlig neue Methoden der Datenverwertung. Nur Cloudera liefert sämtliche für den Aufbau eines internen Daten-Hubs erforderlichen Komponenten, einschließlich der Software für geschäftskritische Kernfunktionen wie Speicherung, Zugang, Verwaltung, Analyse, Schutz und Suche von Daten. Als führender Anbieter hat Cloudera weltweit bereits mehr als 27.000 Hadoop?-Experten geschult. Darüber hinaus sorgen über 1.400 Partner und ein erfahrenes Serviceteam für den schnellstmöglichen Einsatz neuer Software. Nur Cloudera bietet den dynamischen und zukunftsorientierten Support, der Unternehmen darin unterstützt, ihren Enterprise Data Hub effizient einzusetzen. Führende Unternehmen aller Wirtschaftsbereiche, sowie staatliche Institutionen setzen bei der Verarbeitung und Analyse großer Datenvolumen auf Cloudera.
www.cloudera.com