Cloud Data Warehousing: Research eines quantitativen Asset Managers trifft akademische Expertise
Andre Fröhlich, Head of Research Technology bei Quoniam, und Prof. Dr. Stephan König von der Hochschule Hannover untersuchten in einem gemeinsamen Forschungsprojekt, welche Prototypen einer Cloud-Data-Warehousing-Architektur in der Praxis funktionieren. Wir haben mit ihnen über die Vorteile einer Cloud-Architektur im Investment Research, die Ergebnisse ihrer Forschung und die zukünftige Relevanz des Themas für Quoniam gesprochen.
Was macht das Investment Research von Quoniam?
Andre Fröhlich: Das Research-Team entwickelt unsere Investmentmodelle und ist für unsere Prognosen sowie das Management unseres firmeneigenen Data Warehouse verantwortlich. Dabei fokussiert sich das Team auf die stetige Optimierung unserer Risiko- und Renditeprognosen. Weitere Research-Projekte gehen über das Faktor-Research hinaus, betrachten technologische und marktbezogene Weiterentwicklungen , beispielweise zum Thema ESG oder Machine Learning, und setzen sie so um, dass sie Mehrwert stiften.
Schnelles, effizientes Research wirkt sich unmittelbar auf die Stärke und Vielfalt unserer Investmentstrategien aus. Damit wir auch in Zukunft riesige Datenmengen schnell verarbeiten zu können, ist eine bestimmte Infrastruktur notwendig. Deshalb haben wir bereits im Jahr 2020 damit begonnen, unser Research schrittweise in die Cloud zu verlagern und auf die zukunftsfähige Programmiersprache Python umzusteigen. Wir haben darüber bereits in einem früheren Artikel gesprochen.
Welche Vorteile hat es, den zentralen Datenspeicher für diese Tätigkeiten in die Cloud zu verlagern?
Andre Fröhlich: Es macht die Arbeit mit großen Datenmengen schneller und skalierbarer. Zum Beispiel, wenn man in einem Research-Projekt viele verschiedene ESG-Daten von unterschiedlichen Providern zu Zehntausenden Aktien über längere Zeiträume analysieren möchte.
„Das Data Warehouse in der Cloud zu haben bietet zwei große Vorteile: Skalierbarkeit – es können größere Datenmengen schneller ausgewertet werden – sowie eine einfachere Administration.“
Prof. Dr. Stephan König
Hochschule Hannover
Stephan König: Das Data Warehouse in der Cloud zu haben bietet zwei große Vorteile: Skalierbarkeit – es können größere Datenmengen schneller ausgewertet werden – sowie eine einfachere Administration. Das bedeutet, dass man nicht so viel selbst machen muss. Viele Services werden in der Cloud fertig bereitgestellt, ohne dass man sich um die Infrastruktur kümmern muss, zum Beispiel Server und deren Betriebssystem. Ein guter Vergleich sind E-Mail-Provider wie Gmail: Hier kann ich direkt loslegen und muss mir um das technische Setup keine Gedanken machen.
Bevor wir genauer auf eure Forschung eingehen: Was verbirgt sich eigentlich hinter dem Begriff Cloud Data Warehousing?
Stephan König: Ein Data Warehouse ist ein zentraler Datenspeicher für große Datenmengen aktueller und historischer Daten, die aus vielen verschiedenen Quellsystemen integriert werden. Dieser Datenspeicher wird für verschiedene Aktivitäten eines Unternehmens genutzt, um eine datengetriebene Entscheidungsunterstützung zu ermöglichen – zum Beispiel im Reporting oder bei Datenanalysen. Dafür sind mitunter sehr lang laufende Abfragen notwendig, die große Datenmengen aggregieren.
Im Kontext von Big Data wird zur Speicherung strukturierter und unstrukturierter Daten heutzutage häufig ein Data Lake verwendet. Ein Data Lake zeichnet sich dadurch aus, dass er kosteneffizient, Cloud-basiert und in der Lage ist, Rohdaten zu speichern. Die Kombination aus Data Lake und DWH wird als Data Lakehouse bezeichnet.
Dabei handelt es sich um verschiedene Entwicklungsstufen der Begrifflichkeiten, wie die folgende Grafik zeigt. Der Einfachheit halber werden wir uns im Folgenden auf den ursprünglichen Begriff Data Warehouse (DWH) beziehen, meinen aber natürlich die gesamte Bandbreite.
Was war die Haupt-Fragestellung des Projekts?
Andre Fröhlich: Wir wollten herausfinden, ob der Einsatz eines Cloud DWH für uns bei Quoniam kosteneffizient ist und ob die positiven Effekte eines solchen Setups auf Performance die eventuell höheren Kosten, die dafür anfallen würden, rechtfertigen. Weitere notwendige Voraussetzungen für einen wirtschaftlich vertretbaren Einsatz im Unternehmen sind gute Usability und der nötige Reifegrad der Technologie, was ebenfalls untersucht wurde.
Wie seid ihr vorgegangen, um diese Fragestellung zu beantworten?
Stephan König: Am Beispiel von Quoniam haben wir verschiedene Prototypen für Architekturansätze getestet. Dafür hat Quoniam reale Datensätze und die entsprechende Umgebung mit einer modernen Cloud-Architektur zur Verfügung gestellt. Ein kleines Beispiel, um die Größenordnung besser zu verdeutlichen: Bei einer typischen Analyse werden aus 1,5 Mrd. Datensätzen innerhalb weniger Sekunden 1 Mio. Datensätze herausgefiltert und analysiert.
Zunächst haben wir auf Basis der Unternehmensanforderungen und der Literatur geeignete Cloud-DWH-Szenarien identifiziert. Wir haben verschiedene Setups von Microsoft Azure Synapse, Microsoft Azure SQL Datenbank und Postgres DB miteinander verglichen. Hauptvergleichskriterien waren die Komplexität und Usability der Architektur, Kosten und Performance.
Dann wurde ein repräsentatives Datenanalyseszenario entwickelt, das sich zur prototypischen Umsetzung und Bewertung der favorisierten Architektur eignet: die Abfrage großer Faktordatensets über lange Zeithorizonte. Spezielles Augenmerk wurde dabei auf Datenbanken in Form von Managed Services gelegt, da diese im späteren Betrieb geringere Administrationsaufwände verursachen.
Andre Fröhlich: Zudem bieten Managed Services in der Regel die Möglichkeit der Auto-Skalierung. Das bedeutet, dass Rechenleistung bei Bedarf automatisch zugeschaltet und später wieder abgebaut werden kann. Das ist für uns von besonderer Wichtigkeit. So bezahlen wir nur für die Leistung, die wir wirklich nutzen (pay per use), was das Ganze kosteneffizienter macht.
Wie fiel das Ergebnis aus?
Stephan König: Azure SQL Serverless konnte bei den Tests nicht überzeugen. Auch bei maximaler Skalierung waren die Laufzeiten inakzeptabel lang und führten zu hohen Kosten. Azure Synapse Dedicated hingegen ermöglichte für das komplexe Anwendungsszenario selbst bei kleiner bis mittlerer Skalierung Laufzeiten und Kosten, die in der Größenordnung der bestehenden Data-Lake-Architektur liegen. Zudem weist die Lösung eine nahezu unbegrenzte Skalierbarkeit auf.
Um das Bild zu vervollständigen, sollte zusätzlich noch Snowflake untersucht werden. Diese Cloud-basierte DWH-Lösung bietet neben positiven Performance- und Kostenaspekten weitere interessante Vorteile – zum Beispiel die Möglichkeit, über einen Marketplace externe Datenlieferanten anzubinden.
Was macht Quoniam mit diesen Ergebnissen? Wie sehen die nächsten Schritte aus?
Andre Fröhlich: Die endgültige Entscheidung, ob die Nutzung eines Cloud DWH empfohlen wird, sollte nach einem Test von Snowflake fallen, der zurzeit schon läuft und von den Kollegen im Bereich Technology vorangetrieben wird. Grundsätzlich sind wir aber ziemlich sicher, dass das Thema perspektivisch für uns interessant wird.
„Dank des Projekts konnten wir bei Quoniam herausfinden, ob der Einsatz eines Cloud DWH für uns Sinn macht und wie sich ein solches Setup auf die Performance auswirkt. Ein gelungenes Beispiel für die Zusammenführung von Forschung und Praxis mit gewinnbringendem Wissenstransfer!“
Andre Fröhlich
Head of Research Technology
Und wie profitiert die Hochschule Hannover von den Ergebnissen?
Stephan König: Die Ergebnisse sind eine tolle Basis für weitere Forschungsprojekte in diesem Bereich. Vor allem helfen sie dabei, meine Lehre aktuell und praxisnah zu halten. Das ist ja ein sehr wertvolles Ziel der Fachhochschule. Das wird meinen Studierenden – der nächsten Generation von Data Engineers – zugutekommen. Daher möchte ich mich an dieser Stelle noch einmal herzlich für die Möglichkeit bedanken, dieses Forschungsprojekt gemeinsam mit Quoniam durchzuführen.
Wird es auch in Zukunft Kooperationen geben?
Andre Fröhlich: Von Quoniam-Seite aus immer wieder gerne! Es macht Freude, mit einem so kompetenten Partner Forschung und Praxis zusammenzuführen und einen gewinnbringenden Wissenstransfer zu ermöglichen. Eine konkrete nächste Idee wäre, das Thema Snowflake mit studentischer Unterstützung noch einmal genauer in der Praxis zu betrachten.
Stephan König: Da kann ich mich nur anschließen. Nicht ohne Grund war dies bereits das dritte Projekt, an dem wir gemeinsam gearbeitet haben. In den vergangenen Jahren gab es schon Kooperationen zum Thema Natural Language Processing und zur Auswertung von unstrukturierten Daten aus Twitter. Jetzt habe ich mein drittes praktisches Forschungssemester mit Quoniam verbracht – und ich hoffe, dass ein viertes folgt.