Data Science – Was ist das eigentlich

September 14, 2021

Data Science – Was ist das eigentlich? - Interview mit Jasmin, Data Scientist bei Holisticon

Seit fast einem Jahr bin ich Data Scientist bei der Holisticon AG. In meinem Alltag beschäftige ich mich mit Daten. Strukturierten und unstrukturierten, saubereren und unsauberen, großen und kleinen Datenmengen. Manchmal entstehen aus den vorliegenden Daten sogar noch weitere Daten, wenn durch ihre Kombinierung neue, relevante Informationen entstehen. Das passiert zum Beispiel, wenn ein Durchschnitt berechnet wird, um eine Gruppe von Daten zu beschreiben.

Data Scientists können Daten aus verschiedenen Quellen wie z. B. Datenbanken oder Excel-Tabellen sammeln und so aufbereiten, dass Analysen vorgenommen werden können. Besonders schwierig ist das, wenn Daten z. B. unvollständig sind oder falsche Werte enthalten. Die Qualität dieser unsauberen Daten muss erst durch verschiedene Verfahren erhöht werden, bevor sie verwendet werden können.

Nach der notwendigen Aufbereitung können Machine-Learning-Modelle und Neuronale Netze trainiert werden, um ein zukünftiges Verhalten, Trends oder ein bestimmtes Ergebnis vorherzusagen. Oft können durch eine solche Herangehensweise auch neue oder noch unbekannte Zusammenhänge in den Daten entdeckt werden. Dies geschieht durch den Einsatz von Programmiersprachen wie Python oder R, die fertige Packages bzw. Code-Bibliotheken bereitstellen, um Algorithmen zu implementieren. Die Ergebnisse der erzeugten Modelle werden im Anschluss auf ihre Genauigkeit getestet und manchmal mithilfe einer Grafik dargestellt, die das Verhältnis von richtig zu falsch erkannten Werten des Modells ausweist.

Data Science: gleiches Ablaufmodell, verschiedenste Anwendungsfälle

Kurzum folgt die Disziplin Data Science einer festen Abfolge von Schritten, die immer gleich ist. Zuerst müssen Daten gesammelt und aufbereitet werden. Danach werden Modelle auf Basis dieser Daten trainiert. Zum Schluss werden die Aussagekraft dieser Modelle und ihre Ergebnisse getestet. All dies geschieht mithilfe von Code, der an die verschiedensten Anwendungsfälle und Datenarten angepasst werden kann. Diese Anwendungsfälle rangieren von Customer Analytics für die Verbesserung von Produkten und Services über Fraud Detection für die Aufdeckung von Betrugsfällen und Anomalien in Transaktionen zu Predictive Maintenance, wo Wartungsbedarfe und Defekte von Maschinen vorausgesagt werden.

Wie wird man zum Data Scientist?

Mittlerweile gibt es dedizierte Studiengänge für Data Science, aber der spezialisierte Nachwuchs wird für die kommenden Jahre voraussichtlich nicht ausreichen, um die Stellenangebote auf dem Arbeitsmarkt zu decken. So sollten Quereinsteiger zumindest mittelfristig gesehen keine Probleme haben, einen Job in dieser Branche zu finden und auch darüber hinaus gute Chancen besitzen, mit anderen Bewerbern mitzuhalten, gesetzt den Fall, die Skills sind vergleichbar.

Versucht man als Quereinsteiger Data Scientist zu werden, ist in fast allen Fällen der erste Schritt einAbschluss in einem technisch-naturwissenschaftlichem Studiengang. Das kann mit einem Bachelor bereits erledigt sein, wird aber oft noch mit einem Master abgerundet. Im Anschluss folgt der Aufbau von spezialisiertem theoretischem Wissen über wichtige Algorithmen und Methodiken sowie das notwendige Programmier-Know-How. Durch das Besuchen von Kursen und dem Erwerben von Zertifikaten können nötige Schlüsselkompetenzen wie Kenntnisse über SQL, R und Python, Machine Learning und Datenvisualisierung aufgebaut werden.

Wissen aus verwandten Disziplinen wichtig

Data Science ist aber bereits seit längerem als Disziplin kein Waisenkind mehr. Neben Programmierfähigkeiten und fachlichem Wissen werden immer mehr auch Kenntnisse über Middle-und Hardware benötigt und praktisches Know-how darüber, wie APIs und Frameworks zur Konsolidierung von Daten entwickelt werden können. Diese eigentlich der Disziplin Data Engineering zugehörige Expertise ist deshalb so wichtig, weil es nicht mehr nur um das Erzeugen von Machine-Learning-Modellen geht, sondern auch darum, diese in Echtzeit zu betreiben und zwar so, dass Entscheidungen aufgrund von aktuellen Daten getroffen werden können. Data Engineers sind für die Erstellung dieser automatisierten Pipelines genauso verantwortlich wie für ihre Optimierung und konsistente Performanz.

Es ist zum Beispiel nicht gut, wenn eine Produktionshalle von der Vorhersage von Bauteilmengen für den Zulieferer abhängig ist, und dann plötzlich die Pipeline nicht mehr richtig funktioniert. Einerseits sind datengetriebene Geschäftsprozesse dafür bekannt effizient zu sein. Andererseits sind sie von einer jederzeit funktionierenden Infrastruktur und sorgfältig erzeugten und versionierten Machine-Learning-Modellen abhängig. Umso wichtiger werden in diesem Kontext Hard- und Softwareanforderungen sowie die Themen IT-Sicherheit und Datenschutz. Somit lohnt es sich auch als Data Scientist, grundlegende Kenntnisse anderer fachlich angrenzender Disziplinen zu besitzen.

Woraus besteht der Alltag eines Data Scientists?

Wie schon gesagt beschäftige ich mich mit Daten in allen möglichen Variationen. Manchmal stellen potenzielle Kunden anonymisierte Datenbestände zur Verfügung, damit versteckte Muster oder mögliche Use Cases gefunden werden können. Oft können aber auch auf öffentlich zugänglichen Plattformen wie Kaggle frei verfügbare Datensätze aus allen möglichen Branchen und zu allen möglichen Anwendungsfällen gefunden werden, mit denen Proof of Concepts entwickelt oder Methodiken geübt werden können.

Neben der Aufbereitung der Daten ist der wichtigste Schritt die Wahl eines geeigneten Algorithmus. Nicht des geeignetsten, weil häufig mehrere Verfahren für den Einsatz in Frage kommen und vergleichbare Ergebnisse liefern. Je nachdem, was das Ziel des zugrundeliegenden Use Cases ist und was für Daten vorliegen, werden verschiedene Gruppen von Verfahren eingesetzt.

Bei der Fraud Detection geht es zum Beispiel um die Identifikation von Betrug, wo das Ziel sein kann, alle vorliegenden Datensätze in betrügerische und nicht-betrügerische Transaktionen einzuteilen. Dies geschieht dann durch die Nutzung von sogenannten Klassifizierungsalgorithmen, ist aber nur dann möglich, wenn zumindest zu einem Teil der Datensätze die Information mitgeliefert wird, ob sie betrügerisch waren, damit das Modell die Unterscheidung erlernen kann. Liegen derlei Informationen zu den Transaktionen nicht vor, sind Klassifizierungsalgorithmen nicht einsetzbar und es wird versucht, mithilfe von Clustering-Verfahren Muster zu erkennen und Anomalien z.B. in Finanzströmen zu finden.

Warum ist Data Science als Berufsfeld interessant?

Jeder, der sich gern mit Zahlen beschäftigt und sich dafür begeistern kann, versteckte Zusammenhänge zu finden und ein bisschen Detektivarbeit zu leisten, wird sich im Bereich Data Science gut aufgehoben fühlen. Die verschiedensten Anwendungsgebiete und Use Cases halten das Thema frisch und die vielen Möglichkeiten, die sich aus dem technologischen Fortschritt ergeben, erzeugen einen starken Anreiz, immer Neues auszuprobieren. Kurzum, langweilig wird es einem nicht. Da es aufgrund des Fachkräftemangels vergleichsweise einfach ist, sich gegen spezialisiert Studierende durchzusetzen und man als Data Scientist mittlerweile an vielen Ecken und Enden gebraucht wird, lohnt sich zumeist auch die Bezahlung.

Skills wie Statistik, Machine Learning und Datenvisualisierung werden heute in fast allen Unternehmen benötigt, wo große Datenmengen generiert werden, sei es in der Produktion, im Vertrieb oder bei der Kundenpflege. Und mittlerweile gibt es durch den Einsatz von Cloud-Lösungen auch genügend technische Ressourcen, um Data Science für kleine und mittelständische Firmen zu betreiben. Data Scientists sind deshalb bereits seit einigen Jahren auf dem Arbeitsmarkt sehr gefragt und haben in der Regel die Möglichkeit, sich ihre Jobs auszusuchen.

Zukünftig gesehen, werden die Menge von Daten und die Performanz der zur Verarbeitung notwendigen technischen Ressourcen weiter exponentiell zunehmen. In Hinblick auf die sich dazu entwickelnden datengetriebenen Geschäftsprozesse werden Disziplinen wie Data Science und Data Engineering nur noch mehr zum integralen Bestandteil von erfolgreichen Unternehmen.

Über Holisticon

Die Holisticon AG ist ein Management- und IT-Beratungsunternehmen mit Hauptsitz in Hamburg. Hier arbeiten herausragende Köpfe, Individualisten, Charaktere und Pioniere. Die alle dasselbe mutige Ziel verfolgen: ehrliche technologische und methodische Management- und IT-Beratung auf möglichst hohem Niveau zu bieten – und dieses Level zu halten. Und die dabei so lässig wie neugierig bleiben.

Mehr Informationen zu Holisticon, unserer Arbeitsweise und freien Stellen findet ihr hier.

Wenn ihr Grundlagen in Data Science lernen wollt schaut doch mal bei unseren Kursen (zum Beispiel den Python Kursen) vorbei.