Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.
Du bist ebenfalls Data Scientist oder interessierst dich für Daten, M...
#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!
Zusammenfassung
Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme
Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden
Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python
Features: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und Ausfallsicherheit
Ausblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links)
Links
Apache Kafka https://kafka.apache.org/
Confluent https://www.confluent.io/
Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.html
reticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.html
R Paket kafka auf GitHub https://github.com/INWTlab/r-kafka
Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafka
nats https://nats.io/
Azure EventHub https://azure.microsoft.com/de-de/products/event-hubs
Redpanda https://www.redpanda.com/
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
21:02
#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte
Zusammenfassend unsere Must-Haves:
Datenbank / DWH
Lösung zur Datenvisualisierung
Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web)
Versionskontrolle / CI/CD
Deployment-Lösung
Trennung von Entwicklungs- und Produktivumgebung
Monitoring für Modell & Ressourcen
Verwandte Podcast-Episoden
Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte
Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh
Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists?
Folge #21: Machine Learning Operations (MLOps)
Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack
Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida
Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Technologien & Tools
Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash
Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm
Versionskontrolle: GitHub, GitLab, Azure DevOps
CI/CD: GitHub Actions, GitLab CI, Jenkins
Deployment: Kubernetes, Docker, Helm, ArgoCD
Experiment-Tracking: MLFlow, DVC, Tensorboard
Monitoring: Prometheus, Grafana, AWS Cloudwatch
--------
42:04
#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft!
***Links***
#4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d
https://de.wikipedia.org/wiki/Hype-Zyklus
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
41:44
#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen
Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.
***Links***
#14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7
#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe
#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784
https://helm.sh/
https://kubernetes.io/
https://argo-cd.readthedocs.io/en/stable/
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
18:00
#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget
Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft.
Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen.
***Links***
#52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4
Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/
https://delta.io/
https://ibis-project.org/
https://duckdb.org/
Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.
Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.