Internal Preview! The data shown below is not valid for students! Please refer to the official Module Descriptions at the Examination Office.
Big Data Engineering BDE

General

study semester
4
standard study semester
6
cycle
jedes Sommersemester
duration
1 Semester
SWS
4
ECTS
6
teaching language
Englisch

People

responsible
Prof. Dr. Jens Dittrich
lectures
Prof. Dr. Jens Dittrich

Assessment & Grades

entrance requirements

Programmierung 1, Programmierung 2, Softwarepraktikum oder Projektpraktikum, Mathematik für Informatiker 1, sowie Grundzüge von Algorithmen und Datenstrukturen (jeweils empfohlen).

assessment / exams

Erfolgreiche Teilnahme an den Übungen/Projekt berechtigt zur Teilnahme an der Abschlussklausur.

grade

Wird aus Leistungen in Klausuren, Übungen, und ggf. Projekt ermittelt. Die genauen Modalitäten werden vom Modulverantwortlichen bekanntgegeben.

Workload

course type /weekly hours
  2 SWS Vorlesung
+ 2 SWS Übung
= 4 SWS
total workload
   60 h Präsenzstudium
+ 120 h Eigenstudium
= 180 h (= 6 ECTS)

Aims / Competences to be developed

Die Vorlesung vermittelt grundlegende Kenntnisse über fundamental Konzepte von Datenmanagement und Datenanalyse im Kontext von Big Data und Data Science.

Im Rahmen der Übungen kann während des Semesters ein durchgehendes Projekt durchgeführt. Dies kann zum Beispiel ein soziales Netzwerk (im Stil von Facebook) sein bzw. jedes andere Projekt, in dem Techniken des Datenmanagements eingeübt werden können (z.B. naturwissenschaftliche Daten, Bilddaten, andere Webapplikationen, etc.). Zunächst wird dieses Projekt in E/R modelliert, dann umgesetzt und implementiert in einem Datenbankschema. Danach wird das Projekt erweitert, um auch unstrukturierte Daten verwalten und analysieren zu können. Insgesamt werden so an einem einzigen Projekt alle fundamentalen Techniken gezeigt, die für das Verwalten und Analysieren von Daten wichtig sind.

Content

1 Einführung und Einordnung 
    Einordnung und Abgrenzung: Data Science 
    Wert von Daten: Das Gold des 21. Jahrhunderts 
    Bedeutung von Datenbanksystemen 
    Architekturen: 2-Tier, 3-Tier, etc 
    Was sind eigentlich Daten? 
    Modellierung vs Realität 
    Kosten mangelhafter Modellierung 
    Datenbanksystem nutzen vs selbst entwickeln 
    Positive Beispiele für Apps 
    Anforderungen 
    Literaturhinweise 
    Vorlesungsmodus 

2  Datenmodellierung 
    Motivation 
    E/R 
    Relationales Modell 
    Hierarchische Daten 
    Graphen und RDF 
    Redundanz, Normalisierung, Denormalisierung 
    Objektrelationale DBMS

3  Anfragesprachen 
    Relationale Algebra 
    Hierarchische Anfragesprachen 
    Graphorientierte Anfragesprachen 

4 SQL 
    Grundlagen 
    Zusammenhang mit relationaler Algebra 
    PostgreSQL 
    Integritätsbedingungen 
    Transaktionskonzept 
    ACID
    Sichten (und access control lists) 

5  Implementierungstechniken 
    Übersicht
    vom WAS zum WIE 
    Kosten verschiedener Operationen
    EXPLAIN 
    Physisches Design 
    Indexe, Tuning 
    Datenbank-Tuning 
    Regelbasierte Anfrageoptimierung 
    Kostenbasierte Anfrageoptimierung
    Machine Learning als Anfrageoptimierungstechnik 

6 Zeitliche und räumliche Daten
    als Teil des Schemas 
    as of/time travel
    append-only und Streaming 
    Versioning 
    Snapshotting (Software und OS-basiert)
    Differential Files/LSM et al 
    Publish/Subscribe 
    Indexstrukturen

7 Recovery, Durability, Archivierung 
    Grundproblematik 
    Vergessen vs Komprimieren vs Kondensieren 
    Heiße vs kalte Daten 
    Archivierung 
    Redundanz 
    Implementierungsaspekte 
    UNDO/REDO 
    Logging 

8 Nebenläufigkeitskontrolle 
    Serialisierbarkeitstheorie
    Isolationslevels 
    Verteilte Datenbanksysteme: Sharding, HP, VP, permissioned Blockchains
    Implementierungsaspekte 

9 ETL und Data Cleaning
    Datenbankschnittstellen: JDBC et al 
    Textdatenbanken: CSV, SQlite 
    Data Warehousing 
    Schema Matching 
    Reporting
    Data Cleaning
    Denormalisierung, Caching, Materialisierung
    Workflows 
    ETL und Data Science in Data Science und Machine Learning

10 Big Data 
    Was ist eigentlich Big Data? 
    Big Data vs Privatheit 
    Beispiele: Zusammenführen von Daten 
    Physische Barrieren 

11 NoSQL 
    Key/Value Stores 
    KeyDocument Stores: MongoDB 
    MapReduce 
    Flink 
    Spark 

Literature & Reading

Bekanntgabe jeweils vor Beginn der Vorlesung auf der Vorlesungsseite im Internet.

Additional Information

Dieses Modul wurde früher auch unter dem Namen Informationssysteme geführt. Dieses Modul ist inhaltsgleich mit dem englischsprachigen Modul Big Data Engineering.

Curriculum

This module is part of the following study programmes:

Cybersicherheit BSc: Grundlagen der Informatik
study semester: 4 / standard study semester: 6
Informatik BSc: Grundlagen der Informatik
study semester: 4 / standard study semester: 6
Medieninformatik BSc: Grundlagen der Informatik
study semester: 4 / standard study semester: 6
Lehramtsstudienfach Informatik: Grundmodule
study semester: / standard study semester: 4-8
Data Science and Artificial Intelligence BSc: Grundlagen der Informatik
study semester: 4 / standard study semester: 6