Knowledge Pyramid (discerning Data from Information)
Entscheidung :: Aktionen -> Actionable Knowledge
Pragmatics ^- Knowledge -> Verknüpfte Informationen
Semantics ^- Informationen -> Interpretierbare Daten
Syntax: ^- Daten --> Character Strings
^- Zeichen / Buchstabe -> alpha-/numeric char
Daten -> Informationen (wähle relevante Daten)
Informationen -> Wissen (kumuliert & analysiert mittels analytical tools)
Wissen -> Aktion (Formuliere ein Plan of Action für Lösung eines Business Problems)
Pragmatics ^- Knowledge -> Verknüpfte Informationen
Semantics ^- Informationen -> Interpretierbare Daten
Syntax: ^- Daten --> Character Strings
^- Zeichen / Buchstabe -> alpha-/numeric char
Daten -> Informationen (wähle relevante Daten)
Informationen -> Wissen (kumuliert & analysiert mittels analytical tools)
Wissen -> Aktion (Formuliere ein Plan of Action für Lösung eines Business Problems)
Modelle von Data Science
Mathematisch (alle relevanten Variablen und Beziehungen können identifiziert werden, optimale Lösung kann abgeleitet werden vom Modell)
Datengetrieben (empirisch) nicht alle Variablen / Beziehungen identifizierbar (mittels historische transaktionbale daten mit Verwendung von Data Mining)
Datengetrieben (empirisch) nicht alle Variablen / Beziehungen identifizierbar (mittels historische transaktionbale daten mit Verwendung von Data Mining)
Definition Data Science & Data Mining
Data science: Sammlung fundamentaler Prinzipien der Extraktion von Wissen aus Daten unterstützt
(Daten in wirkliche Werte übersetzen, beinhaltet extraction, preparation, exploration, transformation, sorage & retrieval, computing, mining & learning, explanation & prediction & exploration of results - berücksichtigt ethical, social, legal & business aspects)
Data Mining:
Extraktion von Wissen aus Daten mittels Tools / Technologien welches Prinzipien berücksichtigt)
(Daten in wirkliche Werte übersetzen, beinhaltet extraction, preparation, exploration, transformation, sorage & retrieval, computing, mining & learning, explanation & prediction & exploration of results - berücksichtigt ethical, social, legal & business aspects)
Data Mining:
Extraktion von Wissen aus Daten mittels Tools / Technologien welches Prinzipien berücksichtigt)
Data Warehouse designs
Bottom up: Begin with datamarts, dann Transformation in global data models & integrate in central DWH, minimierung redundancy & inconsistency)
Top Down: Begin design Prozess mit normalisiertem Enterprice data warehouse mit Data im high level of detail (erstelle Data marts)
Parallel (hybrid): hub & "spoke" architecture
Top Down: Begin design Prozess mit normalisiertem Enterprice data warehouse mit Data im high level of detail (erstelle Data marts)
Parallel (hybrid): hub & "spoke" architecture
DWH Architekturen Vor&Nachteile
Centralized: + weniger redundanz + billigere Hardware
-wenig möglichkeiten für Modularisierung -entwicklung zu komplex -user friendliness & efficiency nur für kleine Unternehmen ausreichend
hierarchische: +data marts werden koordiniert vom ED(ata)WH +extrahiert, integriert und verteilt daten nach bedarf -Berichtigung der Attribute nötig (customer=person=client??)
enterprise data mart architecture: +central DWH replaced & nurnoch coordinated data marts +basiert auf verteiltem datenbankensystem +fokus auf maximierung von interner Modulierung & minimierung intermodularity von data marts
-high efforts for coordination (load, access/data model bzw metadata)
-wenig möglichkeiten für Modularisierung -entwicklung zu komplex -user friendliness & efficiency nur für kleine Unternehmen ausreichend
hierarchische: +data marts werden koordiniert vom ED(ata)WH +extrahiert, integriert und verteilt daten nach bedarf -Berichtigung der Attribute nötig (customer=person=client??)
enterprise data mart architecture: +central DWH replaced & nurnoch coordinated data marts +basiert auf verteiltem datenbankensystem +fokus auf maximierung von interner Modulierung & minimierung intermodularity von data marts
-high efforts for coordination (load, access/data model bzw metadata)
(online transaction processing) OLTP vs OLAP (online analytical processing)
X | OLTP | OLAP |
data | operational transactions | management analysis data |
user friendliness | low | high |
granularity | microscopic | macroscopic |
up to date? | current | historic snapshots |
main operations | update read/write | query & calculate (read only) |
storage effieciency | high | lower |
tools | sql | tools |
OLAP Funktionen
Verschiedene Repräsenatationen
Absolut&Relativ (%)
3D Analysen
Verschiedene Berechnungsoptionen
Special Cube operators:
drilling (detailieren / aggregation entlang dimension)
pivoting bzw rotating (switch rows / columns)
slicing: reduce number dimensions
dicing: cutting parts OUT of cube (filtering)
Absolut&Relativ (%)
3D Analysen
Verschiedene Berechnungsoptionen
Special Cube operators:
drilling (detailieren / aggregation entlang dimension)
pivoting bzw rotating (switch rows / columns)
slicing: reduce number dimensions
dicing: cutting parts OUT of cube (filtering)
Snowflake Scheme Pro Cons
+aggregierten summentabellen (materialisierte Views) +easy browsing implementation +n:m relations +keine redundanz +effizient für viele unabhängige attribute
-mehrere joins benötigt -mehrere physische tabellen benötigt -höhere lvl von komplexität (etl prozess, maintenance, sql queries)
-mehrere joins benötigt -mehrere physische tabellen benötigt -höhere lvl von komplexität (etl prozess, maintenance, sql queries)
CRISP: Project / Business Understanding
[Verstehen des Problems] das gelöst werden soll, sowie sein Kontext und Anforderung zur Lösung
Entwurf der Lösung ist [Iterativer Prozess] des Erkundens
[Analytische Kreativität] ist wichtig
[Strukturiere das Problem], sodass eins oder mehrere Teilprobleme entstehen, die mittels Klassifikation / Regression,... gelöst werden können
Entwurf der Lösung ist [Iterativer Prozess] des Erkundens
[Analytische Kreativität] ist wichtig
[Strukturiere das Problem], sodass eins oder mehrere Teilprobleme entstehen, die mittels Klassifikation / Regression,... gelöst werden können
CRISP: Data Understanding
Daten sind die [vorhandenen Rohmaterialien] mit der eine Lösung zu generieren ist.
(Historische Daten werden gesammelt um nicht nur das momentane Business Problem zu behandeln)
Schätze [Kosten, Vorteile und Qualität] jeder Quelle
Verbinde Business problem zu einer oder verschiedenen Data mining task (Summarization, Classification, Clustering, Association, Trend Analysis)
(Historische Daten werden gesammelt um nicht nur das momentane Business Problem zu behandeln)
Schätze [Kosten, Vorteile und Qualität] jeder Quelle
Verbinde Business problem zu einer oder verschiedenen Data mining task (Summarization, Classification, Clustering, Association, Trend Analysis)
CRISP: Data Preparation
Daten müssen oftmals geändert bzw. transformiert werden, in
Formen, in denen sie bessere Ergebnisse erbringen
convert to format or different types / remove missing values
Match data mit Anforderungen für Data Mining Techniken
Wähle relevante Variablen
Normalisiere oder Skaliere numerische Variablen
Formen, in denen sie bessere Ergebnisse erbringen
convert to format or different types / remove missing values
Match data mit Anforderungen für Data Mining Techniken
Wähle relevante Variablen
Normalisiere oder Skaliere numerische Variablen
CRISP: Evaluation
Data Mining Ergebnis streng bewerten
(Erörtere ob Ergebnisse Valide und zuverlässig sind)
Stelle sicher, dass das Modell die Business goals (Entscheidungsfindung unterstützt) befriedigt
Stellle Verständlichkeit sicher zu den Stakeholders vom Modell
Entwerfe Experimente für Tests im Live System
Das verhalten kann sich verändern aufgrund des Model Deployments
(Erörtere ob Ergebnisse Valide und zuverlässig sind)
Stelle sicher, dass das Modell die Business goals (Entscheidungsfindung unterstützt) befriedigt
Stellle Verständlichkeit sicher zu den Stakeholders vom Modell
Entwerfe Experimente für Tests im Live System
Das verhalten kann sich verändern aufgrund des Model Deployments
CRISP: Deployment
Modelle werden tatsächlich genutzt* um sich zu rentieren.
(Implementiere ein vorhersagendes Modell in einigen Business Processes)
Trend: Data mining Techniken selbst werden eingesetzt; System baut und testet Modelle automatisch in der Produktion
Involviere Data Scientists in final deployment
(Implementiere ein vorhersagendes Modell in einigen Business Processes)
Trend: Data mining Techniken selbst werden eingesetzt; System baut und testet Modelle automatisch in der Produktion
Involviere Data Scientists in final deployment
DM different from Software Dev
DM closer to research (explorative analysis)
(outcomes far less certain)
(results may change fundamental understanding of problem)
(do not deploy results of dm directly)
DM requires skill that may not be common among programmers
(formulate problems well, analyze results)
(prototype solutions quickly)
(design experiments represent good investments)
(make reasonable assumptions for ill-structured problems)
(outcomes far less certain)
(results may change fundamental understanding of problem)
(do not deploy results of dm directly)
DM requires skill that may not be common among programmers
(formulate problems well, analyze results)
(prototype solutions quickly)
(design experiments represent good investments)
(make reasonable assumptions for ill-structured problems)
Flashcard set info:
Author: TiRoX
Main topic: Business Intelligence
Topic: Definitionen allgemein
School / Univ.: FU Berlin
Published: 27.07.2018
Tags: Rothe
Card tags:
All cards (44)
no tags