Anwendung Business Intelligence
Operational Database -> Extract, Transform, Load -> Data Warehouse -> Online analytical processing (OLAP) -> Berichterstellung
(Datenerfassung -> Datenbereitstellung -> Informationsentdeckung -> Kommunikation)
(Datenerfassung -> Datenbereitstellung -> Informationsentdeckung -> Kommunikation)
Benefits Business Intelligence
Erhöhte Profitabilität (Differenzierung gute / schechte Kunden)
Besseres CRM (Loyalty / besserer Customer Service)
Geringere Kosten (geringere Operationale Kosten)
Geringere Risiken (Credit / implicit Data)
Besseres CRM (Loyalty / besserer Customer Service)
Geringere Kosten (geringere Operationale Kosten)
Geringere Risiken (Credit / implicit Data)
Benutzbarkeiten (Uses) der Daten in BI (2)
Operationale Benutzung: Daten helfen Business zu bewegen
Strategische Benutzung: Daten helfen Business zu verbessern
Data sollte als strategische Ressource aufgefasst werden (RBV)
Strategische Benutzung: Daten helfen Business zu verbessern
Data sollte als strategische Ressource aufgefasst werden (RBV)
Knowledge Pyramid (discerning Data from Information)
Entscheidung :: Aktionen -> Actionable Knowledge
Pragmatics ^- Knowledge -> Verknüpfte Informationen
Semantics ^- Informationen -> Interpretierbare Daten
Syntax: ^- Daten --> Character Strings
^- Zeichen / Buchstabe -> alpha-/numeric char
Daten -> Informationen (wähle relevante Daten)
Informationen -> Wissen (kumuliert & analysiert mittels analytical tools)
Wissen -> Aktion (Formuliere ein Plan of Action für Lösung eines Business Problems)
Pragmatics ^- Knowledge -> Verknüpfte Informationen
Semantics ^- Informationen -> Interpretierbare Daten
Syntax: ^- Daten --> Character Strings
^- Zeichen / Buchstabe -> alpha-/numeric char
Daten -> Informationen (wähle relevante Daten)
Informationen -> Wissen (kumuliert & analysiert mittels analytical tools)
Wissen -> Aktion (Formuliere ein Plan of Action für Lösung eines Business Problems)
Typisierung von Entscheidungen
Type-1: Entdecke etwas neues mit deinen Daten (Amerikaner kaufen Pop-Tarts / Bier vor Hurricanes)
Type-2: Wiederhole die Entscheidungen in massiver Skala (Predict Customer Churn - wer bekommt Angebot?)
Type-2: Wiederhole die Entscheidungen in massiver Skala (Predict Customer Churn - wer bekommt Angebot?)
Jobs von Data Processing & Engineering
Unterstützen Umgang mit Daten, Sammeln Daten von Operational Databases für Data Warehouses, Akkumulieren historische Daten,
ermöglicht umgang mit Big Data
ermöglicht umgang mit Big Data
Big Data 4 Punkte (VVVV)
Volume (TBs)
Velocity (one time, snapshot, frequency, streams)
Variety (structured, numeric, alpha, text, sound,..)
Veracity richtigkeit (Validation, noise lvl, deception, detection, relevance)
Velocity (one time, snapshot, frequency, streams)
Variety (structured, numeric, alpha, text, sound,..)
Veracity richtigkeit (Validation, noise lvl, deception, detection, relevance)
Nach Data Engineering & Processing?
Data Science -> Finde Informationen mit beschreibenden Eigenschaften und unterstütze "Data-Driven Decision Making"
Modelle von Data Science
Mathematisch (alle relevanten Variablen und Beziehungen können identifiziert werden, optimale Lösung kann abgeleitet werden vom Modell)
Datengetrieben (empirisch) nicht alle Variablen / Beziehungen identifizierbar (mittels historische transaktionbale daten mit Verwendung von Data Mining)
Datengetrieben (empirisch) nicht alle Variablen / Beziehungen identifizierbar (mittels historische transaktionbale daten mit Verwendung von Data Mining)
Definition Data Science & Data Mining
Data science: Sammlung fundamentaler Prinzipien der Extraktion von Wissen aus Daten unterstützt
(Daten in wirkliche Werte übersetzen, beinhaltet extraction, preparation, exploration, transformation, sorage & retrieval, computing, mining & learning, explanation & prediction & exploration of results - berücksichtigt ethical, social, legal & business aspects)
Data Mining:
Extraktion von Wissen aus Daten mittels Tools / Technologien welches Prinzipien berücksichtigt)
(Daten in wirkliche Werte übersetzen, beinhaltet extraction, preparation, exploration, transformation, sorage & retrieval, computing, mining & learning, explanation & prediction & exploration of results - berücksichtigt ethical, social, legal & business aspects)
Data Mining:
Extraktion von Wissen aus Daten mittels Tools / Technologien welches Prinzipien berücksichtigt)
Business Intelligence Def & Umfässt
Benutzt Prozesse, Technologien und Werkzeuge
um Daten in Informationen,
Informationen in Wissen,
Wissen in Pläne zu transformieren.
Umfässt: Data Warehousing, Business Analytics, Inhalt-/Wissensmanagement
um Daten in Informationen,
Informationen in Wissen,
Wissen in Pläne zu transformieren.
Umfässt: Data Warehousing, Business Analytics, Inhalt-/Wissensmanagement
Data Warehouse Definition
Sammlung der Daten ist:
subject-oriented: organisation nach business context
integrated: internal / external quellen in DWH
time-variant: time series analysis möglich
non-volatile: stored persistently & read-only
subject-oriented: organisation nach business context
integrated: internal / external quellen in DWH
time-variant: time series analysis möglich
non-volatile: stored persistently & read-only
Reasons für DWH
Integration vieler Datenquellen
xBessere Basis für Data Mining
xKontrolle über "information flooding" indem operative data
Strukturiert und aggregiert wird
xAnalyse Tools können bei komplexen Fragen angewandt werden
xBessere Basis für Data Mining
xKontrolle über "information flooding" indem operative data
Strukturiert und aggregiert wird
xAnalyse Tools können bei komplexen Fragen angewandt werden
was sind Data marts
analytic databases for a special group of people (departments / workgroups)
Teile des Data Warehouse Systems
Data marts
Central data warehouse
(analytische Datenbasis sicherstellung Daten & Quality; transformed & coordinated zu local data marts)
Enterprise Data Warehouse
(providing data and information for whole company)
Central data warehouse
(analytische Datenbasis sicherstellung Daten & Quality; transformed & coordinated zu local data marts)
Enterprise Data Warehouse
(providing data and information for whole company)
Data Warehouse designs
Bottom up: Begin with datamarts, dann Transformation in global data models & integrate in central DWH, minimierung redundancy & inconsistency)
Top Down: Begin design Prozess mit normalisiertem Enterprice data warehouse mit Data im high level of detail (erstelle Data marts)
Parallel (hybrid): hub & "spoke" architecture
Top Down: Begin design Prozess mit normalisiertem Enterprice data warehouse mit Data im high level of detail (erstelle Data marts)
Parallel (hybrid): hub & "spoke" architecture
DWH Architekturen Vor&Nachteile
Centralized: + weniger redundanz + billigere Hardware
-wenig möglichkeiten für Modularisierung -entwicklung zu komplex -user friendliness & efficiency nur für kleine Unternehmen ausreichend
hierarchische: +data marts werden koordiniert vom ED(ata)WH +extrahiert, integriert und verteilt daten nach bedarf -Berichtigung der Attribute nötig (customer=person=client??)
enterprise data mart architecture: +central DWH replaced & nurnoch coordinated data marts +basiert auf verteiltem datenbankensystem +fokus auf maximierung von interner Modulierung & minimierung intermodularity von data marts
-high efforts for coordination (load, access/data model bzw metadata)
-wenig möglichkeiten für Modularisierung -entwicklung zu komplex -user friendliness & efficiency nur für kleine Unternehmen ausreichend
hierarchische: +data marts werden koordiniert vom ED(ata)WH +extrahiert, integriert und verteilt daten nach bedarf -Berichtigung der Attribute nötig (customer=person=client??)
enterprise data mart architecture: +central DWH replaced & nurnoch coordinated data marts +basiert auf verteiltem datenbankensystem +fokus auf maximierung von interner Modulierung & minimierung intermodularity von data marts
-high efforts for coordination (load, access/data model bzw metadata)
Multidimensionale Daten
Region, Period, Product
structured & tuned für optimale abfragen allgemeiner proprietary systems
gibt noch polystructured models für large & diverse data sets (bspw social media / sensor data)
structured & tuned für optimale abfragen allgemeiner proprietary systems
gibt noch polystructured models für large & diverse data sets (bspw social media / sensor data)
Query Methods
Programmed reports (procedual querying) - stark modifizierbar, programmierer required
Query Language (declarative querying (statementsbasiert) standardisiert und powerful, schwer zu lernen?)
OLAP (flexible ad-hoc querying possible without expertise)
Query Language (declarative querying (statementsbasiert) standardisiert und powerful, schwer zu lernen?)
OLAP (flexible ad-hoc querying possible without expertise)
OLAP Def. FASMI
Fast (analyze queries within secs)
Analysis of (passt zu jeder business logic / statistische analyse)
Shared (mehrere user greifen mit versch rollen & sec req)
Multidimensional (konzeptionelle Sicht der daten)
Information
Analysis of (passt zu jeder business logic / statistische analyse)
Shared (mehrere user greifen mit versch rollen & sec req)
Multidimensional (konzeptionelle Sicht der daten)
Information
(online transaction processing) OLTP vs OLAP (online analytical processing)
X | OLTP | OLAP |
data | operational transactions | management analysis data |
user friendliness | low | high |
granularity | microscopic | macroscopic |
up to date? | current | historic snapshots |
main operations | update read/write | query & calculate (read only) |
storage effieciency | high | lower |
tools | sql | tools |
OLAP Funktionen
Verschiedene Repräsenatationen
Absolut&Relativ (%)
3D Analysen
Verschiedene Berechnungsoptionen
Special Cube operators:
drilling (detailieren / aggregation entlang dimension)
pivoting bzw rotating (switch rows / columns)
slicing: reduce number dimensions
dicing: cutting parts OUT of cube (filtering)
Absolut&Relativ (%)
3D Analysen
Verschiedene Berechnungsoptionen
Special Cube operators:
drilling (detailieren / aggregation entlang dimension)
pivoting bzw rotating (switch rows / columns)
slicing: reduce number dimensions
dicing: cutting parts OUT of cube (filtering)
Pro / Kon von OLAP
+ weitreichend anwendbare methoden
+ exakte Resultate
+ methoden plausibel
-needs lots of user interaction
-regularly lots of computing ressources
-schwer automated datamining routinen in kombi mit OLAP zu nutzen
+ exakte Resultate
+ methoden plausibel
-needs lots of user interaction
-regularly lots of computing ressources
-schwer automated datamining routinen in kombi mit OLAP zu nutzen
Steps multidimensional modeling
Konzeptuelles Daten Modell erstellen
Ableiten des Logischen Daten Modells
Ableiten physischen Datenmodell
Ableiten des Logischen Daten Modells
Ableiten physischen Datenmodell
Facts (= Business measures) def.
numerische Messungen, referenzieren zu wichtigen Tatsachen & repräsentieren sie konkretisiert. bieten informationen über business issues & unterstützen somit decision processes in company
Umgang mit Dimensioen (business measures)
Will Business measures analysieren von verschiedenen Sichten (dimensionen)
"What amount were the sales revenues for harddisks within the past quarter?"
fact: sales revenues
dimensions: range of products, time
"What amount were the sales revenues for harddisks within the past quarter?"
fact: sales revenues
dimensions: range of products, time
logisches modellieren
adaptiert generelles konzeptionelles schema zur bestimmten datenbank technologie (star scheme for RDBMS)
hat business / technische sicht
hat business / technische sicht
Snowflake Scheme Pro Cons
+aggregierten summentabellen (materialisierte Views) +easy browsing implementation +n:m relations +keine redundanz +effizient für viele unabhängige attribute
-mehrere joins benötigt -mehrere physische tabellen benötigt -höhere lvl von komplexität (etl prozess, maintenance, sql queries)
-mehrere joins benötigt -mehrere physische tabellen benötigt -höhere lvl von komplexität (etl prozess, maintenance, sql queries)
starscheme pro cons
+Einfaches intuitives Model,+nicht viele phys. joins, +nicht viele phys. tabellen
-große dimensionstabelle = schlechte Antwortzeiten, -einstellung von aggregierten summentabellen schwierig weil redundanz, -mehrfaches zählen von einträgen durch redundanz
-große dimensionstabelle = schlechte Antwortzeiten, -einstellung von aggregierten summentabellen schwierig weil redundanz, -mehrfaches zählen von einträgen durch redundanz
Data mining (DEF)
Analyse von beobachtenden Datasets um unerwartete beziehungen zu finden und die daten in neuartigen arten zusammenfassen, die sowohl verständlich und nützlich sind
Large Datasets, Observational data, Relationships and similarities, Novel, understandable
Large Datasets, Observational data, Relationships and similarities, Novel, understandable
Data Mining Tasks
Summarization, Classification, Clustering, Association, Trend Analysis
Data Mining Process
Raw Data > (1) Selection > Target data > (2) Preprocessing > preprocessed data > (3) Transformation > transformed data > (4) Data Mining > Patterns > (5) Interpretation/Evaluation > knowledge
Profiling def
Charakterisieren eine typischen Verhaltensweise einer Gruppe / Population (behavior description)
Data reduction / Link prediction
Data Reduktion versucht große Datensets mit kleineren zu ersetzen wobei relevante Informationen beibehalten werden (VERSUCH --> easier processing, loss of info)
Link Prediction versucht Verbindungen zwischen Dataitems herzustellen (bspw social network)
Link Prediction versucht Verbindungen zwischen Dataitems herzustellen (bspw social network)
Supervised Learning
Versucht spezifische Targets (Zielpersonen) näher zu analysieren
sucht nach bestimmten Aussagen wie (Finden wir Gruppen von Kunden die eine höhere wahrschlkt haben ihr Vertrag auslaufen zu lassen?)
-> Klassifikation & Regressionsanalyse
sucht nach bestimmten Aussagen wie (Finden wir Gruppen von Kunden die eine höhere wahrschlkt haben ihr Vertrag auslaufen zu lassen?)
-> Klassifikation & Regressionsanalyse
Unsupervised Learning
Kein Spezifisches Target
"Do our customers naturally fall into different groups?"
-> Clustering, Co-occurence grouping, Profiling
"Do our customers naturally fall into different groups?"
-> Clustering, Co-occurence grouping, Profiling
Unterscheide zw Problemen:
Wird der Kunde den Service X kaufen, wenn Y gegeben?
Welches Service Paket wird ein Kunde kaufen, wenn Y gegeben?
Wieviel Zeit wird Kunde B in unserem Webservice verwenden?
Wird der Kunde den Service X kaufen, wenn Y gegeben?
Welches Service Paket wird ein Kunde kaufen, wenn Y gegeben?
Wieviel Zeit wird Kunde B in unserem Webservice verwenden?
Classification Problem
Classification Problem
Regression Problem
Classification Problem
Regression Problem
CRISP: Project / Business Understanding
[Verstehen des Problems] das gelöst werden soll, sowie sein Kontext und Anforderung zur Lösung
Entwurf der Lösung ist [Iterativer Prozess] des Erkundens
[Analytische Kreativität] ist wichtig
[Strukturiere das Problem], sodass eins oder mehrere Teilprobleme entstehen, die mittels Klassifikation / Regression,... gelöst werden können
Entwurf der Lösung ist [Iterativer Prozess] des Erkundens
[Analytische Kreativität] ist wichtig
[Strukturiere das Problem], sodass eins oder mehrere Teilprobleme entstehen, die mittels Klassifikation / Regression,... gelöst werden können
CRISP: Data Understanding
Daten sind die [vorhandenen Rohmaterialien] mit der eine Lösung zu generieren ist.
(Historische Daten werden gesammelt um nicht nur das momentane Business Problem zu behandeln)
Schätze [Kosten, Vorteile und Qualität] jeder Quelle
Verbinde Business problem zu einer oder verschiedenen Data mining task (Summarization, Classification, Clustering, Association, Trend Analysis)
(Historische Daten werden gesammelt um nicht nur das momentane Business Problem zu behandeln)
Schätze [Kosten, Vorteile und Qualität] jeder Quelle
Verbinde Business problem zu einer oder verschiedenen Data mining task (Summarization, Classification, Clustering, Association, Trend Analysis)
CRISP: Data Preparation
Daten müssen oftmals geändert bzw. transformiert werden, in
Formen, in denen sie bessere Ergebnisse erbringen
convert to format or different types / remove missing values
Match data mit Anforderungen für Data Mining Techniken
Wähle relevante Variablen
Normalisiere oder Skaliere numerische Variablen
Formen, in denen sie bessere Ergebnisse erbringen
convert to format or different types / remove missing values
Match data mit Anforderungen für Data Mining Techniken
Wähle relevante Variablen
Normalisiere oder Skaliere numerische Variablen
CRISP: Modeling
Wende Data Mining Techniken an dem Data Set an.
wähle ein Modell generiere ein test design und baue das Modell und beurteile es anschließend
wähle ein Modell generiere ein test design und baue das Modell und beurteile es anschließend
CRISP: Evaluation
Data Mining Ergebnis streng bewerten
(Erörtere ob Ergebnisse Valide und zuverlässig sind)
Stelle sicher, dass das Modell die Business goals (Entscheidungsfindung unterstützt) befriedigt
Stellle Verständlichkeit sicher zu den Stakeholders vom Modell
Entwerfe Experimente für Tests im Live System
Das verhalten kann sich verändern aufgrund des Model Deployments
(Erörtere ob Ergebnisse Valide und zuverlässig sind)
Stelle sicher, dass das Modell die Business goals (Entscheidungsfindung unterstützt) befriedigt
Stellle Verständlichkeit sicher zu den Stakeholders vom Modell
Entwerfe Experimente für Tests im Live System
Das verhalten kann sich verändern aufgrund des Model Deployments
CRISP: Deployment
Modelle werden tatsächlich genutzt* um sich zu rentieren.
(Implementiere ein vorhersagendes Modell in einigen Business Processes)
Trend: Data mining Techniken selbst werden eingesetzt; System baut und testet Modelle automatisch in der Produktion
Involviere Data Scientists in final deployment
(Implementiere ein vorhersagendes Modell in einigen Business Processes)
Trend: Data mining Techniken selbst werden eingesetzt; System baut und testet Modelle automatisch in der Produktion
Involviere Data Scientists in final deployment
DM different from Software Dev
DM closer to research (explorative analysis)
(outcomes far less certain)
(results may change fundamental understanding of problem)
(do not deploy results of dm directly)
DM requires skill that may not be common among programmers
(formulate problems well, analyze results)
(prototype solutions quickly)
(design experiments represent good investments)
(make reasonable assumptions for ill-structured problems)
(outcomes far less certain)
(results may change fundamental understanding of problem)
(do not deploy results of dm directly)
DM requires skill that may not be common among programmers
(formulate problems well, analyze results)
(prototype solutions quickly)
(design experiments represent good investments)
(make reasonable assumptions for ill-structured problems)
Kartensatzinfo:
Autor: TiRoX
Oberthema: Business Intelligence
Thema: Definitionen allgemein
Schule / Uni: FU Berlin
Veröffentlicht: 27.07.2018
Tags: Rothe
Schlagwörter Karten:
Alle Karten (44)
keine Schlagwörter