Was sind Daten?
kontextfreie Angaben, die aus interpretierten Zeichen/Signalen bestehen
Welche Arten des Lernens gibt es?
- Überwachtes Lernen (System bekommt Eingabe- und Ausgabewerte)
- Unüberwachtes Lernen (System bekommt nur Eingabewerte)
- Bestärkendes Lernen
Was sind analytische Informationssysteme und wozu dienen sie?
dienen der Informationsversorgung und funktionalen Unterstützung betrieblicher Fach- und Führungskräfte zu Analysezwecken
DWH + Data Mining + betriebswirtschaftliche Anwendungen
DWH + Data Mining + betriebswirtschaftliche Anwendungen
Was ist BI?
analytischer Prozess, der Unternehmens- und Wettbewerbsdaten in handlungsgerichtetes Wissen transformiert
(Wissen der betrachteten Handlungsfelder (intern/extern))
(Wissen der betrachteten Handlungsfelder (intern/extern))
Was sind Kennzahlen? Wie können sie unterschieden werden?
quantitative Informationen, die über unternehmensinterne oder -externe Sachverhalte Auskunft geben
Objektivität, Zeitorientierung
Objektivität, Zeitorientierung
Welche Vorteile bietet ein DWH?
- Datenintegration liefert konsistente Daten für Management
- Aufnahme der Systemlast für analytische Abfragen
- historisierende Datenhaltung ermöglicht Zeitreihenbetrachtung
Was ist ein DWH?
subjektorientierte, integrierte, beständige und zeitvariante Sammlung von Daten
Was bedeutet Subjektorientierung?
Daten zu einem Subjekt werden in einer Tabelle gespeichert → weniger Zugriffe (dafür größere Datenbank)
Was bedeutet zeitliche Varianz eines DWHs?
DWHs enthalten auch historische Daten → Veränderung von Daten innerhalb von historischen Zeiträumen darstellbar
Was bedeutet Beständigkeit eines DWHs?
Daten werden niemals überschrieben oder gelöscht
Was bedeutet Integration eines DWHs?
Unternehmensdaten aus verschiedenen Informationssilos werden zusammengeführt
Was kennzeichnet ein zentrales Enterprise DWH?
Single Point of Truth:
- integrierte und harmonisierte Sicht
- organisationsweit, deckt alle Bereiche ab
- Daten werden mit langer Historie gespeichert
- sehr großes Datenvolumen
- denormalisierte Daten
- Daten können aggregiert sein
Was sind Data Marts?
- logisch gruppierte Datenauszüge
- eher kleinere Datenmengen
- für spezielle Analysebedürfnisse
Welche verschiedenen Hub and Spoke Architekturen gibt es?
- Zentrales DWH mit abhängiger Data Mart-Schicht
- Zentrales DWH mit unabhängiger Data Mart-Schicht
- Unabhängige Data Marts
- Data Mart Bus mit Conformed Dimensions
Was ist die Hub & Spoke - Architektur?
- zwischen operativen Quellsystemen bzw. externen Daten, Data Warehouses und Data Marts → Standardisierung des DWHs→ Datenquellen werden zusammengeführt, bereinigt und historisiert
Wie sieht die Referenzarchitektur eines DWHs aus?
Welche Speichermethoden gibt es im DWH?
Operational Data Store
Multidimensional (OLAP Cube)
- normalisierte und harmonisierte Daten
- hohe Detailtiefe
- geringer zeitlicher Umfang
- direkter Zugriff möglich
Multidimensional (OLAP Cube)
- X-dimensionale Würfelstruktur
- Speicherung der Daten in Aggregationsstufen
- ermöglicht verschiedene Sichten auf die Daten
Was ist OLAP?
- On-Line Analytical Processing
- Software-Technologie → schnelle, interaktive, vielfältige Zugriffe auf relevante und konsistente Informationen
- dynamische und multidimensionale Analysen auf historischen, konsolidierten Datenbeständen
Wie unterschieden sich OLTP und OLAP?
OLTP | OLAP | |
Daten | Operativ, flüchtig, detailliert | Analytisch verdichtet |
DB-Schema | Normalisiert | Multidimensional |
Konventionen | Unterschiedliche Schlüssel | Einheitliche Schlüssel |
Aktualität der Daten | Nur aktuelle | Historische, verdichtete |
Was sind Anforderungen an OLAP-Systeme nach Codd?
- Multidimensionale konzeptionelle Perspektiven
- Generische Dimensionalität
- Dynamische Handhabung dünn besetzter Matrizen
- Unbeschränkte dimensionsübergreifende Operationen
- Intuitive Datenanalyse
- Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen
Welche OLAP-Operationen gibt es?
- Slicing: Ausschneiden von Scheiben
- Dicing: Erzeugung kleinerer Würfel
- Drill-Down/Drill-Up: Speicherung in verschiedenen Aggregationsebenen (Zoom)
- Drill-Through: horizontal werden weitere Würfel ausgewertet
Was ist rOLAP? Welche Schemata gibt es?
Speicherung von multidimensionalen Datenstrukturen in relationaler DB
Star Schema, Snowflake Schema, Galaxy Schema
Star Schema, Snowflake Schema, Galaxy Schema
Was ist mOLAP? Welche Vorteile und Nachteile hat es?
- Datenwürfel wird nativ abgespeichert
- hochoptimierte, meist proprietäre Datenstruktur
- Vorteil: hohe Performance
- Nachteil: Datenmenge begrenzt
Was ist hOLAP?
- übernimmt Vorteile von rOLAP und mOLAP
- für grobe Informationen: Cube
- für Details: Zugriff auf relationale DB
Was sind horizontale und vertikale Partitionierung?
horizontal (Sharding):
Aufteilung nach Wertebereichen einer Spalte
vertikal:
Aufteilung nach Spalten, Schlüssel müssen in jeder Partition vorhanden sein
Aufteilung nach Wertebereichen einer Spalte
vertikal:
Aufteilung nach Spalten, Schlüssel müssen in jeder Partition vorhanden sein
Was ist der ETL-Prozess?
Extrakt: Laden von Daten aus Quellsystem
Transform: Umwandlung in OLAP-Strukturen
Load: Laden in Zielstrukturen
Transform: Umwandlung in OLAP-Strukturen
Load: Laden in Zielstrukturen
Was ist Historisierung?
Festhalten der zeitlichen Entwicklung der Daten bei Speicherung in einer Datenbank
Was sind Metadaten? Welche Kategorien gibt es?
- Daten, die Daten, Strukturen und Prozesse beschreiben
- technische/fachliche/Metadaten aus dem DWH-Betrieb
Wie ist ein DWH-Projekt aufgebaut?
Blueprinting → Design 1 → Design 2 → Build → Testing → Release
Welche Reportingarten gibt es?
- Enterprise Reporting
- Dashboards
- Ad-Hoc Reporting
- Explorativ
Was ist Enterprise Reporting?
- für die Verteilung von Berichten an große Nutzerkreise
- Erstellung von hoch formatierten Reports in einem professionellen Layout
- Nutzung z.B. für Management-, Legal- oder Formularreporting
Was ist Ad-Hoc Reporting? Wie unterscheidet sich das explorative Reporting?
- detaillierte Einblicke in Geschäftsfragen
- Berichtserstellung durch Fachbereichsnutzer
- Post-Event
explorativ:
- komplett uneingeschränkte Auswahl von Daten
- Pre-Event
Was ist Informationsmanagement?
Informationen sollen den Bedarfsträgern zur richtigen Zeit und in der richtigen Form bereitgestellt werden
Was ist individuelle Personalisierung, welche Arten gibt es?
- auf einzelne Nutzer zugeschnitten
- explizit: Nutzer legt aktiv fest, wie Informationen aufbereitet werden (Aufriss, Layout, Design)
- implizit: Nutzung durch Nutzer wird durch das System aufgezeichnet, häufige Nutzungsmuster werden erkannt und bei Aufruf des Berichts angewendet
Welche Berichtsverteilungsarten gibt es?
- zeitgesteuertes Standardreporting
- ereignisgesteuertes Standardreporting (regelmäßiges Ereignis-/Ausnahmereporting)
Was ist Visualisierung? Welche Aufgaben hat sie?
expressive und effektive Darstellung von Daten und den darin enthaltenen Informationen
- Werte ermitteln
- Filtern
- abgeleitete Werte berechnen
- Sortieren
- Intervalle ermitteln
Wie ist der Prozess der Implementierung eines Reportings?
- Anforderungsaufnahme
- Ermittlung des Toolmix
- Implementierung der Reports
Welche Richtlinien sind bei Reportingprojekten einzuhalten?
- BI-Strategie beginnt bei Geschäftsanforderungen, nicht beim DWH
- zuerst werden Anforderungen und gewünschte Ergebnisse definiert
- Anwendungsfälle werden nacheinander abgearbeitet
- Zuhören
Was sind häufige Probleme analytischer Informationssysteme?
- Unzureichende Abfragezeiten
- Fehlende Flexibilität
- Hohe Komplexität
- Unbefriedigende Änderungsgeschwindigkeit
- Kosten
Was sind Schlüsseltechnologien zur Beschleunigung von Datenbanken früher und heute?
Früher
Heute
- Indizierung
- Aggregation
Heute
- In-memory Datenhaltung
- spaltenorientierte Speicherung
- Partitionierung
- MapReduce
- optimierte Hardware
Was ist das Grundprinzip von In-Memory?
- Daten werden direkt vom RAM in CPU-Cache gelesen
- anschließend werden Berechnungen durchgeführt
- kein Lesen von der Festplatte
Was ist Column Store, was ist der Vorteil?
- Datensätze werden spalten- statt zeilenweise gespeichert
- Datenbank kann präziser zugreifen → höhere Performance
- geeignet für OLAP-Abfragen (kleine Anzahl sehr komplexer Abfragen über alle Datensätze)
Was sind die fünf Vs der Big Data?
Volume (Datengröße)
Velocity (Geschwindigkeit der Veränderung)
Variety (verschiedene Formen von Datenquellen)
Veracity (Unsicherheit der Daten)
Value (Nutzen)
Velocity (Geschwindigkeit der Veränderung)
Variety (verschiedene Formen von Datenquellen)
Veracity (Unsicherheit der Daten)
Value (Nutzen)
Welche Datenquellen gibt es für Big Data?
- von Menschen generiert
- Geschäftsdaten
- von Maschinen generiert
Aus welchen Technologieebenen besteht ein Big Data System?
- Anwendungen
- Interaktive Analysen
- Verarbeitung
- Speicher
- Infrastruktur
Was ist NoSQL?
- Speicherung von Daten außerhalb eines relationalen Modells
- Vernachlässigung der Konsistenz → Verfügbarkeit und Ausfalltoleranz
Was ist MapReduce?
- map: ein Problem wird in spezifische Teilprobleme zerlegt, jedes davon ergibt Zwischenergebnis
- reduce: fasst Zwischenergebnisse zusammen und erzeugt Endergebnis
- parallele Ausführung → ein großes Problem kann schnell gelöst werden
Wie unterscheiden sich Big Data Systeme von traditionellen RDBMS?
Big Data | Traditionelles RDBMS | |
Datenvolumen | Petabytes | Gigabytes |
Zugriff | Batch | Interaktiv und Batch |
Struktur | Dynamische Schemata | Statische Schemata |
Integrität | Gering | Hoch |
Skalierbarkeit | Linear | Non-linear |
Welche Formen gibt es beim Lesen aus einem Datenstrom?
- sliding windows: ein Fenster, das mit Datenstrom mitläuft
- time-based window: Länge wird durch Zeitspanne definiert
- semantic windows: Fenster, das durch Dateninhalt bestimmt wird
Aus was besteht Advanced Analytics?
- Data Mining
- Predictive Analytics
- Advanced Analytics
Was ist Data Mining?
Prozess, um sinnvolle Korrelationen durch die Verarbeitung von großen Datenmengen zu identifizieren
Was ist Predictive Analytics?
nutzt statistische Analysen, um zukünftiges Verhalten vorherzusagen
Was ist Advanced Analytics?
analyisert strukturierte und unstrukturierte Daten mit fortgeschrittenen quantitativen Methoden, um Einblicke zu gewinnen, die mit klassischer BI nicht auffindbar wären
Wie funktioniert Predictive Analytics?
Auswahl des Algorithmus
→ Erstellung von Trainingsdaten
→ Identifikation von Startparametern
→ Kontinuierliche Optimierung
→ Erstellung von Trainingsdaten
→ Identifikation von Startparametern
→ Kontinuierliche Optimierung
Was sind die Aufgaben von Machine Learning?
- Erkennung & Verarbeitung von Audio- und Bildsignalen
- Synthetisierung von durch Mesnchen verarbeitbaren Informationen
Was ist das Prinzip der Partitionierung? Was ist ihr Ziel?
- Zeilen/Spalten einer logischen Tabelle werden in mehreren physikalischen Tabellen gespeichert
- Größe der Originaltabelle wird verkleinert
- Performanceverbesserung
Kartensatzinfo:
Autor: ronjabertsch
Oberthema: Business Intelligence
Thema: Business Intelligence
Veröffentlicht: 02.07.2017
Schlagwörter Karten:
Alle Karten (58)
keine Schlagwörter