Introduction et rappels
- Qu'est-ce qu'un système d'information décisionnel ?
- Evolution des exigences de décision dans le contexte actuel.
- Infocentres, SIAD, EIS, Data Warehouse, définition et positionnement.
- Comprendre la finalité de l'approche Data Warehouse.
Les architectures en réponse aux besoins décisionnels
- Les composants principaux, Data Warehouse, ODS ou "staging area", datamarts.
- Les architectures proposées par Kimball et Inmon. Avantages et inconvénients.
- Positionnement du modèle en étoile dans le Data Warehouse selon l'architecture.
- Les phases du cycle de vie d'un Data Warehouse.
- Les critères de qualité d'un Data Warehouse.
- La notion de métadonnée, de référentiel.
Réflexion collective
Définition des critères de qualité d'un Data Warehouse.
Principes et définitions de base sur la modélisation en étoile
- Rappels sur la modélisation des bases de données opérationnelles.
- Différences entre OLTP et OLAP.
- Entités, attributs, cardinalités, formes normales.
- Le principe de la dénormalisation pour concevoir un modèle en étoile.
- Comprendre les notions de fait, dimension et axe d'analyse.
- Les alternatives de modélisation : modèle en flocon, en galaxie.
- Les règles et bonnes pratiques de modélisation en étoile. Proposition alternative de Kortink et Moody.
Etude de cas
A partir d'un cahier des charges d'analyse, identifier les dimensions et faits principaux d'un modèle.
Conception du modèle en étoile
- Organisation et synthèse des interviews utilisateur pour le recueil du besoin.
- Compréhension et identification des processus métiers à modéliser.
- Choix des dimensions d'analyse.
- Création de hiérarchies dans les dimensions.
- Identification des mesures et croisements avec les dimensions.
- Définition de la granularité de l'analyse.
- Définition des règles d'agrégation.
- Utilisation d'outils de modélisation.
Exercice
A partir d'objectifs fournis par la MOA, réaliser un macro-modèle, en reliant les dimensions.
Optimisation fonctionnelle du modèle en étoile
- Gestion de l'évolution des référentiels et du changement des nomenclatures.
- Gestion des dimensions à évolution lente et rapide.
- Les clés de substitution.
- Gestion de la qualité, fiabilité des données.
- Gestion du contexte non renseigné ou inconnu.
- Les dimensions dégénérées.
Echanges
Décrire l'impact d'un changement donné à partir d'un modèle proposé. Optimisation du modèle pour son évolution.
Replacer la modélisation dans le cadre du projet décisionnel
- Présentation de la méthode Kimball et Inmon pour l'organisation du projet.
- Les acteurs et livrables du projet.
- Recueil des besoins métier. Formalisation des exigences techniques et d'organisation.
- Identification des priorités et du périmètre pilote.
- Modélisation des informations.
- Choix de l'infrastructure. Implémentation et recette.
- Déploiement et maintenance du modèle.
- Gestion des historiques.
Jeu de rôle
Conduite d'interview de recueil de besoin pour l'analyse.
Optimisation physique du modèle
- Gestion de la performance des requêtes.
- Estimation de l'espace disque requis pour le modèle.
- Limitation de la taille occupée par une dimension.
- Agrégation directe de certains éléments dans les tables.
- Dimensions techniques pour assurer la traçabilité des faits.
Exercice
Estimations de volumétrie moyenne sur quelques cas d'analyse.
Alimentation du modèle en étoile
- Contraintes des systèmes opérationnels sources.
- Rôle des ODS dans l'alimentation.
- L'organisation des traitements dans la DSA (Data Staging Area).
- Les différents types d'alimentation (delta, stock, complète).
- Les étapes, les règles et les prérequis de l'alimentation.
- Gestion des rejets.
- Gestion des sources différentes pour l'alimentation d'une dimension ou d'un fait.
- ETL, les solutions d'alimentation disponibles sur le marché.
Exercice
Sur une étude de cas, proposer une architecture de chargement : ODS / Staging Area.
Restitution des informations d'un modèle en étoile
- Les différents types d'outils au service de la restitution.
- Le marché des outils de restitution.
- Optimisation du modèle pour l'exploration des données.
- Optimisation des index.
- Utilisation du partitionnement des tables.
Echanges
Présentation de bonnes pratiques pour optimiser le modèle en vue du reporting.
Conclusion
- Ce qu'il faut retenir.
- Les pièges à éviter.
- Pour aller plus loin.