Conception du modèlEdit
Le modèle dimensionnel est construit sur un schéma en forme d’étoile ou de flocon de neige, avec des dimensions entourant la table de faits. Pour construire le schéma, le modèle de conception suivant est utilisé :
- Choisissez le processus métier
- Déclarez le grain
- Identifiez les dimensions
- Identifiez le fait
Choisissez le processus métier
Le processus de modélisation dimensionnelle repose sur une méthode de conception en 4 étapes qui permet d’assurer la convivialité du modèle dimensionnel et l’utilisation de l’entrepôt de données. Les bases de la conception reposent sur le processus métier réel que l’entrepôt de données doit couvrir. Par conséquent, la première étape du modèle consiste à décrire le processus métier sur lequel le modèle s’appuie. Cela pourrait par exemple être une situation de vente dans un magasin de détail. Pour décrire le processus métier, on peut choisir de le faire en texte brut ou d’utiliser la notation de modélisation de processus Métier de base (BPMN) ou d’autres guides de conception comme le Langage de modélisation unifié (UML).
Déclarer le grain
Après avoir décrit le processus métier, l’étape suivante de la conception consiste à déclarer le grain du modèle. Le grain du modèle est la description exacte de ce sur quoi le modèle dimensionnel devrait se concentrer. Cela pourrait par exemple être « un article de ligne individuel sur un bordereau de client d’un magasin de détail”. Pour clarifier ce que signifie le grain, vous devez choisir le processus central et le décrire en une phrase. De plus, le grain (phrase) est à partir duquel vous allez construire vos dimensions et votre table de faits. Vous pourriez trouver nécessaire de revenir à cette étape pour modifier le grain en raison de nouvelles informations obtenues sur ce que votre modèle est censé être en mesure de fournir.
Identifier les dimensions
La troisième étape du processus de conception consiste à définir les dimensions du modèle. Les dimensions doivent être définies dans le grain à partir de la deuxième étape du processus en 4 étapes. Les dimensions sont le fondement de la table de faits, et c’est là que les données de la table de faits sont collectées. Généralement, les dimensions sont des noms comme la date, le magasin, l’inventaire, etc. Ces dimensions sont l’endroit où toutes les données sont stockées. Par exemple, la dimension date peut contenir des données telles que l’année, le mois et le jour de la semaine.
Identifier les faits
Après avoir défini les dimensions, l’étape suivante du processus consiste à créer des clés pour la table des faits. Cette étape consiste à identifier les faits numériques qui rempliront chaque ligne de tableau de faits. Cette étape est étroitement liée aux utilisateurs professionnels du système, car c’est là qu’ils ont accès aux données stockées dans l’entrepôt de données. Par conséquent, la plupart des lignes du tableau des faits sont des chiffres numériques, additifs tels que la quantité ou le coût unitaire, etc.
NormalizationEdit de dimension
La normalisation dimensionnelle ou le flocage de neige supprime les attributs redondants, qui sont connus dans les dimensions normalisées normales d’aplatissement. Les dimensions sont strictement réunies en sous-dimensions.
Le flocage de neige a une influence sur la structure des données qui diffère de nombreuses philosophies des entrepôts de données.Table de données unique (fact) entourée de plusieurs tables descriptives (de dimension)
Les développeurs ne normalisent souvent pas les dimensions pour plusieurs raisons :
- La normalisation rend la structure de données plus complexe
- Les performances peuvent être plus lentes, en raison des nombreuses jointures entre les tables
- Les économies d’espace sont minimes
- Les index Bitmap ne peuvent pas être utilisés
- Performances des requêtes. Les bases de données 3NF souffrent de problèmes de performances lors de l’agrégation ou de la récupération de nombreuses valeurs dimensionnelles pouvant nécessiter une analyse. Si vous ne faites que des rapports opérationnels, vous pourrez peut-être vous en sortir avec 3NF car votre utilisateur opérationnel recherchera des données de grain très fines.
Il y a quelques arguments pour expliquer pourquoi la normalisation peut être utile. Cela peut être un avantage lorsqu’une partie de la hiérarchie est commune à plus d’une dimension. Par exemple, une dimension géographique peut être réutilisable car les dimensions client et fournisseur l’utilisent toutes deux.