Background sur la stratégie de modélisation:
Comme tu le sais ou va découvrir, le gros du travail en modélisation c’est l’organisation de données. Par contre, les données de milliers de chartes croissances d’enfants pour toutes leurs mesures de tailles entre 0-19 ans ne sont pas des données publiques. Par conséquent on va devoir générer les données nous-mêmes. C’est donc une belle opportunité de plonger brièvement dans l’univers des données synthétiques.
Une donnée synthétique est tout simplement une mesure qui n’est pas obtenue en observant le phénomène directement. Il existe plusieurs méthodes de les créer, mais c’est souvent difficile de les générer pour bien représenter avec exactitude la réalité. Sur papier c’est très utile puisque des logiciels de prédictions pourraient être entraînés sans jamais avoir vu les données réels. Si cela t’intéresse, je recommande ce récent papier, qui tente de créer un algorithme pour créer des données synthétique dans le domaine de la santé utilisant un modèle de Markov caché.
Dans notre cas, on va pas trop se casser la tête. Nous allons tout simplement construire une population de n individus qui suivent parfaitement la distribution sur la courbe de croissance. Puisque qu’il existe pour chaque valeur sur l’axe des x (âge) une distribution normale en y (taille) , nous avons qu’à créer un nuage de poids à chaque tranche d’âge qui suit cette distribution.
Visuellement: