Qu'est-ce que la distribution hypergéométrique?
La distribution hypergéométrique décrit la probabilité de certains événements lorsqu'une séquence d'éléments est tirée d'un ensemble fixe, tel que le choix de cartes à jouer dans un deck. La principale caractéristique des événements qui suivent la distribution de probabilité hypergéométrique est que les éléments ne sont pas remplacés entre les tirages. Une fois qu'un objet particulier a été choisi, il ne peut plus être choisi. Cette fonctionnalité est très importante lorsque vous travaillez avec de petites populations.
Les auditeurs d’évaluation de la qualité utilisent la distribution hypergéométrique pour analyser le nombre de produits défectueux dans un groupe donné. Les produits sont mis de côté après avoir été testés car il n'y a aucune raison de tester le même produit deux fois. Ainsi, la sélection est faite sans remplacement.
Les probabilités de poker sont calculées à l'aide de la distribution hypergéométrique, car les cartes ne sont pas brassées dans le jeu au sein d'une main donnée. Au début, par exemple, un quart des cartes d'un jeu standard sont des piques, mais la probabilité de recevoir deux cartes et de les trouver toutes les deux est de 1/4 * 1/4 = 1/16. Après avoir reçu le premier pique, il reste moins de pelles dans le jeu, de sorte que la probabilité d'être traité avec un autre pique n'est que de 12/51. Par conséquent, la probabilité de recevoir deux cartes et de les trouver toutes les deux est de 1/4 * 12/51 = 1/17.
Les objets ne sont pas remplacés entre les tirages. La probabilité de scénarios extrêmes est donc réduite pour une distribution hypergéométrique. On peut comparer le fait de recevoir une carte rouge ou noire d'un jeu standard. Une pièce de monnaie juste tombera sur des «têtes» la moitié du temps, et la moitié des cartes d'un jeu standard sont noires. Pourtant, la probabilité d'obtenir cinq têtes consécutives lors du tirage d'une pièce est supérieure à la probabilité de recevoir une main de cinq cartes et de les trouver toutes comme des cartes noires. La probabilité de cinq têtes consécutives est de 1/2 * 1/2 * 1/2 * 1/2 * 1/2 = 1/32, soit environ 3%, et la probabilité de cinq cartes noires est de 26/52 * 25 / 51 * 24/50 * 23/49 * 22/48 = 253/9996, soit environ 2,5%.
L'échantillonnage sans remplacement réduit la probabilité de cas extrêmes, mais n'affecte pas la moyenne arithmétique de la distribution. Le nombre moyen de têtes attendu lorsqu’une pièce est lancée cinq fois est de 2,5, ce qui correspond au nombre moyen de cartes noires escompté dans une main de cinq cartes. Tout comme il est très peu probable que les cinq cartes soient noires, il est également improbable qu’elles ne le soient pas. Ceci est décrit en langage mathématique en disant que le remplacement réduit la variance sans affecter la valeur attendue d'une distribution.