Ce que les curieux astrologiquement devraient savoir sur les valeurs P

L’éditeur et chercheur en astrologie affirme que la valeur p est la seule statistique qui mesure le niveau de certitude qu’une affirmation est étayée par des preuves.

Il y a quelques années, en ces jours grisants où nous pouvions faire le tour du monde en toute simplicité, j’ai atterri à une conférence en Floride. Un chercheur a présenté un graphique impressionnant à l’appui d’une affirmation astrologique. J’ai demandé pourquoi il n’y avait pas de valeur p. La réponse a été un choc : « Les valeurs P sont exagérées et personne ne les utilise de nos jours. »

Les valeurs p sont basées sur des probabilités et, à elles seules, peuvent être un problème (nous y reviendrons plus tard). Mais je pense que les rejeter d’emblée n’est pas la solution. Chez Correlation, l’Astrological Association Journal of Research in Science, nous publions à la fois des recherches qualitatives et quantitatives. Pour ce dernier, la valeur p est critique. C’est la seule statistique qui mesure le niveau de certitude qu’une allégation est étayée par des preuves ou non.

La valeur p représente la meilleure protection contre les artefacts aléatoires qui sont inévitables compte tenu de la grande complexité combinatoire de l’astrologie. Une valeur p répond à des questions clés : la coïncidence apparente entre les résultats et les affirmations astrologiques peut-elle être considérée comme un hasard ? Ou, si le résultat est proche de la signification, un échantillon plus important pourrait-il ajouter une puissance statistique suffisante pour confirmer ou rejeter l’hypothèse nulle ? Compte tenu de la nature controversée de l’astrologie, cette mesure sera le premier point de contrôle d’un critique sur la liste.

Pour la recherche astrologique, la valeur p reste notre métrique de départ la plus importante.

Plus important encore, la signification statistique est la porte d’entrée et non la destination. Au fur et à mesure que la recherche en astrologie progresse et que les résultats avec des corrélations significatives s’accumulent, nous pouvons commencer à analyser l’ampleur de ses effets apparents. Une valeur p ne répond pas à la question « Cette corrélation significative est-elle significative et forte ? » Sur le plan pratique, un astrologue consultant a besoin de savoir s’il est probable que cette corrélation se manifestera lors de consultations personnelles. Ou si cela n’est évident que dans certaines conditions, comme en combinaison avec une autre caractéristique de renforcement du graphique. Pour cela, nous avons besoin de la taille d’effet (ES).

La taille de l’effet est une mesure quantitative de la force d’un phénomène. En astrologie, ce sera principalement la différence entre le groupe observé et le groupe témoin ou les valeurs attendues. Les mesures clés : la taille de l’effet, la taille de l’échantillon et la valeur p sont toutes liées. Le problème avec l’évaluation d’une étude ou la comparaison de différentes études par la seule valeur p est qu’un grand échantillon avec une faible taille d’effet peut avoir la même valeur p qu’un petit échantillon avec une grande taille d’effet. Les études d’astrologie sont généralement un petit échantillon avec une petite taille d’effet. L’ES permet des comparaisons entre des études de tailles différentes.

Alors que de nombreux chercheurs en astrologie sont habiles dans les calculs de valeur p, la taille de l’effet présente un défi. Les méthodes de calcul des ES varient selon les différentes échelles, et la documentation en ligne ne traite pas de certains des tests uniques qui s’appliquent à notre domaine. Néanmoins, les métriques qui accompagnent les valeurs p (telles que ES) rendent non seulement les résultats plus informatifs, elles aident également à vérifier les méthodes.

À l’heure actuelle, la science est empêtrée dans une « crise de reproductibilité ».

Le professeur de Stanford, John Ioannidis, affirme que les simulations indiquent que les résultats de recherche publiés les plus récents sont faux (2005). La plupart ne sont pas répliqués ou ne peuvent pas être répliqués. Cette situation est la plus répandue en médecine et dans les sciences sociales, notamment la psychologie. Les étudiants en sciences, les enseignants et les chercheurs financés sont souvent sous pression pour démontrer une signification statistique. Ne pas atteindre cet étalon-or artificiel diminue leurs perspectives académiques et leur financement.

Un seuil de signification (alpha) de 0,05 signifie qu’un test sur 20 est susceptible d’être significatif par hasard seul. Cela laisse beaucoup de place pour peaufiner les résultats pour obtenir une signification. Cela se fait principalement par ce que l’on appelle le p-hacking, qui implique la pratique de ré-analyser les données de différentes manières pour obtenir un résultat ciblé. L’astrologie est vulnérable à cela car il existe de nombreuses variables et de nombreuses techniques. Par exemple, cela peut se produire avec l’utilisation mixte de plusieurs points célestes (tels que des astéroïdes, des planètes mineures, des nœuds et des étoiles fixes) ou l’invention de nouveaux systèmes. Pour contrer le p-hacking, les tests qui ne suivent pas le principe de parcimonie (l’explication la plus simple est généralement la meilleure) ou évaluent les allégations établies nécessitent un examen plus approfondi.

D’autre part, les chercheurs en astrologie ne sont pas compromis par la pression académique ou commerciale. Personne n’a une réserve infinie de mouches des fruits à échantillonner jusqu’à ce que les résultats correspondent. Même à l’ère du Big Data, de grands échantillons de groupes homogènes avec des données de naissance complètes sont de plus en plus rares avec les lois sur la protection des données.

La plupart des p-hacking entraînent des faux positifs connus sous le nom d’erreurs de type I, mais parfois les échantillons peuvent être manipulés de manière à créer des résultats faussement négatifs – erreurs de type II. Pendant des décennies, le p-hacking a été utilisé par certains critiques de l’astrologie pour démystifier les expériences qui soutiennent l’astrologie lorsque toute critique rationnelle a échoué. Dans ce qui est également connu sous le nom de « boucherie de données », les échantillons sont tranchés et découpés en petites unités pour élever la valeur p jusqu’à l’insignifiance statistique.

Si cela est fait involontairement, c’est une mauvaise utilisation des statistiques car cela va à l’encontre du premier objectif de la recherche, qui est de générer des données mesurables et testables. Si cela est fait intentionnellement, alors toute tentative de « diviser et discréditer » est une dissimulation contraire à l’éthique.

L’expérience Carlson (1985) est toujours considérée comme le test le plus célèbre qui falsifie l’astrologie.

Pourtant, il n’y a aucune explication légitime quant à la raison pour laquelle les résultats de Carlson d’un test ont été divisés en trois échantillons plus petits en utilisant les résultats d’un test différent. En examinant le test, j’ai pris en compte cela comme une erreur d’échantillonnage. Mais étant donné qu’il y a eu un écart de quatre ans entre l’expérience et la publication, il est difficile d’exclure la possibilité que les résultats significatifs (pour l’astrologie) aient été délibérément masqués par du p-hacking.

Dans les études critiques de Dean sur l’extraversion et le névrosisme (1981-86), l’échantillon original de 1 198 participants a été réduit à un ensemble de 288 sujets (34 %) avec des scores de personnalité extrêmes. Ceux-ci ont été subdivisés en huit blocs de 36 sujets. Ce n’est que lorsque les petits échantillons ont été recombinés qu’un modèle en corrélation avec les quatre éléments astrologiques a pu être mesuré à un niveau significatif.

Pour illustrer comment la taille de l’échantillon affecte l’importance d’un résultat, examinons cet exemple simple. Lorsque vous lancez une pièce, vous avez 50:50 de chances de deviner correctement pile ou face. Maintenant, si vous faites dix lancers successifs et constatez que vous avez correctement deviné sept fois, vous pourriez penser que vous vous débrouillez très bien et que vous avez une super capacité de deviner parce que vous avez deviné plus de 50 % de bons. Mais en fait, avec seulement 10 lancers, vous avez en fait une chance sur six d’en obtenir sept juste par hasard, ce qui n’est statistiquement pas significatif. Cependant, si vous augmentez le nombre de lancers à 100 et que vous obtenez 70 lancers corrects (toujours 70 %), les chances d’obtenir autant de lancers corrects sont d’environ une sur 25 000. Et ceci, étant une possibilité si lointaine, ne peut pas être attribué au hasard.

S’il n’y a pas de défauts évidents dans ce résultat hautement significatif, un critique peut tenter de le démystifier en réduisant le nombre de lancers de pièces (la taille de l’échantillon). Cela se fait en divisant les résultats en de nombreux échantillons plus petits et/ou en éliminant la plupart des tirages au sort en utilisant des critères accessoires.

De nos jours, le massacre de données est tout aussi répandu.

Dans Tests of Astrology, les auteurs (Geoffrey Dean et al.) ont passé en revue l’étude de 2005 de Paul Westran sur les aspects natals et progressifs entre 1 300 couples. Ce que les auteurs ne rapportent pas, c’est un résultat de valeur p stupéfiant pour la conclusion clé de Westran, qui était basée sur sept aspects majeurs et mineurs entre le Soleil et la planète Vénus dans les thèmes de naissance comparés natals et progressifs de ces couples. Le Soleil et la planète Vénus ont été impliqués dans la formation d’aspects (angles) positifs ou stimulants beaucoup plus souvent que prévu par hasard au début ou à la fin des relations amoureuses ou des mariages. Les chances étaient de 244 milliards contre un contre la probabilité que ce résultat soit aléatoire.

Même décomposé en 28 échantillons plus petits, le résultat statistique était toujours significatif. Sans s’arrêter pour reconnaître une autre valeur p remarquable de leur premier test réductionniste, nos réviseurs critiques intrépides ont encore découpé l’échantillon. Premièrement, ils ont retiré près des deux tiers des couples. Les 447 paires restantes ont ensuite été subdivisées en 56 minuscules échantillons sans raison valable. Au lieu de simplifier les données, les examinateurs ont ensuite ajouté 56 autres petits échantillons en incluant les interactions Soleil-Soleil et Vénus-Vénus, qui ne faisaient pas partie de l’hypothèse de Westran. Sans surprise, avec les données divisées en 112 petits échantillons (certains avec une fréquence aussi faible que 3), les examinateurs ont conclu que l’accent mis précédemment sur les aspects de 0 degré, 120 degrés et 180 degrés entre le soleil progressif et le soleil natal et Les emplacements de Vénus ont « disparu ».

Une étude de suivi évaluée par des pairs a été publiée récemment dans Correlation. En répétant ses résultats dans la deuxième étude, Westran a confirmé que la conclusion tirée par Dean et ses associés était trompeuse. C’était une ruse astucieuse qui a brisé la confiance d’un chercheur qui avait fait confiance et coopéré avec les auteurs. Mais le désespoir de cette tentative de démystification confirme que l’astrologue chercheur est arrivé à un résultat convaincant.

Westran a été méthodique dans la collecte des données, et tous les couples comprenaient au moins un partenaire notable dans le domaine public. Tout le monde peut vérifier les détails de la naissance avec des biographies publiées en ligne. Dans les décisions concernant l’inclusion ou l’exclusion (par exemple, en raison de l’incertitude des données sur les naissances), Westran semble suivre des règles cohérentes et logiques. Dans l’ensemble, nous sommes impressionnés par sa diligence, sa transparence et son authenticité.

Note de l’éditeur : cet article a été publié pour la première fois dans le magazine Correlation et est republié ici avec l’autorisation de la publication.

**//

Apprenez-en plus sur le magazine Correlation, Robert Currey, le p-hacking et le data-butchery dans la vidéo pilote de l’ANS Research Series #1.

**//

Si vous avez apprécié la vidéo, lisez un autre classique de l’ANS sur Robert Currey et la recherche en astrologie – L’étude d’astrologie valide le test d’astrologie populaire.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *