Autour du sondage d'Harris Interactive « Marine fera 23 à 24% au second tour »

Sitôt annoncé, sitôt commenté sans fin sur le fond par les journalistes et les politiques de tous bords. Mais (l'a-t-on déjà dit ici ?) quand on consomme un produit, mieux vaut lire de près l'étiquette. A fortiori quand il s'agit de chiffres. Quel est donc ce nouvel acteur « Harris Interactive », et comment procède-t-il ?

En fait il s'agit là d'un nouveau fait d'arme d'une méthode innovante en plein boom : le sondage par internet, qui cumule l'avantage de la modernité et du faible coût de production par rapport à un sondage téléphonique, ou pire, en porte à porte. Le précédent fait remarqué du genre était un certain sondage d'Ifop cet été, qui lui aussi sondait les Français par internet, pour établir leur avis quant à la politique sécuritaire du gouvernement, et qui avait suscité les émois méthodologiques que l'on sait [1].

Quant au présent opus, s'il a été pointé pour tel par Rue 89 [2], bien des médias n'ont pas ou à peine mentionné la particularité qui pose problème (Le JT de France2 a juste mentionné en passant vers la fin du sujet « malgré la polémique du fait que c'est un sondage par internet »).

Toutefois, la notice [3] du présent sondage nous précise qu'il a été exécuté sur un panel selon la méthode des quotas, avec redressement tenant compte des tabous politiques. Quel est donc le problème ? (au-delà de celui des sondages en eux-même, en particulier d'intention de vote à 1 an d'une élection).

Un problème classique des sondages est la marge d'erreur : en dessous de 1000 sondés, si l'on ne veut que 5% de risque d'erreur, les résultats ont une imprécision de +- 3%, ce qui fait beaucoup pour pouvoir commenter des intentions de vote. Certains sondeurs descendent parfois jusqu'à 600 personnes. Mais ici pas de problème, il y a 1347 sondés (on y dit quand même que l'un talonne l'autre à 1% d'écart, alors que c'est peut-être l'inverse à 4% d'écart).

Un second problème est la représentativité de l'échantillon : si l'on n'interroge qu'en ville, ou qu'à certaines heures, ou par un moyen technologique sélectif (les jeunes ont peu de téléphones fixes, les femmes et les moins jeunes utilisent moins internet, et... certains n'ont pas de foyer), on risque de ne pas toucher de façon homogène les différentes catégories de population, ce qui introduit souvent un biais important, l'opinion étant plus ou moins corrélée à la classe socio-professionnelle, à l'âge, au sexe, au fait d'être citadin ou rural. La méthode des quotas règle ce problème en s'assurant que la structure statistique des sondés reproduit la structure française. Ici, la méthode des quota a bien été effectuée. (Cependant il semble qu'il y ait quota et quota, ceux d'ici étant assez rudimentaires d'après [2]).

Une troisième difficulté est de trouver des gens à interroger. Le porte à porte coûte très cher, le téléphone partage l'inconvénient du faible taux d'acceptation et accroît le risque de réponse non sérieuse. Une solution (pour certains discutable [4]) est de constituer un panel de sondés récurrents, éventuellement rémunérés (c'est le cas ici). Mais il y a panel et panel : la constitution et le contrôle d'un panel internet est-il fait avec le même soin que les panels téléphoniques ? La facilité technique à « recruter » sur internet rend tentant de substituer la quantité à la qualité.

À propos de doutes sur la sincérité, un quatrième problème survient du fait que la non-sincérité peut être liée à l'opinion (ce qui biaise le sondage), à cause de tabous. Il est en effet délicat pour certains de reconnaître leur préférence pour certains partis. La solution est ici d'estimer le correctif à appliquer, une astuce consistant à interroger en plus sur le vote précédent (dont on connaît le résultat, et qui fournit donc le taux d'autocensure. Cette méthode marche cependant moins bien quand les votes deviennent très volatiles, comme c'est arrivé dans le passé récent). Certains appliquent un correctif systématique, d'autres ré-estiment la correction pour chaque sondage. Ici on a un premier gros écueil : s'il s'agit bien du même parti « potentiellement tabou », il ne s'agit pas du tout du même candidat qu'aux élections précédentes. Le passé, la réputation, les connotations, et même le positionnement n'est pas le même. Du coup, peut-on vraiment appliquer le même coefficient de censure ?

Un autre biais classique repose sur la qualité des questions (partielles, inductives, mal formulées, encourageant l'effet bof, etc). En matière d'intention de vote la situation semble a priori plus facile... au problème près de qui est retenu ou oublié. Ainsi, une première version du sondage supposait que Martine représenterait le principal parti d'opposition. Suite à la polémique engendrée, une deuxième version ajoute les hypothèses François et Dominique, tout en ignorant les autres candidats potentiels. Comme pour la presse, on peut se demander à quel point cette tendance à considérer d'emblée qui est crédible et qui ne l'est pas influence l'électorat, y compris pour les élections internes aux partis.

Mais en l'occurrence, le principal problème n'est pas là. Le plus gros biais à éviter pour un sondage, c'est la modulation de la participation en fonction de l'opinion par rapport aux questions. Quand un sondeur est chez vous, vous ne connaissez pas d'avance les questions détaillées, et il est difficile de le mettre à la porte en cours de route. Au téléphone, la spirale d'engagement aidant, il est également difficile de raccrocher avant la fin.  Mais si l'on voit les questions à l'avance, on peut alors être motivé pour répondre ou ne pas répondre. C'est alors la catastrophe métrologique, puisque le sondage ne mesure plus rien d'autre que le taux de motivation des différents camps et non leur taille. C'est ce qui rend ridicule les sondages du JT de France2, et plus généralement tous les pseudo-sondages qui foisonnent dans les sites web, les magazines, et même en milieu professionnel (le fait que ce soit aujourd'hui techniquement facile à faire semble dispenser de toute réflexion sur comment bien le faire, et ce sur tous les aspects imaginables). Le drame est que la méthode des quotas donne l'apparence d'une représentativité : on a bien la bonne proportion de femmes, de ruraux, de jeunes, de cadres. Mais dans chacune, néanmoins, on aura biaisé par la motivation pour la question, ce qui est bien pire.

Finalement le problème est le même que pour les cabinets de recrutement : quand on fait appel à un professionnel, on se remet en toute confiance à ses compétences, et on ferme les yeux sur les méthodes. Mais un institut de sondage est une entreprise et non un service public (sauf bien sûr des organismes comme l'INSEE ou Eurostat). La concurrence y est rude, et un coût de revient allégé y est soit une arme tarifaire, soit une source de  bénéfice accru. Avec les risques que cela comporte sur la qualité, tant que les clients sont contents. Mais le fait qu'un sondage soit détrompé un an plus tard (ce à quoi on pourra trouver 1000 raisons) compte-t-il beaucoup dans la satisfaction de l'acheteur, par rapport à l'intérêt d'avoir pu agrémenter une parution d'un sondage en forme de scoop, moyen si facile de fabriquer de l'information à partir de peu ?

 

Fabrice Neyret

 

Notes :

[1] : Un article de Rue89 à propos du sondage internet de l'été, qui en détaille les différents biais.

[2] : Un article de Rue89 à propos du présent sondage internet.

[3] : La fiche technique et les données (corrigées et sans marges d'erreur) du sondage d'Harris interactive.

[4] : On peut lire diverses remarques sur les biais des sondages, et notamment des panels, dans cet article de Rue89 traitant d'un projet de loi de moralisation des sondages.

Voir aussi la page wikipédia relative aux sondages http://fr.wikipedia.org/wiki/Sondage_d'opinion.