Discours haineux (“hate speech”) sur internet : l’état des lieux

 

Idpi lance une étude sous la forme d’un suivi barométrique consacré au “hate speech en ligne”.

Ce travail de recherche doit être l’occasion :

a/ de mieux comprendre la façon dont les stéréotypes péjoratifs se construisent et se répondent, en utilisant les discours spontanés sur internet ;

b/ d’explorer les méthodologies liées à l’opinion mining et aux data analyses permettant d’approcher de la façon la plus fine et la plus pertinente un champ de discours marqué (malheureusement pourrait-on se permettre de dire) par de la big data.

Parvenir à des définitions qui fassent consensus et qui soient en même temps opérationnelles de notions telles que celles de racisme, d’antisémitisme, de sexisme, de discriminations ou de xénophobies relève de la gageure[1]. En effet, avant d’être des catégories d’analyse scientifique ces notions relèvent du débat social et politique. Dès lors, il paraît pertinent et même nécessaire d’appréhender les objets dont il est ici question selon le prisme de l’interactionnisme symbolique : le sens même donné à la notion de racisme, par exemple, découle de la co-construction de cadres d’interprétation par différents acteurs en interaction. Il existe à notre connaissance relativement peu de publications sur les processus de racialisation ou d’éthnicisation sur les médias sociaux, mais celles existantes soulignent les opportunités nouvelles de racialisation que ces derniers créent : « ethno-racial collective behaviours on the Twitter social media platform are grasped as emergent aggregations, materialized through the contagious social relations produced by the networked propagation of Blacktags [des hashtags spécifiques à la communauté afro-américaine, NDLR][2]. »

Dans cette perspective, on sera amené à s’intéresser aux situations et aux processus par lesquels certains acteurs entendent en stigmatiser d’autres et/ou certains se considèrent comme stigmatisés. Cela permet d’aborder ces phénomènes dans leurs deux dimensions, horizontale (stigmatisation « entre pairs », ce qui suppose une analyse à la fois du « récepteur » et de « l’émetteur ») et verticale (stigmatisation des dominés par les dominants et notamment par l’État).

La question qui se pose est alors de savoir comment observer, dans les univers numériques et à travers les traces numériques :

  • les actes et propos (considérés ici comme équivalents : dans les univers numériques, le discours est performatif) dont l’intentionnalité est discriminatoire (émission).
  • Les actes et propos perçus par leurs destinataires réels ou supposés comme discriminatoires (réception).
  • L’effet que les catégories administratives et les politiques publiques (y compris, les politiques publiques antiracistes) produisent sur leurs destinataires et sur la société (« racisme institutionnel »).

Afin de construire une méthodologie répondant à ces enjeux, nous proposons de mener une comparaison internationale des dispositifs d’observation et d’analyse des « hate speech » en ligne. Cela permettra de partir des meilleures pratiques existantes. Une première analyse préalable a été réalisée. A noter que la notion de « hate speech » qui cadre une partie de la recherche internationale sur le sujet (voir benchmark) est d’inspiration anglo-saxonne. Elle se déploie dans un environnement juridique plus protecteur de la liberté d’expression que le cadre juridique français et européen, donc moins régulateur. Les stratégies des associations américaines intervenant sur le champ de la racialisation et de l’ethnicisation sont donc intéressantes à observer, car elles ne peuvent s’appuyer sur le droit. Cette différence d’environnement juridique est au cœur de nombreuses problématiques liées à l’internet, aux médias sociaux et plus largement aux nouvelles formes d’opinion publique. En effet, les principales plateformes d’expression (Twitter, Facebook, Google) relèvent de la culture, sinon du droit, américain et constituent donc un terrain moins régulateur que la plupart des législations européennes ne l’imposeraient : en témoigne les débats juridiques relatifs au propos antisémites sur twitter (plainte de l’UEJF) ou à la décision européenne de protéger davantage la réputation des particuliers sur Google.

Cette méthodologie permettra alors de construire un dispositif longitudinal, articulé autour d’un élément principal : un baromètre mensuel quantitatif, analysant la volumétrie et la tonalité des expressions relevant du périmètre qui aura été défini en amont. Il existe toutefois une difficulté méthodologique : ce baromètre ne peut reposer ni seulement sur un panel d’usagers de twitter (en raison des biais d’attrition et de sélection que cela entraînerait), ni seulement sur le suivi d’un corpus de mots-clés (ils sont en effet trop versatiles au cours du temps). Aussi proposons-nous, le cas échéant en complément d’approches par panel ou par corpus, de monitorer de manière quotidienne les trending topics français[3]. Si un ou plusieurs de ces topics sont considérés comme rentrant dans le champ de notre observation, ils sont ajoutés au corpus des mots-clés à suivre. Cette approche permet également d’assurer une fonction d’alerte sur une base quotidienne.

Plus précisément, cette analyse reposera donc sur une collecte exhaustive des tweets contenant les mots-clés définis en amont. Sur le corpus ainsi constitué, on analysera d’une part la volumétrie (évolution du volume global et du volume de chacun des sous-thèmes, sur une base quotidienne), d’autre part l’univers sémantique (termes et thèmes les plus souvent associés, cooccurrences) ; on isolera également les tweets les plus populaires et les plus significatifs. Sans nécessairement que cela soit fait tous les mois, ce corpus pourra également donner lieu à des analyses portant sur la structure sous-jacente du réseau social (détection de communautés, propagation de contenus…). Cela permettra ainsi de savoir non seulement quels contenus circulent, mais aussi comment ils circulent.

Ce projet sera aussi l’occasion d’explorer les questions méthodologiques que pose l’analyse des expressions racistes en ligne – certaines d’entre elles pourront d’ailleurs faire l’objet d’une exploration spécifique dans le cadre d’un module. À titre d’exemple, citons la manière dont démarrent et se propagent certains topics, ou encore la question (peu explorée) de la fragmentation des médias sociaux, et en particulier de twitter : sommes-nous tous exposés aux mêmes contenus ? Comment les différentes communautés en ligne communiquent-elles entre elles ?

[1]     On notera la parution récente d’au moins deux dictionnaires entièrement consacrés à cette question : Esther Benbassa et Jean-Christophe Attias (dirs.), Dictionnaire des racismes, de l’exclusion et des discriminations, Paris, Larousse, 2010, 656 p ; Pierre-André Taguieff (dir.), Dictionnaire historique et critique du racisme, Paris, Presses universitaires de France, coll. « Quadrige », 2013, 1964 p.

[2]     Sanjay Sharma, « Black Twitter? Racial Hashtags, Networks and Contagion », new formations: a journal of culture/theory/politics, 2013, vol. 78, no 1.

[3]     Potentiellement en utilisant d’autres méthodologies de détection des trending topics que celle utilisée par twitter. Sur ce sujet, voir L.M. Aiello, G. Petkos, C. Martin, D. Corney, S. Papadopoulos, R. Skraba, A. Goker, I. Kompatsiaris et A. Jaimes, « Sensing Trending Topics in Twitter », IEEE Transactions on Multimedia, octobre 2013, vol. 15, no 6 ; Juan Martinez-Romo et Lourdes Araujo, « Detecting malicious tweets in trending topics using a statistical analysis of language », Expert Systems with Applications, 15 juin 2013, vol. 40, no 8.

 

— Ecrit par IDPI

Réagissez