L’enfer est pavé de bonnes intentions. IBM voulait éviter les biais racistes et sexistes de sa technologie de reconnaissance. Les premières bases de données utilisées par les IA étaient en effet composées d’une majorité de visages blancs. Pour avoir une base de données représentative de la réalité sociale, les chercheurs d’IBM se sont donc procurés la base Creative Commons YFCC-100M, compilée par Yahoo ! pour ses propres recherches, issue du site de partage de photos Flickr. 100 millions d’images ont été isolées, recadrées et analysées par IBM. Mais le géant de l’IA a oublié un détail : le droit à la vie privée des personnes figurant sur les photos qui ont servi d’entraînement.

Créé en 2002 et racheté en 2005 par Yahoo, Flickr.com contient près de six milliards de clichés. Les photographes, amateurs ou professionnels, qui mettent leurs créations en ligne sur ce site peuvent choisir de les placer sous six différentes licences plus ou moins permissives au niveau des droits d’usage concédés : les Creative Commons. Inspirées du modèle des licences libres, elles permettent de déterminer les droits des utilisateurs dans le cadre du droit d’auteur. Si leur usage peut être libre (ce qui était le cas en l’espèce), les photos ne sont pas pour autant libres de droits. Surtout, ces licences n’ont pas vocation à régir le droit à la vie privée des personnes représentées. Le directeur de l’association Creative Commons rappelle d’ailleurs que le droit d’auteur n’est pas l’outil adéquat.

Pour sa défense, IBM a affirmé qu’il abordait la question des données personnelles avec beaucoup de sérieux et respectait les principes de vie privée. A-t-il obtenu une autorisation des personnes concernées ? Les personnes en question n’ont jamais signé d’accord pour que leurs visages servent à entraîner un puissant logiciel de reconnaissance faciale. Par ailleurs, le site Flickr est nourri par des photos du monde entier, y compris d’Europe. Les photos sont des données indirectement nominatives ; le RGPD a donc vocation à s’appliquer. Or, l’exploitation faite par les chercheurs d’IBM constitue clairement un détournement de finalité des photos mises en partage sur Flickr.

Pour entraîner les outils de reconnaissance faciale, il est nécessaire d’utiliser des centaines de millions d’images avec un large éventail de visages. Les chercheurs et les développeurs moissonnent tout le web pour récolter le plus de profils possible. En 2017, la société Kaggle avait fait scandale en annonçant avoir extrait 40 000 photos de l’application de rencontres Tinder. Autant dire que très peu de personnes dans le monde sont à l’abri d’une exploitation de leur visage destinée à nourrir un système d’IA, même anonymisé. Sauf ceux qui n’ont jamais mis en ligne leur portrait, à condition que personne ne les ait pris en photo et ne l’ait partagée.