similARiTy – un logiciel léger pour la recherche d'images identiques (2019)

Lorsque des fonds d'images sont constitués au fil d'un travail de plusieurs années mené par différentes personnes, l'émergence de doublons est inévitable. Ces paquets de données redondants sont bien entendu la bête noire des gestionnaires de données, qui s'efforcent, à chaque fois qu'ils en découvrent, de fusionner ou d'effacer les ensembles concernés. Or, à partir d'une certaine masse critique d'images, la découverte de tels doublons devient tributaire du hasard ou des retours des utilisateurs et utilisatrices. Grâce aux évolutions considérables dans le domaine de la recherche de similitudes entre les images, toutefois, une approche systématique du problème est désormais possible. C'est ce que permet l'outil similARiTy, qui compare deux corpus d'images sur la base de percepual hashing et de BK-tree. Pour cela, un fichier json est d'abord créé pour chacun des répertoire à analyser, et ces fichiers sont ensuite comparés entre eux. Afin de pouvoir utiliser cet outil de ligne de commande, il faut disposer de python et d'imagemagick.

Le projet similARiTy a été conduit de janvier à août 2019 par Thorsten Wübbena (ancien directeur de recherche des humanités numériques au DFK Paris).