
Vous connaissez tous les captchas, ces petits formulaires placés juste avant le bouton de validation des formulaires (commentaires, création de compte), qui vous demandent de ré-écrire un mot d’une image ou d’additionner deux nombres. Cela permet de vérifier que vous êtes bien un être humain, et non pas un robot pirate qui parcourt le web pour poser des spams sur les blogs ou créer des comptes fantômes. Le fait de remplir un captcha est intéressant, car c’est une action humaine. Lire, comprendre et retranscrire. Et cela devient encore plus intéressant lorsqu’on sait qu’il y a quelques 150 millions de captcha rempli chaque jour ! reCaptcha l’a bien compris, et utilise cette énorme ‘intelligence collective’ à des fins culturelles et de préservation du patrimoine..
reCaptcha, c’est un captcha. Un captcha, c’est un formulaire à qui on demande de créer une image à partir de lettres aléatoires et de montrer cette image (les robots ne peuvent alors plus la lire). L’internaute li les lettres et les retranscrit dans le formulaire. Ce dernier valide la réponse en comparant avec les lettres qu’il avait stockées, et donc si vous êtes bien un être humain et non une machine (et vous avez donc devant les yeux le premier cyber physionomiste/videur, ici ce n’est pas les baskets que l’on traque, c’est les robots..).
reCaptcha est un videur intelligent, fan de litterature.
Chaque jour, des milliers de livres sont scannés, pour conserver notre patrimoine ‘papier’. Mais les logiciels d’OCR (reconnaissance des mots) ont parfois du mal à traduire des ouvrages vieux d’un siècle ou plus, comme le montre, l’image ci dessous où l’on voit par exemple que le mot ‘ this ‘ est traduit avec ‘ niis ‘.

Et c’est là que reCaptcha intervient, puisqu’il profite du moment d’intelligence que l’internaute lui accorde lorsqu’il rempli un captcha pour lui faire traduire et vérifier les mots scannés !
Comment ça marche ?
Déjà reCaptcha n’affiche pas qu’un mot, mais deux. Un mot qu’il connait et un mot qu’il ne connait pas ou dont il a des doutes. Lorsque l’internaute lui envoie un résultat, reCaptcha regarde d’abord si l’internaute a bien écrit le texte qu’il connait (si ce n’est pas le cas, c’est terminé, on demande à l’utilisateur de recommencer). Si oui, on peux estimer que l’internaute sait lire un texte sur une image, et que potentiellement, la traduction de l’image que reCaptcha ne connait pas est bonne. Il l’enregistre. Il ressortira ce mot plusieurs fois à différents internautes pour voir s’ils font la même traduction. Au bout d’un moment (x personnes qui font la même réponse), il pourra valider cette traduction et palier à la limite du logiciel d’OCR.
Du web utile !
Ce n’est bien sur pas la seule application qui utilise le réseau pour la science ou le patrimoine. Je pense à folding@home qui utilise (lorsque vous ne vous en servez pas) votre bande passante ou les capacité de votre processeur (de votre ordi et même de votre playstation !) pour comprendre le repliement et l’agrégation des protéines et les maladies qui sont liées (j’ai fait un copié collé là, j’avoue, mais si vous êtes motivé). Ou bien sûr wikipédia, qui malgré les critiques, est une formidable encyclopédie collective et surtout gratuite.
Si vous connaissez d’autres applications du web utile ou si vous souhaitez simplement réagir, n’hésitez pas à laisser un commentaire, ça vous permettra de tester reCaptcha :D
Très astucieux, fallait vraiment y penser !
J’avais vu reCaptcha sur différents blogs, en me disant que c’était juste un truc de captcha comme un autre…
Je m’empresse de lui apprendre le mot « purifier » :D .
Bravo tu viens de faire un geste pour l’humanité en laissant un commentaire sur ce blog ! :)
Je suis passé sur tes sites, bravo à toi ! Mais laisse tomber Dotclear, passe à Wordpress :D
A bientôt,
gUiLe