On nous annonce le 7 octobre un partenariat entre BnF et Microsoft (son moteur de recherche Bing) : Bing indexera mieux les contenus de Gallica, dont « la visibilité sera fortement améliorée » (BnF). J’ai fait un peu de recherche documentaire, sans succès, pour comprendre en quoi consiste précisément cet accord, en dehors de l’effet de communication. En effet, il est normal qu’un moteur de recherches indexe Gallica : que veut dire indexer mieux – notion ayant fait l’objet d’un « long travail » (Microsoft) entre les équipes des deux entités ?
Et des sites pourtant investigateurs, comme ZDNet, Actualitté, ENSSIB (cette dernière se contente de relayer l’article du Figaro), de reprendre sans commentaires l’information, et sans détails sur la question posée plus haut. ZDNet est même dans le sensationnel en titrant que « Microsoft dame le pion à Google » ! J’ai dû faire une recherche avancée Google pour trouver l’info sur le site de la BnF, mais n'ai trouvé que le même communiqué concocté par les deux entités, bien caché ici en PDF. Quelques bloggeurs (C. Catarina) ont eu la même réaction que moi en essayant d’approfondir cette information bâclée, sinon purement communicationnelle.
Il était de notoriété publique, en 2005, que les contenus Gallica étaient mal indexés par les moteurs de recherche en général. Pas seulement parce qu’ils étaient en mode image. Même les descriptions, en mode texte, sont mal indexées – pourquoi le « Web profond est-il mal indexé par les moteurs de recherche » ? (Libération). Est-ce parce que le site Gallica est mal conçu ? Si quelqu’un sait pourquoi je suis preneur d’une explication.
Une question se pose immédiatement à la suite. S’il existe des méthodes nécessaires pour que le contenu Gallica soit mieux indexé par un moteur, méthodes que Microsoft va mettre en œuvre en liaison avec la BnF (et qui ont nécessité « un long travail »), qu’attend la BnF pour faire le même travail avec Google, moteur utilisé par 95% de nos concitoyens ? N’est-ce pas le minimum qu’on attend du service public que les contenus Gallica, numérisés à grand renfort d’argent public (taxe CNL sur les photocopieurs, Grand Emprunt,…) soient indexés correctement et puissent être trouvés via les moteurs de recherche courants (Google bien avant Bing) ? On sait qu’à la différence de ceux de Gallica, les contenus de Google Books sont très bien indexés par Google (exemple).
Par ailleurs, le communiqué officiel prend le soin de nous expliquer que cet accord ne porte « que sur les contenus libres de droits ». Le mystère s’épaissit ! Ainsi les autres contenus en ligne ne devraient pas être indexés ! Quand on met quelque chose sur Internet, c’est bien pour que les internautes y accèdent ! L’indexation des contenus, qui n’est jamais qu’une aide à la recherche, et qui est la tâche immémoriale des bibliothécaires, deviendrait ainsi une faveur spéciale, soit de la part de l’offreur de contenus (BnF accepte que certains de ses contenus soient indexés, mais pas d’autres), soit de la part de l’offreur et du moteur (un partenariat BnF-Microsoft est nécessaire pour assurer l’indexation !). J’ai déjà dit le curieux mélange des genres public-privé, aux frais du contribuable, que constitue la numérisation par la BnF des ouvrages sous droits d’éditeurs (voir les 4200 ouvrages Gallimard sur Gallica) : et en plus ces ouvrages ne seraient pas indexables. Pour quelle raison ? Quel intérêt y a-t-il à les mettre en ligne alors ?
Le comble est à la fin du communiqué, quand on lit que « l’accord prendra effet dans les tout prochains mois dans le cadre du lancement de Bing en France (actuellement en version bêta) »…Soit le process technique nécessaire à cet accord est en effet complexe et long à mettre en œuvre (il faut du boulot pour indexer correctement Galica !), soit tout simplement il faut attendre le lancement en grande fanfare de Bing. La BnF offrant une feature pour le lancement prochain de Bing – lui faisant en quelque sorte la courte échelle : un accord bing-bling ?
En résumé mes questions aux auteurs de ce partenariat, aux journalistes qui ne se contenteraient pas de la vulgate officielle, aux lecteurs professionnels de mon blog sont :
1°) les contenus Gallica sont-ils à ce point aussi difficilement indexables de manière automatique qu’il est nécessaire de faire un partenariat pour cela ?
2°) dans ce cas, qu’attend-on pour faire le même partenariat avec le moteur Google, beaucoup plus utilisé que le moteur de Microsoft ?
J’ai ma petite idée sur non pas sur la réponse précise à ces questions (sinon je ne les poserais pas), mais sur la trame sous-jacente. En France tout est guidé par le droit d’auteur et le lobby des éditeurs (HADOPI, etc.). L’alliance curieuse entre un gouvernement de droite ayant choisi de défendre ces priorités et une intelligentsia de gauche ayant jeté pour diverses raisons l’anathème sur Google (ici ou là) – cocktail détonant assez bien symbolisé par notre ministre de la Culture actuel –, influence la stratégie des acteurs publics : on en arrive à de tels accords BnF/ Microsoft qui se font sans considération aucune des besoins de l’internaute – et de nos concitoyens en général. C’est une hypothèse de travail que j’étudie et sur laquelle vos avis sont là aussi les bienvenus.