Overblog Suivre ce blog
Editer l'article Administration Créer mon blog
9 octobre 2010 6 09 /10 /octobre /2010 14:21

On nous annonce le 7 octobre un partenariat entre BnF et Microsoft (son moteur de recherche Bing) : Bing indexera mieux les contenus de Gallica, dont « la visibilité sera fortement améliorée » (BnF). J’ai fait un peu de recherche documentaire, sans succès, pour comprendre en quoi consiste précisément cet accord, en dehors de l’effet de communication. En effet, il est normal qu’un moteur de recherches indexe Gallica : que veut dire indexer mieux – notion ayant fait l’objet d’un « long travail » (Microsoft) entre les équipes des deux entités ?

 

Et des sites pourtant investigateurs, comme ZDNet, Actualitté, ENSSIB (cette dernière se contente de relayer l’article du Figaro), de reprendre sans commentaires l’information, et sans détails sur la question posée plus haut. ZDNet est même dans le sensationnel en titrant que « Microsoft dame le pion à Google » ! J’ai dû faire une recherche avancée Google pour trouver l’info sur le site de la BnF, mais n'ai trouvé que le même communiqué concocté par les deux entités, bien caché ici en PDF. Quelques bloggeurs (C. Catarina) ont eu la même réaction que moi en essayant d’approfondir cette information bâclée, sinon purement communicationnelle.

 

Il était de notoriété publique, en 2005, que les contenus Gallica étaient mal indexés par les moteurs de recherche en général. Pas seulement parce qu’ils étaient en mode image. Même les descriptions, en mode texte, sont mal indexées – pourquoi le « Web profond est-il mal indexé par les moteurs de recherche » ? (Libération). Est-ce parce que le site Gallica est mal conçu ? Si quelqu’un sait pourquoi je suis preneur d’une explication.

 

Une question se pose immédiatement à la suite. S’il existe des méthodes nécessaires pour que le contenu Gallica soit mieux indexé par un moteur, méthodes que Microsoft va mettre en œuvre en liaison avec la BnF (et qui ont nécessité « un long travail »), qu’attend la BnF pour faire le même travail avec Google, moteur utilisé par 95% de nos concitoyens ? N’est-ce pas le minimum qu’on attend du service public que les contenus Gallica, numérisés à grand renfort d’argent public (taxe CNL sur les photocopieurs, Grand Emprunt,…) soient indexés correctement et puissent être trouvés via les moteurs de recherche courants (Google bien avant Bing) ? On sait qu’à la différence de ceux de Gallica, les contenus de Google Books sont très bien indexés par Google (exemple).

 

Par ailleurs, le communiqué officiel prend le soin de nous expliquer que cet accord ne porte « que sur les contenus libres de droits ». Le mystère s’épaissit ! Ainsi les autres contenus en ligne ne devraient pas être indexés ! Quand on met quelque chose sur Internet, c’est bien pour que les internautes y accèdent ! L’indexation des contenus, qui n’est jamais qu’une aide à la recherche, et qui est la tâche immémoriale des bibliothécaires, deviendrait ainsi une faveur spéciale, soit de la part de l’offreur de contenus (BnF accepte que certains de ses contenus soient indexés, mais pas d’autres), soit de la part de l’offreur et du moteur (un partenariat BnF-Microsoft est nécessaire pour assurer l’indexation !). J’ai déjà dit le curieux mélange des genres public-privé, aux frais du contribuable, que constitue la numérisation par la BnF des ouvrages sous droits d’éditeurs (voir les 4200 ouvrages Gallimard sur Gallica) : et en plus ces ouvrages ne seraient pas indexables. Pour quelle raison ? Quel intérêt y a-t-il à les mettre en ligne alors ?

 

Le comble est à la fin du communiqué, quand on lit que « l’accord prendra effet dans les tout prochains mois dans le cadre du lancement de Bing en France (actuellement en version bêta) »…Soit le process technique nécessaire à cet accord est en effet complexe et long à mettre en œuvre (il faut du boulot pour indexer correctement Galica !), soit tout simplement il faut attendre le lancement en grande fanfare de Bing. La BnF offrant une feature pour le lancement prochain de Bing – lui faisant en quelque sorte la courte échelle : un accord bing-bling ?

 

En résumé mes questions aux auteurs de ce partenariat, aux journalistes qui ne se contenteraient pas de la vulgate officielle, aux lecteurs professionnels de mon blog sont :

1°) les contenus Gallica sont-ils à ce point aussi difficilement indexables de manière automatique qu’il est nécessaire de faire un partenariat pour cela ?

2°) dans ce cas, qu’attend-on pour faire le même partenariat avec le moteur Google, beaucoup plus utilisé que le moteur de Microsoft ?

 

J’ai ma petite idée sur non pas sur la réponse précise à ces questions (sinon je ne les poserais pas), mais sur la trame sous-jacente. En France tout est guidé par le droit d’auteur et le lobby des éditeurs (HADOPI, etc.). L’alliance curieuse entre un gouvernement de droite ayant choisi de défendre ces priorités et une intelligentsia de gauche ayant jeté pour diverses raisons l’anathème sur Google (ici ou ) – cocktail détonant assez bien symbolisé par notre ministre de la Culture actuel –, influence la stratégie des acteurs publics : on en arrive à de tels accords BnF/ Microsoft qui se font sans considération aucune des besoins de l’internaute – et de nos concitoyens en général. C’est une hypothèse de travail que j’étudie et sur laquelle vos avis sont là aussi les bienvenus.

Partager cet article

Repost 0
Published by Alexandre Moatti - dans Bibliothèque numérique
commenter cet article

commentaires

Alain Pierrot 14/10/2010 10:41



Je ne crois pas qu'on puisse décider "une bonne fois pour toute" de l'indexation de Gallica vis à vis des moteurs de recherche généralistes, indépendants du projet lui-même.


Il me semble qu'il faut distinguer là d'une part l'indexation et le moteur utiles à la consultation sur le site même de Gallica, qui relève sur les trois aspects que j'évoque de la responsabilité
éditoriale de la BnF, de Gallica et des missions qui leur sont conférées. Le recours à un prestataire donné, l'élaboration d'une solution et sa mise en œuvre sont effectivement envisageables
selon les procédures usuelles de passation de marché.


D'autre part, l'indexation pour les moteurs généralistes, qui vont avoir à prendre des décisions propres sur les aspects deux et trois (avec des conséquences sur l'aspect 1) et vont mettre en
perspective les objets de Gallica par rapport à toutes sortes d'autres fonds. Il me semble qu'en l'occurrence on passe à une situtation de co-édition, qui implique négociation et éventuellement
création de partenariat.



Alain Pierrot 12/10/2010 13:44



Par conséquent, il me semble plutôt positif que les discussions entre responsables de fonds soumis à indexation soient ouvertes.


 


Mes excuses pour la validation précipitée d'un commentaire écrit par bribes!


 



Alain Pierrot 12/10/2010 13:13



Il me semble qu'en l'occurrence la BnF et Gallica font plutôt œuvre utile en démystifiant l'illusion de la “neutralité” des moteurs de recherche et de l'indexation et en ouvrant la discussion sur
l'accessibilité de données en ligne et leur présentation en réponse à des requêtes sur les moteurs de recherche.


Certes, commencer par une annonce médiatique avec Microsoft peut avoir des connotations gênantes, mais, je n'en doute pas, l'explicitation des problèmes posés et les solutions adoptées avec Bing
susciteront bientôt des actions analogues chez ses concurrents.


Il me paraît utile de rappeler que l'indexation est un processus complexe et que le terme désigne simultanément deux ou trois aspects qu'il convient de considérer indépendamment :


L'identification des objets qui seront référencés dans l'index et le choix de leurs identifiants (en l'occurrence des chaînes de caractères, qu'elles appartiennent aux textes indexés
proprement dits ou à des métadonnées).

L'organisation de la liste des identifiants dans l'index qui sert de clé d'accès aux objets indexés.

Le mode de présentation des objets associés à un identifiant.



Chacun de ces points nécessite des décisions entre plusieurs solutions, même si ensuite les opérations peuvent être confiées à des automates. Lesdites décisions changent de fait profondément
l'expérience et l'usage de l'index (ou du moteur de recherche) résultant, en masquant, complètement ou partiellement, des objets ou au contraire en leur conférant une visibilité donnée, en
fonction des choix effectués.


L'indexation et les moteurs de recherche ne relèvent pas des sciences exactes. Par conséquent, il me semble plutôt positif que les discussions entre responsables de fonds soumis à indexation
discutent ouvertement avec les développeurs et opérateurs de moteurs de recherche.


 



Alexandre Moatti 14/10/2010 09:56



Sans doute, et merci de nous rappeler ces différentes étapes qui paraissent en accord avec ce que nous indique brillamment Pierre Col-Antidot dans ses
commentaires. Mais n'est-ce pas à un prestataire spécialisé (et pourquoi pas après tout le fournisseur du moteur de recherche interne - mais ce pourrait être un prestataire indépendant) de faire
une bonne fois pour toutes ces choix pour le compte de Galica ?


Pourquoi ce qui relève d'une prestation informatique (d'une certaine valeur j'en conviens) est-il présenté comme un "partenariat", apparaissant ainsi comme une
action de communication peu lisible ? Et pourquoi cette prestation n'a-t-elle pas été entreprise depuis le début par Gallica, en tout cas depuis 2005 - date à laquelle la mauvaise indexation des
contenus était patente ? A.M.



Callimaque 12/10/2010 11:55



Pas sûr...


La force de Google, et son principal travail, c'est d'indexer les contenus et de les offrir sur son moteur de recherche.


On ne peut pas vouloir faire payer à Google la numérisation et donner ensuite gratis ces contenus à indexer à son principal concurrent!



Pierre Col - Antidot 12/10/2010 11:15



Attention, vous semblez confondre des choses bien différentes :


- la numérisation des documents (réalisée gratuitemet par Google à Lyon où je vis) 


- l'indexation des documents (par le moteur de rechrerche interne de chaque bilbiothèque)


- l'exposition ultérieure de l'index et des documens vers les moteurs grand public (Bing / Yahoo! puisque c'est désormais la même chose, ou Google, ou d'autres...)


Nulle shizophrénie donc.



Présentation

  • : Humanités numériques, édition scientifique, diffusion numérique de la connaissance, Enseignement supérieur et recherche (auteur Alexandre Moatti) = ISSN 2554-1137
  • Humanités numériques, édition scientifique, diffusion numérique de la connaissance, Enseignement supérieur et recherche (auteur Alexandre Moatti) = ISSN  2554-1137
  • : Discussions sur le projet de Bibliothèque numérique européenne, sur les bibliothèques numériques en général; sur l'édition scientifique papier & en ligne.
  • Contact

Avant-propos

Ce blog est créé à la rentrée scolaire 2006 pour suivre les sujets suivants:
# Bibliothèque numérique européenne (BNUE), et bibliothèques numériques en général.
# Edition et revues scientifiques.
# Culture scientifique.

Alexandre Moatti
 
Secrétaire général du comité de pilotage BNUE août 2005- août 2006
 



Recherche

Livre 'Au Pays de Numérix' (2015)

 

Couverture.jpg