Overblog
Suivre ce blog Administration + Créer mon blog
16 janvier 2011 7 16 /01 /janvier /2011 10:56

On se réjouit de trouver sur Gallica de nombreux documents scientifiques cherchables (Dieu que ce mot est horrible) - mais il y a encore quelques difficultés, parfois, à préciser l'emplacement du mot dans l'image : le surligné se fait un peu au-dessus, même une ligne au-dessus. Ceci oblige à un travail d'accomodation pour ajuster sa vision sur la ligne en-dessous. Ce défaut est présent sous Firefox, pas Internet Explorer (j'ai vérifié pour la même page) - il est peut-être lié

 

ex. Poncelet, Introduction à la mécanique industrielle, recherche du mot "travail", p.9 (lien)

XML-Alto.JPG

 

(à présent je sais que plusieurs personnes tout à fait compétentes de la BnF lisent mon blog - je les en remercie - aussi vais-je faire peut-être un peu plus souvent des remarques de cet ordre - remarques destinées à progresser et qui n'enlèvent rien à l'intérêt de l'utilisation de Gallica)

Partager cet article

Repost0
8 janvier 2011 6 08 /01 /janvier /2011 11:08

Je fais part à mes lecteurs, au fil de mes recherches, de certaines bizarreries dans les bibliothèques numériques.

 

Gallica, Comptes-rendus de l'Académie des sciences, deux tomes par an comme d'habitude : le premier tome (premier semestre) de l'année 1843 (ou des années 1849, 1855) est cherchable en mode texte, pas le second (second semestre). Allez savoir pourquoi !

 

http://gallica.bnf.fr/ark:/12148/cb343481087/date1843

http://gallica.bnf.fr/ark:/12148/cb343481087/date1849

http://gallica.bnf.fr/ark:/12148/cb343481087/date1855

http://gallica.bnf.fr/ark:/12148/cb343481087/date1860

http://gallica.bnf.fr/ark:/12148/cb343481087/date1862

http://gallica.bnf.fr/ark:/12148/cb343481087/date1864

 

(NB : je crois que les Comptes-Rendus sont le périodique le plus consulté sur Gallica, il serait bon qu'il soit cherchable plein texte)

 

Partager cet article

Repost0
9 décembre 2010 4 09 /12 /décembre /2010 10:27

Isidore vient d’être lancé le 7 décembre par le TGE-ADONIS (Accès unifié aux données et documents numériques des sciences humaines et sociales) du CNRS.

 

D’abord qu’est-ce qu’ADONIS ? C’est un « très grand équipement » relatif aux sciences humaines et sociales – comme le LHC est un très grand équipement de la physique [NB: j'ai le plaisir de présider le conseil scientifique d'Adonis, suite au rapport fait en 2006 au directeur général du CNRS]

 

Et qu’est-ce qu’Isidore ? En tant que fils d’Adonis, qui fut aimé d’Aphrodite, ce doit être à tout le moins une belle réalisation. C'est le cas.

 250px-Aphrodite_Adonis_Louvre_MNB2109.jpg

Ce n’est pas un moteur de recherche commercial, c’est le moteur de LA recherche (insistons sur l’article) – au moins celle des sciences humaines et sociales. C'est un moteur de recherche qui est le moteur de LA recherche - j'insiste lourdement.

 

Concrètement, Isidore moissonne une grande quantité de liens émanant de nombreuses bibliothèques numériques, comme Gallica (BnF), ou Numdam le site des revues mathématiques (histoire des sciences), ,ou le site revues.org des revues en SHS,ou bien d’autres encore, comme ceux qui sont répertoriés par NUMES (de l’ABES Agence bibliographique de l’enseignement supérieur).

 

À l’inverse d’un moteur de recherche commercial, Isidore ne recherche que dans ce corpus : même s’il n’y a pas (encore) tous les résultats intéressants, la recherche n’est pas polluée par des résultats peu pertinents, comme ce peut être le cas avec un moteur de recherche commercial. L'internaute navigue avec Isidore dans un univers de ressources hautement qualifiées.

 

Un avantage des SHS (sciences humaines et sociales), auxquelles Isidore se limite, est qu’elles sont plus facilement abordables que les sciences dures par un internaute non chercheur –  il est plus facile de comprendre un article de revue de démographie, souvent en français, qu'un article de revue d'astrophysique, qui plus est en anglais. Ceci rejoint l'idée que j'avais eue pour lae projet "bibliothèque numérique européenne" d'une bibliothèque francophone agrégeant le public le plus large possible.

 

Sur la page d'accueil d'Isidore, vous trouverez chaque jour une discipline des SHS mise à l’honneur, avec les premiers résultats de recherche : de quoi vous intéresser d’un coup d’œil à la démographie, à la géographie, à l’histoire des sciences, etc.

 

Une intiative à suivre et un moteur à utiliser !

 isidore-logotype_normal.jpg

 

Liens :

-       L’explication et les FAQ sur Isidore.

-       L’accès au moteur lui-même (lien en toutes lettres, pour a mémorisation) : www.rechercheisidore.fr

Partager cet article

Repost0
7 décembre 2010 2 07 /12 /décembre /2010 10:19

Les choses changent - les positions doctrinaires ont fait place aux réalisations pragmatiques.

 

Europeana est à présent connectée à des bibliothèques travaillant avec Google, comme celle de la bibliothèque de l'université de Gand (Belgique).

 

Voir page d'accès depuis Europeana à un ouvrage de Coriolis.

 

Voir image ci-dessous une fois sur le site de Gand/Gent, et la mention digitized by Google (soulignée en rouge par nous).

Google-Europeana--Gand-V2.JPG

Partager cet article

Repost0
9 octobre 2010 6 09 /10 /octobre /2010 14:21

On nous annonce le 7 octobre un partenariat entre BnF et Microsoft (son moteur de recherche Bing) : Bing indexera mieux les contenus de Gallica, dont « la visibilité sera fortement améliorée » (BnF). J’ai fait un peu de recherche documentaire, sans succès, pour comprendre en quoi consiste précisément cet accord, en dehors de l’effet de communication. En effet, il est normal qu’un moteur de recherches indexe Gallica : que veut dire indexer mieux – notion ayant fait l’objet d’un « long travail » (Microsoft) entre les équipes des deux entités ?

 

Et des sites pourtant investigateurs, comme ZDNet, Actualitté, ENSSIB (cette dernière se contente de relayer l’article du Figaro), de reprendre sans commentaires l’information, et sans détails sur la question posée plus haut. ZDNet est même dans le sensationnel en titrant que « Microsoft dame le pion à Google » ! J’ai dû faire une recherche avancée Google pour trouver l’info sur le site de la BnF, mais n'ai trouvé que le même communiqué concocté par les deux entités, bien caché ici en PDF. Quelques bloggeurs (C. Catarina) ont eu la même réaction que moi en essayant d’approfondir cette information bâclée, sinon purement communicationnelle.

 

Il était de notoriété publique, en 2005, que les contenus Gallica étaient mal indexés par les moteurs de recherche en général. Pas seulement parce qu’ils étaient en mode image. Même les descriptions, en mode texte, sont mal indexées – pourquoi le « Web profond est-il mal indexé par les moteurs de recherche » ? (Libération). Est-ce parce que le site Gallica est mal conçu ? Si quelqu’un sait pourquoi je suis preneur d’une explication.

 

Une question se pose immédiatement à la suite. S’il existe des méthodes nécessaires pour que le contenu Gallica soit mieux indexé par un moteur, méthodes que Microsoft va mettre en œuvre en liaison avec la BnF (et qui ont nécessité « un long travail »), qu’attend la BnF pour faire le même travail avec Google, moteur utilisé par 95% de nos concitoyens ? N’est-ce pas le minimum qu’on attend du service public que les contenus Gallica, numérisés à grand renfort d’argent public (taxe CNL sur les photocopieurs, Grand Emprunt,…) soient indexés correctement et puissent être trouvés via les moteurs de recherche courants (Google bien avant Bing) ? On sait qu’à la différence de ceux de Gallica, les contenus de Google Books sont très bien indexés par Google (exemple).

 

Par ailleurs, le communiqué officiel prend le soin de nous expliquer que cet accord ne porte « que sur les contenus libres de droits ». Le mystère s’épaissit ! Ainsi les autres contenus en ligne ne devraient pas être indexés ! Quand on met quelque chose sur Internet, c’est bien pour que les internautes y accèdent ! L’indexation des contenus, qui n’est jamais qu’une aide à la recherche, et qui est la tâche immémoriale des bibliothécaires, deviendrait ainsi une faveur spéciale, soit de la part de l’offreur de contenus (BnF accepte que certains de ses contenus soient indexés, mais pas d’autres), soit de la part de l’offreur et du moteur (un partenariat BnF-Microsoft est nécessaire pour assurer l’indexation !). J’ai déjà dit le curieux mélange des genres public-privé, aux frais du contribuable, que constitue la numérisation par la BnF des ouvrages sous droits d’éditeurs (voir les 4200 ouvrages Gallimard sur Gallica) : et en plus ces ouvrages ne seraient pas indexables. Pour quelle raison ? Quel intérêt y a-t-il à les mettre en ligne alors ?

 

Le comble est à la fin du communiqué, quand on lit que « l’accord prendra effet dans les tout prochains mois dans le cadre du lancement de Bing en France (actuellement en version bêta) »…Soit le process technique nécessaire à cet accord est en effet complexe et long à mettre en œuvre (il faut du boulot pour indexer correctement Galica !), soit tout simplement il faut attendre le lancement en grande fanfare de Bing. La BnF offrant une feature pour le lancement prochain de Bing – lui faisant en quelque sorte la courte échelle : un accord bing-bling ?

 

En résumé mes questions aux auteurs de ce partenariat, aux journalistes qui ne se contenteraient pas de la vulgate officielle, aux lecteurs professionnels de mon blog sont :

1°) les contenus Gallica sont-ils à ce point aussi difficilement indexables de manière automatique qu’il est nécessaire de faire un partenariat pour cela ?

2°) dans ce cas, qu’attend-on pour faire le même partenariat avec le moteur Google, beaucoup plus utilisé que le moteur de Microsoft ?

 

J’ai ma petite idée sur non pas sur la réponse précise à ces questions (sinon je ne les poserais pas), mais sur la trame sous-jacente. En France tout est guidé par le droit d’auteur et le lobby des éditeurs (HADOPI, etc.). L’alliance curieuse entre un gouvernement de droite ayant choisi de défendre ces priorités et une intelligentsia de gauche ayant jeté pour diverses raisons l’anathème sur Google (ici ou ) – cocktail détonant assez bien symbolisé par notre ministre de la Culture actuel –, influence la stratégie des acteurs publics : on en arrive à de tels accords BnF/ Microsoft qui se font sans considération aucune des besoins de l’internaute – et de nos concitoyens en général. C’est une hypothèse de travail que j’étudie et sur laquelle vos avis sont là aussi les bienvenus.

Partager cet article

Repost0
18 mars 2010 4 18 /03 /mars /2010 10:17

J’ai rédigé en novembre dernier un article « Bibliothèque numérique : Google face à l’Europe » qui vient de paraître dans La Jaune et la Rouge (revue des anciens élèves de Polytechnique), mars 2010, n°653 consacré au Livre et Internet. Cet article m’avait été demandé par Pierre Laszlo, coordinateur du numéro (par ailleurs chimiste, auteur scientifique, et auteur BibNum).

Vous trouverez cet article en ligne ici, mais pour ceux qui n’auraient pas la possibilité de le lire entièrement, voici les quelques idées que j’y développe, toujours les mêmes depuis mon rapport remis il y a quatre ans et qui ouvrent ce blog, ainsi que dans mon article du Monde des Livres de 2007 (il faut croire qu’elles commencent à percoler puisque le récent livre de B. Racine, président de la BnF, va dans le même sens sur un certain nombre d’entre elles) :

1)  la BnUE (bibliothèque numérique européenne, ou Europeana), lancée en fanfare il y a cinq ans, n’atteint pas son objectif d’être une alternative à Google.

2)  D’un point de vue politique, ceci amène le citoyen à s’interroger sur le battage politique et médiatique au plus haut niveau (président Chirac à l’époque) et la réalité des maigres résultats ; il en va de même des programmes européens, coûteux et ralliant une audience limitée.

3) Europeana se limite d’ailleurs à un portail de recherche de documents multimedia (livres, manuscrits, photos, vidéos,…), renvoyant vers les sites des bibliothèques nationales (surtout Gallica d’ailleurs).

4) À l’opposé, Google Books est un site sobre, avec des livres uniquement consultables sur le site -même : une bibliothèque numérique effective.

5) Faisons la différence, rarement faite dans les medias, entre le programme Google de numérisation des livres « patrimoniaux » (qui ne sont plus sous droit) et la numérisation des livres sous droits, qui suscite à juste titre l’ire des éditeurs dans le monde.

6) À propos des éditeurs, l’économie mixte à la française à conduit à créer un appendice dans Gallica, difficlement visible et compréhensible, affichant des livres sous droits, avec des visualisations différentes suivant l’éditeur (Gallimard, etc.) – programme financé sur fonds publics (augmentation de la taxe sur les imprimantes-scanners gérée par le CNL).

7) Par comparaison, en Allemagne, dès 2005 les éditeurs se sont groupés entre eux pour faire une bibliothèque numérique Libreka.

8) Le mythique « patrimoine européen » spécifique à Europeana a fait long feu : car ce qui est dans les bibliothèques américaines, et que numérise Google, c’est justement le patrimoine allemand, anglais, français…le patrimoine de l’émigration qui a fait les Etats-Unis.

9)  D’ailleurs, en Europe, les bibliothèques nationales (sur lesquelles s’appuie Europeana) sont un patchwork d’institutions disparate : puissantes en France (BnF) et au Royaume-Uni (BNL), elles sont nettement moins visibles dans des pays d’unification récente comme l’Allemagne ou l’Italie.

10) Avant de s’engouffrer dans une bibliothèque européenne (lisez-vous souvent des livres du XIXe s. écrits en hongrois ?), il eut été utile de monter une bibliothèque numérique francophone – capitalisant sur l’avance qu’avait depuis 2005 la BnF avec Gallica.

11) La diabolisation de l’utilisation de Google, comme celle de Wikipedia, est le signe d’un manque de confiance en l’internaute : celui-ci est, à mon sens, capable de démêler le bon grain de l’ivraie, d’effectuer un travail de recherche (avec un moteur éponyme) ; cette diabolisation émane d’une génération qui, n’ayant pas toujours compris ses usages, voit en Internet surtout ses dangers.

12) Bravo le page ranking du moteur Google s’il me permet de trouver sur Google Books, en deuxième résultat de ma recherche, le livre que je cherche ; on n’a à mon avis pas fini de réfléchir sur cette synergie entre le moteur grand public et Google Books.

13) En 2006, on aurait déjà pu décider que les bibliothèques négocient ensemble avec Google et non en ordre dispersé (idée figurant dans mon rapport BnUE, ainsi que dans le discours Darnton à la BnF en novembre dernier).

14) La foire à la quantité numérisée continue : la BnF nous annonce un millions d’œuvres en ligne – dont 700 000 revues et journaux (j’ignore dans ce cas quelle est l’unité de compte) – en fait il n’y a que 150 000 livres (doublement de Gallica en cinq ans)

15) Question iconoclaste (mais qui se pose à présent) : pourquoi, maintenant, numériserait-on sur fonds publics un ouvrage français qu’on peut déjà trouver sur Google Books ? Quel intérêt ?

16) Question iconoclaste, bis (qui se pose à présent, bis) : quel intérêt aurait Google, maintenant, à aller numériser avec la BnF ou d’autres des ouvrages francophones déjà présent sur Google Books ?

17) L’invocation de programmes franco-allemands pour la numérisation, sorte d’ersatz de programmes européens, m’inquiète quand on connaît le rapport coût/résultat pour le grand public de tels programmes, comme Quaero (Quaerebam comme je l’avais appelé). Idem pour l’invocation au grand emprunt, sauf à mieux définir les objectifs qu'en 2005.

18) Enfin, last but not least, ce n’est pas faute de le mentionner à chaque fois, le dépôt légal sous format numérique n’est toujours pas obligatoire légalement, pour ne pas brusquer les éditeurs. Or les fichiers se perdent, chez les éditeurs, chez les imprimeurs – ces maisons ont souvent un fonctionnement artisanal. Que dirons nos petits-enfants quand ils verront que nous glosions sur une bibliothèque numérique, sans même préparer la leur avec nos livres actuels qui ne seront plus sous droits dans 70 à 100 ans ?

 Image-Twelwe-South.JPG

Voilà, désolé de ce billet un peu long – je n’aime pas les longs billets de blogs, mais j’ai ainsi reclassé mes idées (sachant que dans l’article en question que j’ai écrit, j’ai dû à la demande de la revue faire des encadrés hors texte qui coupent un peu le propos). Merci au blog affordance de m’avoir fait connaître la photo ci-dessus qui est un clin d'oeil.

Partager cet article

Repost0
21 février 2010 7 21 /02 /février /2010 20:01
Vous est-il arrivé de devoir passer d'une bibliothèque numérique à l'autre, aucune ne donnant à tous les coups entière satisfaction ? Je vous donne un exemple. Vous cherchez sur Gallica (ancienne version ou nouvelle version, puisque les deux coexistent... vous arrivez à Gallica ancienne version par le catalogue Opale de la BnF, et à la nouvelle version en tapant Gallica dans un moteur de recherche). Vous trouvez le document qui vous intéresse - malheureusement, comme 90% des documents de Gallica, il n'a pas encore été (re)numérisé en plein texte - donc vous n'arrivez pas à trouver le passage qui vous intéresse dans un livre de 600 pages - même la table des matières n'est pas suffisamment précise. Vous allez sur Google Books, vous trouvez le document indexé en plein texte - malheureusement le livre n'est visible que par "snippets" - par extraits de phrases. Néanmoins vous trouvez le passage qui vous intéresse, vous relevez le numéro de page, et vous revenez sur Gallica pour consulter la page entière ! C'est beau et harmonisé le monde des bibliothèques numériques !

alttab-key.jpg

Partager cet article

Repost0
3 novembre 2009 2 03 /11 /novembre /2009 13:45

Je continue à partager avec mes lecteurs certains éléments de mon statut d'auteur – il me paraît d'utilité publique de le faire car c'est rarement fait. Après les droits pour copie privée numérique (billet précédent), j'ai reçu dernièrement (mai 2009) un (modeste) chèque relatif au « droit de prêt en bibliothèque ». Comme le droit pour « copie privée numérique », ce droit est géré par la SOFIA –elle a même été créée en février 2000 pour gérer ces deux droits (historique). La rémunération pour droit de prêt est instituée par la loi du 18 juin 2003 en application d'une directive européenne de 1992.

 

En 2009, étaient distribués les droits de 2006 (un ouvrage pour moi). La somme totale à distribuer est de 15 M€ pour cette année-là. Cette somme est composée pour environ 10M€ d'une somme versée par l'État, correspondant à un versement forfaitaire de 1,5€ par inscrit en bibliothèque publique et 1€ en bibliothèque universitaire. Le restant soit 5M€ provient d'un versement des libraires à ce fond, égal à 6% des ventes réalisées en bibliothèques.

 

Ce dernier abondement mérite qu'on s'y attarde : auparavant les libraires (qui, rappelons-le, bénéficient d'une remise de 30 à 40% de l'éditeur) pouvaient faire un rabais important pour vendre aux bibliothèques publiques. La loi de 2003 a plafonné ce rabais à 15%, ce qui – si je raisonne bien – a deux conséquences : les bibliothèques publiques paient depuis 2003 plus cher leurs livres + les libraires acceptent de verser cet écot de 6% puisqu'ils ont eu une reconstitution de marge (la TVA des restaurateurs ? ). Sur le site du ministère, une autre manière de présenter cela : c'est aussi l'État et les collectivités locales (ayant les bibliothèques dans leurs escarcelles) qui payent cette deuxième partie – puisque les bibliothèques paient plus cher leurs ouvrages – les libraires en sont simplement collecteurs. L'image ci-dessous extraite du site du ministère le confirme :

 

Le fonds 2006 correspond à 6 millions d'ouvrages achetés par les bibliothèques (un rapide calcul montre que les 6% des libraires correspondent à un chiffre d'affaires de 5/0,06 = 83 millions d'euros soit environ 14 euros par ouvrage). Le fonds total de 15M€ pour 6M de livres donne 2,5€ par ouvrage, répartis entre l'auteur à 50% et l'éditeur à 50%. Je touche donc 1,25€ par ouvrage vendu en bibliothèque.

 

A signaler que ce « droit » d'auteur correspond aux ventes effectives de mon ouvrage, à la différence du « droit » de copie privée numérique qui est calculé de manière forfaitaire (cf. billet précédent).

 

Partager cet article

Repost0
29 octobre 2009 4 29 /10 /octobre /2009 14:11
Après avoir remarqué certains défauts de numérisation chez Google Books (billet précédent), je fais bonne mesure en remarquant qu'un an après le crash d'ouverture de Europeana, le sytème informatique ne paraît toujours pas au point. Voici trois écrans d'erreur différents que j'ai captés aujourd'hui sur le site :

"Le nouveau système informatique d'Europeana est actuellement en phase de test. Le site est accessible à la consultation. Toutefois, l'utilisation peut e pas être optimale durant cette période (par exemple le nombre d'utilisateurs restera limité en période de pointe)."


Ou : "Veuillez nous excuser pour cette interruption de service momentanée. SARA Consulting Network Services, hébergeur d'Europeana, effectue la maintenance de son réseau de 18:00 à 21:00, heure normale d'Europe Centrale, le 11 septembre 2009" (la date est particulièrement mal choisie pour un crash informatique qui semble permanent)

quand ce n'est pas carrément :

Partager cet article

Repost0
8 septembre 2009 2 08 /09 /septembre /2009 22:14
Je n'approuve pas ceux qui critiquent Google Books par principe, j'ai déjà eu l'occasion de le dire dans ce blog et dans divers articles. Les récents psychodrames BnF/Google sont d'un intérêt limité, et il y aurait beaucoup àécrire sur la façon dont Google Books est déjà beaucoup utilisé comme outil dans de nombreux milieux documentaires ou universitaires, voire dans le grand public.

Mais quand je vois il y a un défaut, mentionnons-le. La numérisation automatique sur machine à numériser a ses inconvénients. Comme me le faisait remarquer un des auteurs BibNum suite à son article commentant la thèse de Foucault (1853) sur les vitesses de la lumière dans l'air et dans l'eau, la numérisation Google Books de ce document possède une grave défaut : la planche de figures n'est pas dépliée, ce qui fait qu'on ne voit pas toutes les figures et qu'on ne peut absolument pas comprendre le document.
Nous avions fait notre propre numérisation pour ce document (lien vers planche Google, image ci-dessous).

Partager cet article

Repost0

Présentation

  • : Humanités numériques, édition scientifique, diffusion numérique de la connaissance, Enseignement supérieur et recherche (auteur Alexandre Moatti) = ISSN 2554-1137
  • : Discussions sur le projet de Bibliothèque numérique européenne, sur les bibliothèques numériques en général; sur l'édition scientifique papier & en ligne.
  • Contact

Avant-propos

Ce blog est créé à la rentrée scolaire 2006 pour suivre les sujets suivants:
# Bibliothèque numérique européenne (BNUE), et bibliothèques numériques en général.
# Edition et revues scientifiques.
# Culture scientifique.

Alexandre Moatti
 
Secrétaire général du comité de pilotage BNUE août 2005- août 2006
 



Recherche

Livre 'Au Pays de Numérix' (2015)

 

Couverture.jpg