Archives de catégorie : Données de la Recherche

Une réunion d’experts pour renforcer les aspects sémantiques en agriculture

schemaGACS

from http://aims.fao.org/sites/default/files/files/Breakout_1.pdf

Un workshop « Improving Semantics in Agriculture » a réuni 35 experts  à la FAO les 2 et 3 juillet 2015. Les présentations sont disponibles sur le site AIMS. L’Inra était présent.

L’objectif de ce workshop était de dresser une feuille de route de  gestion de l’information partagée en agriculture en s’appuyant sur le partage de données sémantiques.

Le GACS (« Global Agricultural Concept Scheme ») voir le billet sur ce blog,  a commencé le travail dans cette direction en créant un noyau commun pour les trois thesaurus  majeurs en agriculture – Agrovoc, CAB et NAL – pour créer un entrepôt global de l’information conceptuelle et terminologique.

Il reste encore beaucoup à faire pour créer un point de référence et un hébergement pour les vocabulaires, taxonomies et ontologies en agriculture et nutrition. Après la phase d’expérimentation et de prototype, cette réunion avait pour objectif de proposer des pistes d’ évolutions futures.

Une synthèse « Préworkshop » des besoins de chaque institutions présente a été réuni dans un document. Les présentations des différents intervenants  et l’enregistrement audio des séances sont disponibles sur   http://aims.fao.org/node/117665

Souce « Improving Semantics in Agriculture » Workshop. 2-3 July 2015, FAO HQ. AIMS. http://aims.fao.org/node/117665

GitHub pour les scientifiques : une bonne ou mauvaise manière ouverte d’héberger et de partager les connaissances ?

Sources :

  1. il existe  un service interne pour obtenir un DOI en particulier pour des données,
  2.  concernant Github en tant que forge logiciels, une réflexion est lancée sur la mise en service d’une forge INRA nationale qui garantira la propriété intellectuelle et la pérennité des logiciels,
  3. pour ce qui concerne l’hébergement des données, le chantier interne partage de la donnée a vocation à proposer des solutions de stockage et d’échange des données.

actualisation du 2 juin 2017 :

Préconisation INRA pour l’utilisation d’une forge logicielle

Le document d’orientation #INRA2025 nous implique dans une science ouverte, reproductible et interdisciplinaire, qui s’appuiera sur les avancées technologiques du numérique. Cette préconisation est décrite de façon voulue simple dans la note suivante : INRA-UtiliserForge

Bonnes pratiques pour publier des données sur le web [W3C Working Draft]

source : Data on the Web Best Practices
First Public Working Draft
http://www.w3.org/TR/2015/WD-dwbp-20150224/#bp-summary

Ce document, ayant le statut Working draft du W3C, décrit les bonnes pratiques pour encourager la diffusion des données via internet, qu’elles soient issues de l’action des données ouvertes produites par les gouvernements (disponibles sur le Global Open Data Index de l’Open Knowledge Foundation) [1] de la publication des données de recherche encouragée par des institutions comme la Research Data Alliance [2] , de l’analyse ou du moissonnage des médias sociaux, ou encore de la production des données provenant du patrimoine culturel de la BNF [3]. Le Linked Open Data Cloud [4] donne une idée de l’importance de ce phénomène.

Il y a cependant une nécessité fondamentale de compréhension entre les producteurs de données et les utilisateurs.

Le document présente 27 bonnes pratiques qui couvrent différents aspects comme les formats de données, l’accès aux données, l’identification des données et les métadonnées. Un ensemble d’études de cas [5] a été analysé pour rédiger ces bonnes pratiques.

Ce document se veut également plus général que la note Best Practices for Publishing Linked Data [6] et traite d’autres formats comme CSV et JSON ainsi que l’utilisation de vocabulaires.

Notes

re3data : une première version d’API disponible

Re3data_Logo_RGB_72dpire3data, répertoire d’entrepôts pour les données de la recherche (1130 entrepôts en mars 2015 avec un accroissement moyen de 10 entrepôts par semaine), vient de mettre à disposition une première version d’API, en test, qui permet aux développeurs de récupérer au format XML d’une part la liste des entrepôts et d’autre part la description complète d’un entrepôt identifié.

Parution du rapport de la RDA « The Data Harvest: How sharing research data can yield knowledge, jobs and growth »

DataHarvest_Report

Source : The Data Harvest: How sharing research data can yield knowledge, jobs and growth. 2014. 40 p. http://europe.rd-alliance.org/documents/publications-reports/data-harvest-how-sharing-research-data-can-yield-knowledge-jobs-and disponible sur le site http://europe.rd-alliance.org.

Le Groupe Europe de la RDA (Research Data Alliance) a publié en décembre 2014 le rapport :  The Data Harvest: How sharing research data can yield knowledge, jobs and growth (traduction libre : Moisson de données : comment les données partagées de la recherche peuvent augmenter la connaissance, l’emploi et  la croissance).

Ce rapport fait suite au rapport publié en 2010 par le High Level Group on Scientific Data intitulé « Riding The Wave » sur une série de recommandations sur la manière dont l’Europe pouvait tirer profit de la vague de croissance des données scientifiques. Ce nouveau rapport présente maintenant comment l’Europe doit agir pour sécuriser sa position dans le futur marché des données.  Contact : info@europe.rd-alliance.org.

Le rapport présente 7  recommandations  générales qui portent sur la nécessité d’avoir des plans de gestion de données, de promouvoir l’accès aux données pour un large public du chercheur au citoyen,  de développer des moyens en faveur du partage de données (en n’oubliant pas Horizon2020), de développer des politiques et des outils pour construire des données fiables, et d’encourager les collaborations internationales. Les deux dernières recommandations sont axées sur la nouveauté du domaine des partage des données scientifiques : il ne faut pas le réguler sur des points que nous ne comprenons pas ou arrêter ce qui a bien commencé.

Le rapport présente aussi les différentes initiatives thématiques et les projets qui construisent les données de la recherche comme  OpenAire  (http://openaire.eu) qui doit devenir le portail unique de diffusion des productions financées par l’UE  et  Eudat  (European Data Infrastructure www.eudat.eu) qui permettent d’assembler les différentes initiatives comme celles des hollandais (www.u2connect.eu).

De la page 13 à 16 sont présentées des initiatives européennes qui offrent un bon panorama des projets en cours :

Gestion des données de la recherche : Traduction française des deux guides pour Horizon 2020

Research Data Management by jannekestaaks on Flickr. https://www.flickr.com/photos/jannekestaaks/14391226325

Research Data Management de jannekestaaks on Flickr

D’après le billet « Traduction française des deux guides pour Horizon 2020 » publié le 29 octobre , par Thérèse Hameau sur le site www.donneesdelarecherche.fr

Le service traduction de l’Inist-Cnrs a traduit en français les deux guides publiés par la Commission européenne pour aider les porteurs de projet du Programme-cadre Horizon 2020. Une version des deux guides a été publiée le 19 septembre 2014. et une version modifiée de l’un des guides le 29 octobre 2014.

L’un porte sur le libre accès aux publications scientifiques et aux données de la recherche. Il rappelle le contexte du libre accès et donne quelques définitions. Il détaille les obligations que doivent remplir les bénéficiaires de financement dans le cadre d’H2020 pour rendre leurs articles librement accessibles ainsi que leurs données pour les axes entrant dans le Projet pilote de libre accès aux données.
L’autre fournit les lignes directrices concernant la gestion des données et l’élaboration d’un plan de gestion de ces données.

Visibilité de la recherche française

Pour comprendre « d’où venait le manque de visibilité et de lisibilité de la recherche française », et ce malgré le mouvement d’ouverture des données publiques, le site 2Elabo dresse un état des lieux nourri de nombreux exemples des réalisations, des projets, ainsi que des standards préconisés et outils utilisés internationalement pour mettre en place des systèmes d’information sur la recherche.

A travers les trois volets :

  1. Accès aux données sur la recherche (12/11/2013),
  2. Gestion des informations tout au long du cycle de vie de la recherche (21/02/2014),
  3. Annuaires de chercheurs et valorisation de l’expertise des laboratoires (06/09/2014),

2Elabo pointe le retard pris par la France au regard d’autres pays qui, comme la Grande Bretagne avec le portail national Gateway to Research et le projet researchfish, ont su mettre en place des systèmes d’information sur la recherche ouverts, offrant des données riches couvrant tout le cycle de vie de la recherche.
Ils montrent comment l’utilisation de standards, notamment CERIF (Common European Research Information Format), en assurant l’interopérabilité des informations de recherche et l’échange de données entre institutions, conduit à une meilleure compréhension du paysage de la recherche à l’échelle mondiale, et à la possibilité d’obtenir des indicateurs pour le suivi des projets et les politiques de recherche et d’innovation.
Les systèmes d’information sur la recherche en cours ou CRIS (Current Research Information Systems), utilisés dans les organismes de recherche et basés sur CERIF, ont des atouts nombreux qui en font « les briques d’un système d’information moderne, interopérable à l’échelle d’un pays et bientôt entre les pays » gages de gain de temps pour le chercheur et d’efficacité pour l’administration de la recherche.
Les systèmes de réseautage pour la recherche ou RNS (Research Networking System), basés sur les profils des chercheurs, améliorent leur visibilité, la communication sur leurs compétences, leurs axes de recherches et leurs collaborations. Ils sont amenés à remplacer les anciens annuaires d’universités et organismes de recherche car ils répondent à des pré-requis – identifiés lors d’enquêtes, de séances de brainstorming et d’entretiens avec des chercheurs, d’analyse de la littérature et d’observations en contexte – détaillés et illustrés de nombreux exemples dans le 3ème volet de cette étude.

S’appuyer sur ORCID, déployer un logiciel CRIS (Pure, Elements, Converis…), un RNS ( VIVO, Profiles RNS ou UNIWeb…) ou adosser un annuaire à un entrepôt institutionnel s’il existe (développement “maison” comme Okina de l’université d’Angers ou solution clés en mains comme DSpace-CRIS) sont présentées comme les quatre approches que pourra suivre une institution désirant construire un annuaire de ses chercheurs, annuaires qui pourront être fédérés au travers de portails comme VIVOsearch, DIRECT2experts ou CTSAsearch.

Vu sur
deuxième labo

Les services de conservation et d’exposition de données : un guide pour les chercheurs SHS

Huma-Num est une très grande infrastructure (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Une nouvelle version (juin 2014) de son guide de 24 pages «Les services de conservation de données » est disponible. Ce guide  propose aux équipes de recherche des solutions pour assurer la sauvegarde, la pérennité et le partage de leurs données numériques (PDF à télécharger).

grille

Introduction de Nicolas Larousse (CNRS)

Aujourd’hui, les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Le passage au numérique apporte un gain évident pour la transmission, la diffusion de ces informations et le travail collaboratif qui peut être effectué sur ces données. Mais paradoxalement, un objet numérique peut être plus fragile que son homologue du monde réel : en effet, une photo très abimée peut encore fournir de nombreuses informations, alors qu’un fichier informatique est totalement inutilisable à la moindre altération.

Pour éviter ces pertes, Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales, un ensemble de services pour le traitement,
le stockage, la diffusion et la conservation de données numériques, regroupés sur « la Grille de services ». Les services de conservation se déclinent en stockage sécurisé, exposition de données et archivage à long terme.
Le premier volet de ce dossier présente le stockage sécurisé associé aux outils de traitement proposés par la « Grille de services ».

Le second volet présente Nakala, le nouveau service proposé pour exposer les données.

Enfin, le troisième volet est consacré au service d’archivage à long terme mis en place par la TGIR, qui s’appuie sur l’infrastructure et les compétences du Centre Informatique
National de l’Enseignement Supérieur
. Les problématiques soulevées par l’archivage à long terme sont ensuite mises en perspective par la vision des Archives de France sur le devenir des données de la recherche en format numérique.

Lu dans Echodocs. Les services de conservation de données. 17/06/2014.  http://www.echosdoc.net/2014/06/les-services-de-conservation-de-donnees/

lire aussi :
NAKALA: un nouveau service pour l’exposition de données.humanum.hypotheses.org/369

Zenodo, un entrepôt de données

Zenodo permet, comme d’autres outils  (figshare, Dryad,…), de déposer des ensembles de donnés et de les lier aux publications scientifiques qui ont été écrites  à partir de ces données. Il est cependant à considérer avec attention, en particulier parce qu’il est issu du projet européen  OpenAIREplus , développé par le CERN et lié aux projets pilotes de la Commission européenne en matière de gestion de données.

La recherche peut se faire sur différents types de documents :Datasets, Images, Posters, Presentations, Publications (article,livre,…), Video/Audio.

Zenodo affecte des DOIs  aux objets et expose les métadonnées de description au moissonnage à travers le protocole OAI-PMH, le protocole d’interopérabilité des archives ouvertes (Prodinra, HAL…)

Un point particulièrement intéressant : Zenodo permet de créer des communautés et de les gérer soi-même en filtrant ce qui peut y être déposé ou non et son niveau d’accès, « open access » ou « restricted access » avec le courriel à contacter pour obtenir le document, closed access. Une communauté peut correspondre à un colloque ou à un projet par exemple.

figure 1 : un dataset en libre accès

figure 2 : un article en accès réservé

Zenodo utilise le altmetrics donut qui permet de connaitre l’impact de documents dans les réseaux sociaux.

Un exemple de « Donut » de Altmetric dans un journal scientifique

Zenodo pourrait devenir un outil important pour les scientifiques qui souhaitent partager leurs données mais qui n’ont pas d’entrepôts institutionnels ou thématiques pour le faire. Il pourra être un élément important pour répondre à l ‘obligation de rendre les publications et les données librement accessibles, déclarée dans le programme Horizon 2020 de la Commission européenne

Références :

Site d’information inter-instituts sur les données de la recherche

Le site d’information sur les données de la recherche, créé à l’initiative du ministère de l’Enseignement supérieur et de la Recherche, est  une plateforme d’information et de veille sur les données de la recherche. Le CNRS, L’inist, L’inra et l’Inserm et l’IRD en sont partenaires.

Le site propose différentes rubriques : Actualités, Normes formats et protocoles, Politiques et textes de références, Projets et Initiatives ainsi qu’une webographie par type de documents.
Selon la ligne éditoriale, le site  a comme objectifs de :

  • développer les connaissances sur les données de la recherche ;
  • sensibiliser à l’importance qu’elles revêtent ;
  • favoriser la réflexion autour des problématiques qui y sont liées.

Le site s’adresse aux professionnels de l’information scientifique et technique et aux différentes communautés scientifiques qui bénéficient ainsi d’un espace commun d’information sur les problématiques liées aux données.

Il a vocation à être alimenté par un réseau de veilleurs représentatifs des différentes disciplines scientifiques et des métiers, et appartenant à différents établissements de recherche.

http://www.donneesdelarecherche.fr/