Accès aux données
Il est possible d’utiliser des outils d’anonymisation, comme Amnesia (https://amnesia.openaire.eu/) qui permet de renvoyer directement les données anonymisées dans Data INRAE.
La métadonnée Link to data indique le lien direct vers les données. Un lien vers une base de données ne permettra pas de retrouver précisément les données décrites par le dataset. La base de données dont le jeu de données est extrait peut être mentionnée dans la métadonnée Data sources.
L’accessibilité des datasets ne change pas. Il est en revanche nécessaire de maintenir une personne contact (qui peut être l’administrateur du dataverse parent) et éventuellement d’attribuer des droits pour modifier le dataset ou donner accès à des fichiers restreints.
Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans Data INRAE.
Note : Dans le cas où l’autre entrepôt attribue un DOI, il ne faut pas faire de dépôt dans Data INRAE (voir la question Peut-on déposer les données dans un autre entrepôt si celui-ci attribue un DOI ?)
Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.
Administration des dataverses
Oui on peut rendre obligatoire une métadonnée qui était facultative. Il n’y a pas d’impact sur les datasets déjà publiés tant qu’ils ne sont pas modifiés. Lors d’une modification, la métadonnée obligatoire devra alors être renseignée.
Oui, par son(ses) administrateur(s). Attention cependant à la cohérence des modifications apportées si celles-ci impactent les datasets déjà présents :
- Sélection des blocs de métadonnées.
- Caractère obligatoire ou facultatif des métadonnées
Pour le cas des droits des utilisateurs, voir “Peut-on modifier les droits d’un utilisateur ?”
Il n’est pas possible pour le moment de faire une recherche sur la date de création ni d’enregistrer une alerte automatique dans Data INRAE.
Non, il n’y a pas de recommandation particulière. Les quelques contraintes sont indiquées dans le paramétrage du dataverse (menu Thème + widget).
API
La plupart des fonctionnalités de Dataverse est disponible via ses API, y compris l’attribution de rôles pour mettre en place un processus de curation. L’API permettra d’envoyer un dataset en révision, il ne sera publié que si la commande de publication est exécutée. Un dataset créé par l’API peut également être modifié via l’interface utilisateur.
Choisir un entrepôt
Oui, si cet entrepôt est l’entrepôt de référence dans le domaine concerné. Dans ce cas, il ne faut pas re-déposer les données dans Data INRAE. Contacter le support datainrae@inrae.fr qui vérifiera la possibilité d’exposer le jeu de données dans Data INRAE.
Le schéma suivant schématise les critères de choix d’un entrepôt :

Il est préconisé de mettre toutes les données dans un même entrepôt, sachant qu’il est possible d’exposer ou de moissonner des métadonnées entre différents entrepôts. Si le dépôt dans différents entrepôts s’impose, penser à utiliser les métadonnées ad-hoc (dans Data INRAE : related datasets) pour faire des liens entre les jeux de données du projet, et à indiquer l’ensemble des producteurs (ex. INRAE, CIRAD, IRD, etc.) dans la métadonnée « Producer ».
Conditions générales
Oui, la gratuité de Data INRAE est assurée dans le cadre de la politique Open Data d’INRAE.
Oui, toutes les données d’un projet peuvent être déposées dans Data INRAE, dans la collection qui lui sera dédiée, même si INRAE n’a pas contribué à leur production.
INRAE s’engage à conserver au moins 10 ans les données déposées dans Data INRAE.
Curation
La plupart des fonctionnalités de Dataverse est disponible via ses API, y compris l’attribution de rôles pour mettre en place un processus de curation. L’API permettra d’envoyer un dataset en révision, il ne sera publié que si la commande de publication est exécutée. Un dataset créé par l’API peut également être modifié via l’interface utilisateur.
Non, aucune action n’est possible sur le dataset par le déposant tant que le dataset est en cours de révision.
Datapapers
Non, la génération d’un datapaper via la fonctionnalité dédiée n’est possible qu’à partir du DOI d’un dataset.
Les deux ordres sont possibles et relèvent de la stratégie scientifique, sous la responsabilité des auteurs. S’il existe une inquiétude sur l’exploitation des données, il est possible de rédiger en premier le datapaper mais de le publier une fois l’article scientifique publié. En cas de doute, contacter l’éditeur.
Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.
Datasets
Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au dataset il possible de l’indiquer dans la métadonnée Contributor en précisant le Type, et en choisissant DOI dans Contributor Identifier Scheme et le DOI dans Contributor Identifier.
Non, un dataset est toujours créé dans un dataverse : à la racine du portail (dataverse https://data.inrae.fr/dataverse/root) ou un sous-dataverse.
On peut restreindre l’accès à un fichier d’un dataset. Data INRAE ne gère pas automatiquement la durée de cette restriction d’accès (embargo), il revient à l’administrateur du dataset d’enlever la restriction le moment venu.
Pour limiter l’accès à un dataset dans son ensemble, il ne doit pas avoir été publié. L’accès à ce dataset ne sera alors possible qu’aux personnes autorisées ou via son URL privée.
On ne peut pas limiter l’accès à un dataverse publié.
Nous recommandons de publier un dataset dès que possible, la vocation de Data INRAE étant d’être un entrepôt d’accès aux données.
Dans le cas de données non liées à une publication, un délai de 6 mois paraît raisonnable. Au-delà de ce délai vous pourrez être alerté par l’administrateur du dataverse de rattachement.
Dans le cas de données liées à une publication, la loi pour une république numérique recommande la publication des données sous-jacentes 6 mois après la publication pour les sciences techniques et médicales, 12 mois pour les sciences humaines et sociales. (voir Activist n°4)
Oui, tant qu’il n’a pas été publié, un dataset peut être supprimé. Une fois publiée, seule la version brouillon peut être supprimée.
Dataverses
On peut restreindre l’accès à un fichier d’un dataset. Data INRAE ne gère pas automatiquement la durée de cette restriction d’accès (embargo), il revient à l’administrateur du dataset d’enlever la restriction le moment venu.
Pour limiter l’accès à un dataset dans son ensemble, il ne doit pas avoir été publié. L’accès à ce dataset ne sera alors possible qu’aux personnes autorisées ou via son URL privée.
On ne peut pas limiter l’accès à un dataverse publié.
Déplacement de datasets ou de dataverses
Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.
Documentation des données
La version finale du plan de gestion des données peut être déposée dans Data INRAE, dans le dataverse dédié au projet ou à la structure dans le cadre desquels le dataset a été produit. Il recevra ainsi un DOI. Un lien entre le dataset et ce PGD doit être fait dans les deux directions : via la métadonnée Related Material depuis le dataset, via la métadonnée Related dataset depuis le PGD.
DOI
Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au dataset il possible de l’indiquer dans la métadonnée Contributor en précisant le Type, et en choisissant DOI dans Contributor Identifier Scheme et le DOI dans Contributor Identifier.
Oui, le DOI est généré et réservé auprès de DataCite dès la création du dataset, même s’il n’est actif qu’au moment où le dataset est publié.
Le site de pré-production publie uniquement sur l’environnement de test de Datacite, qui est un système fermé : lui seul permet de retrouver directement la ressource correspondant au DOI. Le DOI ne mène à aucune landing page.
Oui, si cet entrepôt est l’entrepôt de référence dans le domaine concerné. Dans ce cas, il ne faut pas re-déposer les données dans Data INRAE. Contacter le support datainrae@inrae.fr qui vérifiera la possibilité d’exposer le jeu de données dans Data INRAE.
Le schéma suivant schématise les critères de choix d’un entrepôt :

Oui, le DOI est basé sur le système d’identifiant Handle et certifié ISO (ISO 26324, Digital Object Identifier System). L’unicité est assurée par le fait que les suffixes sont uniques pour un préfixe donné.
Environnements de pré-production et de production
En effet, l’accès à la pré-production nécessite un VPN (réseau privé virtuel) INRAE lorsqu’on est hors site INRAE. L’utilisation du VPN INRAE est limitée aux personnels INRAE et PEPS (Personnels Et Partenaires Suivis).
Pour plus d’information, voir Accès aux données et applications depuis l’extérieur
Le site de pré-production publie uniquement sur l’environnement de test de Datacite, qui est un système fermé : lui seul permet de retrouver directement la ressource correspondant au DOI. Le DOI ne mène à aucune landing page.
Non, ces deux environnements sont indépendants et il n’y a pas de possibilité d’exporter un dataset de l’un pour l’importer dans l’autre.
Fichiers
Il n’est pas possible de modifier le contenu d’un fichier dans l’interface utilisateur. Pour mettre à jour un fichier, il faut le remplacer.
L’interface de dépôt de Data INRAE limite le téléversement à 1000 fichiers en une fois. Au-delà il est possible d’utiliser l’outil DVUploader ou l’API native Dataverse.
Les fichiers sont exportables dans leur format original. Pour les données tabulaires, l’export est également possible au format Rdata et au format tabulé.
Une modification de fichier crée un nouveau brouillon du dataset. Une nouvelle publication de celui-ci rend publique les modifications et met à jour la version.
Non, il n’est pas possible de trier les fichiers par nombre de téléchargements. On peut trier les fichiers d’un dataset par nom, date de dépôt, taille et catégorie (type de fichier).
Non, si le fichier contient plusieurs feuilles, il est déposé mais seule la 1ère feuille est ingérée et donc transformée en .tab.
Pour pouvoir réaliser une bonne ingestion, il est donc conseillé de ne téléverser que des fichiers contenant un seul onglet avec les variables sur la première ligne (entêtes de colonne) et une observation par ligne (voir Fichiers de données tabulées)
Oui, tous les formats de fichier sont acceptés. Les fichiers .zip sont décompressés automatiquement (limite : 1000 fichiers zippés) et l’arborescence présente dans .zip est conservée dans Data INRAE.
Ce n’est pas possible depuis l’interface. Il faut utiliser l’API Dataverse (Data Access API) en indiquant le DOI du fichier avec la commande https://data.inrae.fr/api/access/datafile/:persistentId/?persistentId=doi:{DOI du fichier}
Si l’erreur d’ingestion est détectée alors que le dataset est encore en mode brouillon, il faut supprimer le fichier, chercher d’où provient l’erreur d’ingestion (voir : Fichiers de données tabulées), puis téléverser le fichier corrigé.
Si le dataset a été publié, il faudra remplacer le fichier par le fichier corrigé.
La seule limite est la taille des fichiers, fixée actuellement à 50 Go par fichier.
Pour des fichiers supérieurs à 50 Go, une solution est de les déposer sur un autre dispositif (voir Stocker les données et Choisir un entrepôt) et d’indiquer l’URL de la localisation du fichier dans la métadonnée “Link to data”.
Non, la fonction de “ lien “ n’est disponible qu’entre datasets et dataverse. Par contre, il est possible de faire référence à un fichier déjà existant via la métadonnée “Related datasets”.
Des recommandations pour nommer et organiser ses fichiers de données sont disponibles sur le site Gestion et partage des données scientifiques. Des recommandations spécifiques peuvent être proposées par l’administrateur d’un dataverse et intégrées dans le plan de gestion des données associé au dataverse.
Gestion des accès et des droits utilisateurs
Par défaut, un nouveau dataverse hérite des droits du dataverse parent. Ces droits sont également modifiables via l’option “Modifier > Autorisations” ou “Edit > Permissions”.
L’accessibilité des datasets ne change pas. Il est en revanche nécessaire de maintenir une personne contact (qui peut être l’administrateur du dataverse parent) et éventuellement d’attribuer des droits pour modifier le dataset ou donner accès à des fichiers restreints.
Oui, il est possible de leur attribuer les mêmes droits qu’à des utilisateurs INRAE mais il faut qu’ils aient déjà créé leur compte.
Se reporter au chapitre du guide de l’utilisateur “Gérer les droits”.
Les droits d’un utilisateur (ou d’un groupe d’utilisateurs) sont liés aux rôles qui lui ont été attribués sur un dataverse, un dataset ou un fichier. Ils peuvent être modifiés.
Pour les datasets et fichiers, voir le guide Rôles et permissions associés à un dataset
Pour un dataverse, voir : Attribuer un rôle à un utilisateur ou à groupe
Oui si l’on souhaite attribuer les droits aux agents de l’unité. On pourra alors créer un groupe spécifique dans lequel seront intégrés les agents ayant un compte dans le portail. Ceci peut être réalisé via l’interface (voir Attribuer un rôle à un utilisateur ou à groupe). Il est également possible d’Importer une liste d’utilisateurs dans un groupe.
Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.
Gestion des comptes
Au niveau du profil de l’utilisateur, en haut à droite de l’écran lorsqu’on est authentifié, cliquer sur “Mes données”. Dans les facettes, ne sélectionner que “Dataverses” et le rôle “Administrateur”.
Oui, il est possible d’attribuer un alias mail à un compte utilisateur.
Il n’y a pas de validation des inscriptions des personnes non INRAE. La Création d’un compte externe n’ouvre aucun droit particulier.
Liens entre datasets et dataverses
Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.
Non, la fonction de “ lien “ n’est disponible qu’entre datasets et dataverse. Par contre, il est possible de faire référence à un fichier déjà existant via la métadonnée “Related datasets”.
Métadonnées
La plupart des métadonnées proviennent de Dataverse (voir Metadata References), d’autres ont été créées spécifiquement pour Data INRAE, comme celles du bloc dédié aux ressources sémantiques.
De la même façon, les valeurs contrôlées pour ces métadonnées peuvent provenir de référentiels externes ou établies pour Data INRAE.
Les métadonnées peuvent être mises à jour par l’équipe Support Data INRAE.
Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au dataset il possible de l’indiquer dans la métadonnée Contributor en précisant le Type, et en choisissant DOI dans Contributor Identifier Scheme et le DOI dans Contributor Identifier.
Non, le choix de la langue dépend de la cible visée par votre publication. Certaines métadonnées peuvent être créées dans plusieurs langues (par exemple une description en anglais et une description en français).
Oui, y compris pour les jeux de données retirés de Data INRAE (deaccessioned / retirés de la diffusion). Par ailleurs, les métadonnées de Data INRAE sont également conservées dans d’autres systèmes, notamment dans DataCite.
Non, cette fonctionnalité n’existe pas. Si vous souhaitez utiliser plusieurs fois une même liste d’auteurs/contributeurs, vous pouvez les pré-saisir dans la métadonnée correspondante via un modèle de dataset (dataset template).
Si vous avez besoin d’automatiser des dépôts vous pouvez contacter le support (datainrae@inrae.fr) pour utiliser les APIs.
Il est tout à fait possible de compléter les métadonnées d’un dataset après dépôt et validation. Une nouvelle version (mineure ou majeure) est alors créée.
Il n’est pas possible pour un utilisateur d’ajouter des métadonnées dans le formulaire. Il est en revanche possible de déposer, avec le fichier de données, un fichier annexe des métadonnées spécifiques.
Pour suggérer l’ajout de métadonnées au formulaire de saisie, contactez le support utilisateur datainrae@inrae.fr.
Data Documentation Initiative (DDI) est un standard de documentation des données, créé par DDI Alliance, issues d’enquêtes et de méthodes d’observation en sciences sociales, comportementales, économiques et de la santé.
Il s’agit ici des informations liées à la revue dans laquelle sont publiées les données.
L’identifiant ORCID est l’identifiant recommandé par INRAE pour les auteurs et les contributeurs (voir Activ’IST n°2). Il est également préconisé par le deuxième Plan national pour la science ouverte .
Vous pouvez toutefois utiliser d’autres identifiants dans Data INRAE, sachant qu’il n’est possible d’indiquer qu’un seul identifiant par auteur.
L’auteur est le créateur d’une ressource (des données par exemple). Il doit être présent dans la citation de la ressource. Associée au DOI, la métadonnée Auteur est obligatoire dans Data INRAE.
Un contributeur est une personne ou un organisme responsable de la collecte, la gestion, la distribution ou de toute autre contribution au développement de la ressource. Il n’est pas, en général, cité dans la référence de la ressource.
Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans Data INRAE.
Note : Dans le cas où l’autre entrepôt attribue un DOI, il ne faut pas faire de dépôt dans Data INRAE (voir la question Peut-on déposer les données dans un autre entrepôt si celui-ci attribue un DOI ?)
Oui, le DOI est basé sur le système d’identifiant Handle et certifié ISO (ISO 26324, Digital Object Identifier System). L’unicité est assurée par le fait que les suffixes sont uniques pour un préfixe donné.
Modèles de métadonnées
Les modèles de datasets (ou dataset templates) sont créés dans un dataverse par l’administrateur et s’appliquent aux datasets créés dans ce dataverse.
Le modèle de dataset “INRAE template” ne pré-remplit que les informations liées à la Licence Ouverte/Etalab. Si vous souhaitez pré-remplir d’autres métadonnées, il vous faudra créer un autre modèle de saisie.
Non, le modèle (template) de dataset ne s’applique qu’aux nouveaux datasets qui choisiront de l’utiliser et uniquement au moment de leur création.
Moissonnage
Non, pour le moment le moissonnage de Zenodo n’est pas supporté par Dataverse.
Organisation des dataverses
Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.
Un administrateur de dataverse ne peut pas le faire, seuls les administrateurs du portail (l’équipe support) le peuvent. Il faut donc bien réfléchir au positionnement d’un dataverse avant sa création.
Il est par contre possible de lier un dataverse à un autre, celui-ci affichera alors le contenu du dataverse lié.
Un dataverse n’est rattaché qu’à un seul dataverse parent, celui dans lequel il a été créé. Mais il est possible de lier un dataverse à un autre, celui-ci affichera alors le contenu du dataverse lié.
Registre des visiteurs
Oui, si un ou plusieurs registre(s) des visiteurs sont configurés au niveau dataverse, c’est bien au niveau du dataset, dans les conditions d’utilisation, que se fait le choix d’utiliser ou non un registre des visiteurs, et lequel.
Type de contenu
L’institut préconise l’usage d’une forge logicielle institutionnelle (SourceSup) pour le code. La description du code, avec ou sans son dépôt dans le portail Data INRAE, permet de lui attribuer un DOI et de le rendre ainsi citable de manière fiable et pérenne (voir Cas particulier des logiciels sur le site Gestion et partage des données scientifiques), ainsi que de diffuser les exécutables ou autres artifacts. Dans les deux cas, la métadonnée « Link to Data » sera utilisée pour lier le dataset décrivant le code dans Data INRAE au code dans la forge.
La version finale du plan de gestion des données peut être déposée dans Data INRAE, dans le dataverse dédié au projet ou à la structure dans le cadre desquels le dataset a été produit. Il recevra ainsi un DOI. Un lien entre le dataset et ce PGD doit être fait dans les deux directions : via la métadonnée Related Material depuis le dataset, via la métadonnée Related dataset depuis le PGD.
La métadonnée Link to data indique le lien direct vers les données. Un lien vers une base de données ne permettra pas de retrouver précisément les données décrites par le dataset. La base de données dont le jeu de données est extrait peut être mentionnée dans la métadonnée Data sources.
Oui, tous les formats de fichier sont acceptés. Les fichiers .zip sont décompressés automatiquement (limite : 1000 fichiers zippés) et l’arborescence présente dans .zip est conservée dans Data INRAE.