FAQ – Guide de l'utilisateur

Accès aux données

Comment fait-on pour anonymiser les données personnelles ?

Il est possible d’utiliser des outils d’anonymisation, comme Amnesia (https://amnesia.openaire.eu/) qui permet de renvoyer directement les données anonymisées dans Data INRAE.

Faut-il indiquer dans Link to data un lien direct vers la donnée ou peut-on renseigner la base de données dont est extrait le jeu de données ?

La métadonnée Link to data indique le lien direct vers les données. Un lien vers une base de données ne permettra pas de retrouver précisément les données décrites par le dataset. La base de données dont le jeu de données est extrait peut être mentionnée dans la métadonnée Data sources.

Les datasets restent-ils accessibles si plus personne ne s’en occupe (ex. départ à la retraite) ?

L’accessibilité des datasets ne change pas. Il est en revanche nécessaire de maintenir une personne contact (qui peut être l’administrateur du dataverse parent) et éventuellement d’attribuer des droits pour modifier le dataset ou donner accès à des fichiers restreints.

Si les données sont déjà entreposées ailleurs et accompagnées de métadonnées hors Data INRAE, la métadonnée « Link to Data » peut-elle pointer vers la page décrivant les données plutôt que vers les données elles-mêmes ?

Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans Data INRAE.

Note : Dans le cas où l’autre entrepôt attribue un DOI, il ne faut pas faire de dépôt dans Data INRAE (voir la question Peut-on déposer les données dans un autre entrepôt si celui-ci attribue un DOI ?)

Si on transmet une URL privée à un reviewer, aura-t-il un accès aux données avec restriction ?

Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.

Administration des dataverses

Peut-on changer les métadonnées facultatives pour les rendre obligatoires ? Que se passe-t-il alors pour les datasets déjà créés et dont les métadonnées facultatives n’étaient pas renseignées ?

Oui on peut rendre obligatoire une métadonnée qui était facultative. Il n’y a pas d’impact sur les datasets déjà publiés tant qu’ils ne sont pas modifiés. Lors d’une modification, la métadonnée obligatoire devra alors être renseignée.

Peut-on modifier à tout moment les paramètres d’un dataverse ?

Oui, par son(ses) administrateur(s). Attention cependant à la cohérence des modifications apportées si celles-ci impactent les datasets déjà présents :

Sélection des blocs de métadonnées.
Caractère obligatoire ou facultatif des métadonnées

Pour le cas des droits des utilisateurs, voir “Peut-on modifier les droits d’un utilisateur ?”

Un admin peut-il créer une alerte pour être prévenu lorsqu’un dataset a dépassé les 6 mois de création ?

Il n’est pas possible pour le moment de faire une recherche sur la date de création ni d’enregistrer une alerte automatique dans Data INRAE.

Y a t-il une charte graphique à respecter pour les dataverses ?

Non, il n’y a pas de recommandation particulière. Les quelques contraintes sont indiquées dans le paramétrage du dataverse (menu Thème + widget).

API

Est-il possible de faire de la curation sur des datasets envoyés par l’API ?

La plupart des fonctionnalités de Dataverse est disponible via ses API, y compris l’attribution de rôles pour mettre en place un processus de curation. L’API permettra d’envoyer un dataset en révision, il ne sera publié que si la commande de publication est exécutée. Un dataset créé par l’API peut également être modifié via l’interface utilisateur.

Choisir un entrepôt

Peut-on déposer les données dans un autre entrepôt si celui-ci attribue un DOI ?

Oui, si cet entrepôt est l’entrepôt de référence dans le domaine concerné. Dans ce cas, il ne faut pas re-déposer les données dans Data INRAE. Contacter le support datainrae@inrae.fr qui vérifiera la possibilité d’exposer le jeu de données dans Data INRAE.

Le schéma suivant schématise les critères de choix d’un entrepôt :

Pour un projet commun à plusieurs instituts, peut-on mettre nos données produites par INRAE dans Data INRAE et les autres ailleurs ?

Il est préconisé de mettre toutes les données dans un même entrepôt, sachant qu’il est possible d’exposer ou de moissonner des métadonnées entre différents entrepôts. Si le dépôt dans différents entrepôts s’impose, penser à utiliser les métadonnées ad-hoc (dans Data INRAE : related datasets) pour faire des liens entre les jeux de données du projet, et à indiquer l’ensemble des producteurs (ex. INRAE, CIRAD, IRD, etc.) dans la métadonnée « Producer ».

Conditions générales

Est-ce que Data INRAE continuera à rester gratuit ?

Oui, la gratuité de Data INRAE est assurée dans le cadre de la politique Open Data d’INRAE.

Je dois centraliser les données d’un programme où collaborent personnels INRAE et hors INRAE. Est-ce que je peux verser les données produites par des personnels hors INRAE ?

Oui, toutes les données d’un projet peuvent être déposées dans Data INRAE, dans la collection qui lui sera dédiée, même si INRAE n’a pas contribué à leur production.

Quelle est la durée de stockage des données ?

INRAE s’engage à conserver au moins 10 ans les données déposées dans Data INRAE.

Curation

Est-il possible de faire de la curation sur des datasets envoyés par l’API ?

Lorsque le dataset est soumis à révision, le déposant peut-il toujours intervenir dessus ?

Non, aucune action n’est possible sur le dataset par le déposant tant que le dataset est en cours de révision.

Datapapers

Peut-on générer un datapaper à partir d’un dataverse (et pas seulement un dataset) ?

Non, la génération d’un datapaper via la fonctionnalité dédiée n’est possible qu’à partir du DOI d’un dataset.

Quel ordre de publication privilégier, entre la publication de l’article et celle du datapaper ?

Les deux ordres sont possibles et relèvent de la stratégie scientifique, sous la responsabilité des auteurs. S’il existe une inquiétude sur l’exploitation des données, il est possible de rédiger en premier le datapaper mais de le publier une fois l’article scientifique publié. En cas de doute, contacter l’éditeur.

Si on transmet une URL privée à un reviewer, aura-t-il un accès aux données avec restriction ?

Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.

Datasets

Faut-il indiquer le DOI d’une ISC dans le dataset ?

Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au dataset il possible de l’indiquer dans la métadonnée Contributor en précisant le Type, et en choisissant DOI dans Contributor Identifier Scheme et le DOI dans Contributor Identifier.

Peut-on déposer un dataset sans l’associer à un dataverse ?

Non, un dataset est toujours créé dans un dataverse : à la racine du portail (dataverse https://data.inrae.fr/dataverse/root) ou un sous-dataverse.

Peut-on limiter l’accès ou mettre un embargo à un dataset ou à un dataverse ?

On peut restreindre l’accès à un fichier d’un dataset. Data INRAE ne gère pas automatiquement la durée de cette restriction d’accès (embargo), il revient à l’administrateur du dataset d’enlever la restriction le moment venu.

Pour limiter l’accès à un dataset dans son ensemble, il ne doit pas avoir été publié. L’accès à ce dataset ne sera alors possible qu’aux personnes autorisées ou via son URL privée.

On ne peut pas limiter l’accès à un dataverse publié.

Quel est le délai recommandé pour publier un dataset ?

Nous recommandons de publier un dataset dès que possible, la vocation de Data INRAE étant d’être un entrepôt d’accès aux données.

Dans le cas de données non liées à une publication, un délai de 6 mois paraît raisonnable. Au-delà de ce délai vous pourrez être alerté par l’administrateur du dataverse de rattachement.
Dans le cas de données liées à une publication, la loi pour une république numérique recommande la publication des données sous-jacentes 6 mois après la publication pour les sciences techniques et médicales, 12 mois pour les sciences humaines et sociales. (voir Activist n°4)

Un dataset qui n’a pas été publié peut-il être supprimé ?

Oui, tant qu’il n’a pas été publié, un dataset peut être supprimé. Une fois publiée, seule la version brouillon peut être supprimée.

Dataverses

Peut-on limiter l’accès ou mettre un embargo à un dataset ou à un dataverse ?

Pour limiter l’accès à un dataset dans son ensemble, il ne doit pas avoir été publié. L’accès à ce dataset ne sera alors possible qu’aux personnes autorisées ou via son URL privée.

On ne peut pas limiter l’accès à un dataverse publié.

Déplacement de datasets ou de dataverses

Est-ce qu’un dataset peut être raccroché à un dataverse a posteriori ?

Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.

Documentation des données

Est-ce que vous conseillez d’inclure le Plan de gestion des données associé à un dataset ?

La version finale du plan de gestion des données peut être déposée dans Data INRAE, dans le dataverse dédié au projet ou à la structure dans le cadre desquels le dataset a été produit. Il recevra ainsi un DOI. Un lien entre le dataset et ce PGD doit être fait dans les deux directions : via la métadonnée Related Material depuis le dataset, via la métadonnée Related dataset depuis le PGD.

DOI

Faut-il indiquer le DOI d’une ISC dans le dataset ?

Le DOI est-il maintenu même si on traîne un peu dans la publication du dataset ?

Oui, le DOI est généré et réservé auprès de DataCite dès la création du dataset, même s’il n’est actif qu’au moment où le dataset est publié.

Lorsqu’on publie un dataset via une API en pré-production, est-ce qu’il est également enregistré sur DataCite ?

Le site de pré-production publie uniquement sur l’environnement de test de Datacite, qui est un système fermé : lui seul permet de retrouver directement la ressource correspondant au DOI. Le DOI ne mène à aucune landing page.

Peut-on déposer les données dans un autre entrepôt si celui-ci attribue un DOI ?

Le schéma suivant schématise les critères de choix d’un entrepôt :

Un DOI est-il standardisé ? unique ?

Oui, le DOI est basé sur le système d’identifiant Handle et certifié ISO (ISO 26324, Digital Object Identifier System). L’unicité est assurée par le fait que les suffixes sont uniques pour un préfixe donné.

Environnements de pré-production et de production

Je suis sur un site hors INRAE : je ne peux pas aller sur la page https://data-preproduction.inrae.fr/. J’imagine qu’il me faut le VPN ?

En effet, l’accès à la pré-production nécessite un VPN (réseau privé virtuel) INRAE lorsqu’on est hors site INRAE. L’utilisation du VPN INRAE est limitée aux personnels INRAE et PEPS (Personnels Et Partenaires Suivis).

Pour plus d’information, voir Accès aux données et applications depuis l’extérieur

Lorsqu’on publie un dataset via une API en pré-production, est-ce qu’il est également enregistré sur DataCite ?

Peut-on importer sur l’environnement de production data.inrae.fr un dataset créé sur la préproduction ?

Non, ces deux environnements sont indépendants et il n’y a pas de possibilité d’exporter un dataset de l’un pour l’importer dans l’autre.

Fichiers

Comment peut-on mettre à jour un fichier sans le supprimer et sans refaire un versement ?

Il n’est pas possible de modifier le contenu d’un fichier dans l’interface utilisateur. Pour mettre à jour un fichier, il faut le remplacer.

Comment téléverser une grande quantité de fichiers d’un coup ?

L’interface de dépôt de Data INRAE limite le téléversement à 1000 fichiers en une fois. Au-delà il est possible d’utiliser l’outil DVUploader ou l’API native Dataverse.

Dans quels formats peut-on exporter les fichiers ?

Les fichiers sont exportables dans leur format original. Pour les données tabulaires, l’export est également possible au format Rdata et au format tabulé.

Est-ce qu’il faut refaire une publication à chaque modification de fichier ?

Une modification de fichier crée un nouveau brouillon du dataset. Une nouvelle publication de celui-ci rend publique les modifications et met à jour la version.

Est-il possible de trier les fichiers d’un dataset par nombre de téléchargements ?

Non, il n’est pas possible de trier les fichiers par nombre de téléchargements. On peut trier les fichiers d’un dataset par nom, date de dépôt, taille et catégorie (type de fichier).

Les fichiers Excel peuvent-ils être ingérés avec plusieurs feuilles ?

Non, si le fichier contient plusieurs feuilles, il est déposé mais seule la 1ère feuille est ingérée et donc transformée en .tab.

Pour pouvoir réaliser une bonne ingestion, il est donc conseillé de ne téléverser que des fichiers contenant un seul onglet avec les variables sur la première ligne (entêtes de colonne) et une observation par ligne (voir Fichiers de données tabulées)

Peut-on déposer des fichiers zippés ou des archives ?

Oui, tous les formats de fichier sont acceptés. Les fichiers .zip sont décompressés automatiquement (limite : 1000 fichiers zippés) et l’arborescence présente dans .zip est conservée dans Data INRAE.

Peut-on pointer directement sur un fichier (et non sur sa fiche descriptive) ?

Ce n’est pas possible depuis l’interface. Il faut utiliser l’API Dataverse (Data Access API) en indiquant le DOI du fichier avec la commande https://data.inrae.fr/api/access/datafile/:persistentId/?persistentId=doi:{DOI du fichier}

Que faire si on s’aperçoit que son fichier a été mal ingéré ?

Si l’erreur d’ingestion est détectée alors que le dataset est encore en mode brouillon, il faut supprimer le fichier, chercher d’où provient l’erreur d’ingestion (voir : Fichiers de données tabulées), puis téléverser le fichier corrigé.

Si le dataset a été publié, il faudra remplacer le fichier par le fichier corrigé.

Quelle est la volumétrie de stockage possible ?

La seule limite est la taille des fichiers, fixée actuellement à 50 Go par fichier.

Pour des fichiers supérieurs à 50 Go, une solution est de les déposer sur un autre dispositif (voir Stocker les données et Choisir un entrepôt) et d’indiquer l’URL de la localisation du fichier dans la métadonnée “Link to data”.

Un fichier déposé dans Data INRAE peut-il être lié à plusieurs datasets ?

Non, la fonction de “ lien “ n’est disponible qu’entre datasets et dataverse. Par contre, il est possible de faire référence à un fichier déjà existant via la métadonnée “Related datasets”.

Y-a-t-il une convention de nommage des fichiers, datasets ou dataverses ?

Des recommandations pour nommer et organiser ses fichiers de données sont disponibles sur le site Gestion et partage des données scientifiques. Des recommandations spécifiques peuvent être proposées par l’administrateur d’un dataverse et intégrées dans le plan de gestion des données associé au dataverse.

Gestion des accès et des droits utilisateurs

Faut-il créer des droits à chaque création de dataverse ?

Par défaut, un nouveau dataverse hérite des droits du dataverse parent. Ces droits sont également modifiables via l’option “Modifier > Autorisations” ou “Edit > Permissions”.

Les datasets restent-ils accessibles si plus personne ne s’en occupe (ex. départ à la retraite) ?

Peut-on donner des droits à des personnes extérieures ?

Oui, il est possible de leur attribuer les mêmes droits qu’à des utilisateurs INRAE mais il faut qu’ils aient déjà créé leur compte.

Se reporter au chapitre du guide de l’utilisateur “Gérer les droits”.

Peut-on modifier les droits d’un utilisateur ?

Les droits d’un utilisateur (ou d’un groupe d’utilisateurs) sont liés aux rôles qui lui ont été attribués sur un dataverse, un dataset ou un fichier. Ils peuvent être modifiés.

Pour les datasets et fichiers, voir le guide Rôles et permissions associés à un dataset

Pour un dataverse, voir : Attribuer un rôle à un utilisateur ou à groupe

Pour un dataverse d’unité, faut-il créer des droits pour tous les agents de l’unité ?

Oui si l’on souhaite attribuer les droits aux agents de l’unité. On pourra alors créer un groupe spécifique dans lequel seront intégrés les agents ayant un compte dans le portail. Ceci peut être réalisé via l’interface (voir Attribuer un rôle à un utilisateur ou à groupe). Il est également possible d’Importer une liste d’utilisateurs dans un groupe.

Si on transmet une URL privée à un reviewer, aura-t-il un accès aux données avec restriction ?

Oui, l’URL privée permet d’accéder aux fichiers d’un dataset non encore publié (statut draft), même si ces fichiers sont en accès restreint.

Gestion des comptes

Comment savoir pour quel(s) dataverse(s) j’ai des droits d’administration ?

Au niveau du profil de l’utilisateur, en haut à droite de l’écran lorsqu’on est authentifié, cliquer sur “Mes données”. Dans les facettes, ne sélectionner que “Dataverses” et le rôle “Administrateur”.

Peut-on utiliser un alias mail pour un compte utilisateur ?

Oui, il est possible d’attribuer un alias mail à un compte utilisateur.

Qui valide les inscriptions des personnes non INRAE ? Est-ce automatique ?

Il n’y a pas de validation des inscriptions des personnes non INRAE. La Création d’un compte externe n’ouvre aucun droit particulier.

Liens entre datasets et dataverses

Est-ce qu’un dataset peut être raccroché à un dataverse a posteriori ?

Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.

Un fichier déposé dans Data INRAE peut-il être lié à plusieurs datasets ?

Métadonnées

D’où proviennent les métadonnées proposées par Data INRAE ?

La plupart des métadonnées proviennent de Dataverse (voir Metadata References), d’autres ont été créées spécifiquement pour Data INRAE, comme celles du bloc dédié aux ressources sémantiques.

De la même façon, les valeurs contrôlées pour ces métadonnées peuvent provenir de référentiels externes ou établies pour Data INRAE.

Les métadonnées peuvent être mises à jour par l’équipe Support Data INRAE.

Faut-il indiquer le DOI d’une ISC dans le dataset ?

L’anglais est-il obligatoire pour toutes les métadonnées (ex. description) ?

Non, le choix de la langue dépend de la cible visée par votre publication. Certaines métadonnées peuvent être créées dans plusieurs langues (par exemple une description en anglais et une description en français).

Les métadonnées sont elles pérennes ?

Oui, y compris pour les jeux de données retirés de Data INRAE (deaccessioned / retirés de la diffusion). Par ailleurs, les métadonnées de Data INRAE sont également conservées dans d’autres systèmes, notamment dans DataCite.

Peut-on ajouter une liste d’auteurs ou de contributeurs via un fichier ?

Non, cette fonctionnalité n’existe pas. Si vous souhaitez utiliser plusieurs fois une même liste d’auteurs/contributeurs, vous pouvez les pré-saisir dans la métadonnée correspondante via un modèle de dataset (dataset template).

Si vous avez besoin d’automatiser des dépôts vous pouvez contacter le support (datainrae@inrae.fr) pour utiliser les APIs.

Peut-on compléter les métadonnées après dépôt et validation ?

Il est tout à fait possible de compléter les métadonnées d’un dataset après dépôt et validation. Une nouvelle version (mineure ou majeure) est alors créée.

Peut-on intégrer ses propres métadonnées, dans le cas par exemple d’un projet qui a son propre référentiel ?

Il n’est pas possible pour un utilisateur d’ajouter des métadonnées dans le formulaire. Il est en revanche possible de déposer, avec le fichier de données, un fichier annexe des métadonnées spécifiques.

Pour suggérer l’ajout de métadonnées au formulaire de saisie, contactez le support utilisateur datainrae@inrae.fr.

Qu’est-ce que DDI ?

Data Documentation Initiative (DDI) est un standard de documentation des données, créé par DDI Alliance, issues d’enquêtes et de méthodes d’observation en sciences sociales, comportementales, économiques et de la santé.

Que renseigne-t-on dans le bloc de métadonnées “Journal Metadata” : s’agit-il des journaux où sont publiées les données ou des études relatives à ces données ?

Il s’agit ici des informations liées à la revue dans laquelle sont publiées les données.

Quel identifiant est le mieux adapté pour identifier un publiant dans Data INRAE ?

L’identifiant ORCID est l’identifiant recommandé par INRAE pour les auteurs et les contributeurs (voir Activ’IST n°2). Il est également préconisé par le deuxième Plan national pour la science ouverte .

Vous pouvez toutefois utiliser d’autres identifiants dans Data INRAE, sachant qu’il n’est possible d’indiquer qu’un seul identifiant par auteur.

Quelle est la différence entre un auteur et un contributeur ?

L’auteur est le créateur d’une ressource (des données par exemple). Il doit être présent dans la citation de la ressource. Associée au DOI, la métadonnée Auteur est obligatoire dans Data INRAE.

Un contributeur est une personne ou un organisme responsable de la collecte, la gestion, la distribution ou de toute autre contribution au développement de la ressource. Il n’est pas, en général, cité dans la référence de la ressource.

Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans Data INRAE.

Un DOI est-il standardisé ? unique ?

Modèles de métadonnées

Les modèles / templates concernent-ils les dataverses ou les datasets ?

Les modèles de datasets (ou dataset templates) sont créés dans un dataverse par l’administrateur et s’appliquent aux datasets créés dans ce dataverse.

Peut-on avoir plusieurs modèles pour un même dataverse ? et pour un même dataset ?

Dataverse : Oui, il est possible de proposer plusieurs modèles dans un dataverse, et notamment ceux du dataverse parent (par exemple le template INRAE).

Dataset : Non, il n’est pas possible de choisir plusieurs modèles pour un dataset.

S’il existe un template « INRAE », quel est l’intérêt d’en créer / utiliser d’autres ?

Le modèle de dataset “INRAE template” ne pré-remplit que les informations liées à la Licence Ouverte/Etalab. Si vous souhaitez pré-remplir d’autres métadonnées, il vous faudra créer un autre modèle de saisie.

Un modèle peut-il être appliqué à des datasets existants ?

Non, le modèle (template) de dataset ne s’applique qu’aux nouveaux datasets qui choisiront de l’utiliser et uniquement au moment de leur création.

Moissonnage

Est-il possible de moissonner Zenodo ?

Non, pour le moment le moissonnage de Zenodo n’est pas supporté par Dataverse.

Organisation des dataverses

Est-ce qu’un dataset peut être raccroché à un dataverse a posteriori ?

Déplacer d’un dataset d’un dataverse vers un autre n’est possible que par l’équipe support Data INRAE. Préférer les liens aux déplacements.

Peut-on déplacer des dataverses ?

Un administrateur de dataverse ne peut pas le faire, seuls les administrateurs du portail (l’équipe support) le peuvent. Il faut donc bien réfléchir au positionnement d’un dataverse avant sa création.
Il est par contre possible de lier un dataverse à un autre, celui-ci affichera alors le contenu du dataverse lié.

Peut-on rattacher un dataverse à plusieurs dataverses parents ?

Un dataverse n’est rattaché qu’à un seul dataverse parent, celui dans lequel il a été créé. Mais il est possible de lier un dataverse à un autre, celui-ci affichera alors le contenu du dataverse lié.

Registre des visiteurs

Pour un même dataverse, peut-on choisir le registre des visiteurs (guestbook) au niveau dataset ?

Oui, si un ou plusieurs registre(s) des visiteurs sont configurés au niveau dataverse, c’est bien au niveau du dataset, dans les conditions d’utilisation, que se fait le choix d’utiliser ou non un registre des visiteurs, et lequel.

Type de contenu

Doit-on déposer du code logiciel dans Data INRAE ou dans une forge ?

L’institut préconise l’usage d’une forge logicielle institutionnelle (SourceSup) pour le code. La description du code, avec ou sans son dépôt dans le portail Data INRAE, permet de lui attribuer un DOI et de le rendre ainsi citable de manière fiable et pérenne (voir Cas particulier des logiciels sur le site Gestion et partage des données scientifiques), ainsi que de diffuser les exécutables ou autres artifacts. Dans les deux cas, la métadonnée « Link to Data » sera utilisée pour lier le dataset décrivant le code dans Data INRAE au code dans la forge.

Est-ce que vous conseillez d’inclure le Plan de gestion des données associé à un dataset ?

Faut-il indiquer dans Link to data un lien direct vers la donnée ou peut-on renseigner la base de données dont est extrait le jeu de données ?

Peut-on déposer des fichiers zippés ou des archives ?