Créer et gérer un dataset

Un dataset contient les informations sur les données (métadonnées de citation et métadonnées spécifiques à différents domaines), et éventuellement les fichiers de données eux-mêmes (sinon, le lien vers les données doit être indiqué dans la métadonnée Link to data).

Processus simplifié de publication d’un dataset

Par défaut, toute personne authentifiée avec un Ldap Inra peut créer un dataset à la racine du portail, ainsi que dans les 3 sous-dataverses Experimental – Observation – Simulation DataverseOmics Dataverse et Surveys & Texts Dataverse.

Pour créer un dataset en dehors de ces dataverses, il faut y avoir été autorisé par l’administrateur du dataverse (voir Gérer les droits dans un dataverse).

Processus de publication simplifié

Ce schéma simplifié ne prend pas en compte la mise en place d’un processus de curation au niveau d’un dataverse.

Créer un dataset

Se placer dans le dataverse dans lequel le dataset doit être publié (pour déplacer un dataset déjà créé, veuillez contacter le support).

Ajouter des données > Nouveau dataset (Add Data > New Dataset)

Il est également possible de créer un dataset depuis la barre de navigation. Dans ce cas-là, préciser le dataverse hôte.

Saisir au minimum les champs obligatoires (marqués d’un astérisque rouge). Vous trouverez en annexe les métadonnées contrôlées par une liste de valeurs.

Sauvegarder le dataset (Save Dataset).

Un DOI  réservé auprès de DataCite est attribué au Dataset qui est alors un brouillon (Draft) non publié (Unpublished).

Supprimer un dataset

Tant que le Dataset n’a pas encore été publié, il peut encore être supprimé :
modifier > Supprimer le dataset (Edit > Delete Dataset)Si le dataset a été publié on peut le Retirer un dataset de la diffusion

Donner accès à un dataset non publié (URL privée)

Le déposant d’un dataset (ou l’admin du dataverse le contenant) peut générer un URL privé pour donner accès à un Dataset non encore publié à une personne n’ayant pas de compte dans Data INRAE

Edit > Private URL

Publier un dataset

Publier un dataset permet de le rendre visible de tous : Publier (Publish).

Editer et versionner un dataset

L’édition d’un dataset permet de modifier :

  • les fichiers associés (Files),
  • les métadonnées descriptives (Metadata),
  • les conditions d’utilisation et d’accès aux fichiers, l’utilisation d’un registre des visiteurs,
  • les autorisations (rôles) associés au dataset et au(x) fichier(s) associés,
  • l’accès via une URL privée
  • l’affichage (Vignettes + Widget) du dataset.

Ces fonctions sont disponibles depuis le menu global Modifier (Edit) au niveau du dataset :

ou, pour certaines, au niveau des différents onglets :

  • Fichiers > Téléverser des fichiers (Files / Upload Files)
  • Métadonnées > Ajouter + Modifier les métadonnées et Exporter les métadonnées  (Metadata / Add + Edit Metadata)
  • Conditions > Modifier les conditions (Terms / Edit Terms Requirements)

Conditions d’utilisation d’un Dataset

Licence accordée

L’onglet Conditions permet de spécifier en particulier la licence attribuée au dataset, donc à l’ensemble des fichiers du dataset. Il n’est pas possible d’attribuer des licences différentes à différents fichiers d’un même dataset.

Par défaut, la licence attribuée à un dataset par Dataverse est CC0. Pour attribuer une autre licence à un dataset vous devez dans l’onglet Conditions :

  1. cocher “Non, ne pas appliquer la licence CC0” pour la métadonnée Licence accordée ;
  2. saisir la licence choisie dans la métadonnée Conditions d’utilisation.
    Par exemple, voici le code correspondant à la licence ouverte :

    <img src=\"https://www.etalab.gouv.fr/wp-content/uploads/2011/10/licence-ouverte-open-licence.gif\" alt=\"Licence Ouverte / Open Licence\" height=\"100\"><a href=\"https://www.etalab.gouv.fr/licence-ouverte-open-licence\">Licence Ouverte / Open Licence Version 2.0</a> compatible CC BY

L’utilisation du modèle « INRAE template » lors de la création d’un dataset permet d’indiquer automatiquement la licence ouverte Etalab.

Voir : Liste des licences utilisables pour être en conformité avec la loi pour une République numérique.

Appliquer un registre des visiteurs

Le registre des visiteurs permet de recueillir des informations de l’utilisateur qui affiche, explore ou télécharge un fichier du dataset auquel le registre est appliqué. Associer un registre des visiteurs à un dataset est sous responsabilité du curateur du dataset. Par contre, la création d’un registre des visiteurs relève de l’administrateur du dataverse, qui seul peut voir les données récoltées dans le registre. Un dataverse peut ne pas proposer de registre des visiteurs.

Pour appliquer un registre des visiteurs à un dataset :

Modifier > Conditions d’utilisation (Terms > Edit terms requirement)

appliquer un registre des visiteurs

Les versions d’un dataset

Quand on édite un dataset un nouveau brouillon est créé. A la publication de ce brouillon, selon la nature des modifications apportées, on pourra choisir :

  • de passer à une version mineure (de 1.0 à 1.1 par exemple) ;
  • de passer à une version majeure (de 1.0 à 2.0) ;
  • de mettre à jour version actuelle, dernière version publiée. Attention ! dans ce cas, la date de mise à jour de la version n’est pas modifiée.

versions d'un dataset

Note : l’ajout d’un fichier conduit obligatoirement à une version majeure.

Les versions d’un dataset peuvent être comparées 2 à 2.

Associer un ou des fichiers à un dataset

Le téléversement d’un fichier peut se faire :

  • au moment de la création du dataset

  • après sa publication, via l’onglet Fichiers du dataset :

  • ou via le bouton Modifier > Fichiers (téléverser) (Edit / Files (Upload))

Il n’y a pas de restriction dans les formats acceptés par Dataverse.
Le type MIME du fichier est reconnu même si le fichier n’a pas d’extension. En fonction de ce type Dataverse proposera une prévisualisation du fichier.

Il n’y a pas de limites au nombre de fichiers qui peuvent être versés dans un dataset, néanmoins ce nombre est limité à 1000 fichiers pour un téléversement via l’interface utilisateur. Au delà, il faudra utiliser une API Dataverse ou l’outil DVUploader.

Actuellement, la taille maximale de chaque fichier pouvant être chargé dans Data INRAE est de 15 Go.

Au moment de leur versement dans Dataverse, les fichiers se voient attribuer :

  • une empreinte numérique permettant la vérification de l’intégrité des données (non corruption du fichier) : UNF pour les fichiers tabulés, MD5 pour les autres formats ;
  • un DOI (les DOIs du fichier et du dataset sont reliés par la métadonnée DataCite “relatedIdentifier” : relationType= »IsPartOf » ou relationType= »HasPart »).

 

Certains formats bénéficient de fonctionnalités particulières.

Fichiers de données tabulées

Les formats XLSX (Excel), CSV/TSV, R, SPSS[2] et Stata sont intégrés sous la forme tabulée (.tab) ce qui permet de les explorer avec des outils comme TwoRavens et Data Explorer. A noter que seuls les fichiers de données tabulaires inférieurs à 500Mo sont transformés en .tab.

  • Note : Le format csv utilise la virgule comme séparateur (le point-virgule n’est pas accepté par Dataverse).

Pendant le téléversement, le fichier est analysé par Dataverse. Le message “Ingest in progress” est affiché :

Une fois le téléversement terminé, un mail intitulé “Your ingest has successfully finished!” vous est envoyé et dans le dataset, le nombre de variables et le nombre d’observations sont affichés :

Vérifiez que ces informations sont correctes !

Si le fichier n’a pas pu être analysé par Dataverse, l’erreur est signalée mais le fichier est tout de même importé dans son format original.

Un mail intitulé “Your ingest has finished with errors!” vous est alors envoyé.

Exemple : ce fichier xlsx aurait dû pouvoir être mis au format tabulé par Dataverse.

Note sur l’ingestion des données tabulées

  • encoder en UTF-8 les fichiers contenant des caractères spéciaux,
  • Chaque fichier Excel ne doit contenir qu’1 onglet, avec les variables sur la première ligne (entêtes de colonne) et une observation par ligne,
  • vérifier qu’il n’y a pas d’en-tête vide ni de cellule manquante (les cellules vides, elles, sont acceptées)
    exemple d’erreur :
    ColA,ColB,ColC
    1,2
    3,4,5
  • lorsqu’aucune erreur n’est identifiée dans le fichier Excel, une solution peut être d’ouvrir le fichier xlsx avec OpenOffice Calc et l’enregistrer en .csv encodage UTF-8.

    Voir aussi : Broman, K. W., & Woo, K. H. (2018). Data Organization in Spreadsheets. The American Statistician, 72(1), 2‑10. https://doi.org/10.1080/00031305.2017.1375989

Pour en savoir plus sur le traitement des données tabulées par Dataverse : Tabular Data File Ingest

Fichiers de données géospatiales

Les données géospatiales peuvent être versées dans Data INRAE sous la forme de fichiers Shapefile zippés, contenant 4 fichiers de même nom et ayant les extensions: .dbf, .prj, .shp, .shx  ou bien sous la forme de fichier tabulé.

Note : Geoconnect, qui permettait d’interpréter les fichiers de données géospatiales, n’est plus disponible depuis version 5.0 de Dataverse. Une solution de remplacement est à l’étude.

Fichiers compressés (zip)

Les fichiers .zip sont décompressés automatiquement (limite : 1000 fichiers zippés).

L’arborescence présente dans .zip est conservée dans Data INRAE.

Fichiers images

Les fichiers JPGS, PNGS, TIFF peuvent être utilisés comme vignette du dataset.

Traitement des fichiers dupliqués (doublons)

  • Possibilité de téléverser des fichiers de même contenu (même empreinte numérique) même s’ils sont dans un même répertoire.
    Un message est alors affiché :
    Fichier doublon téléversé
  • On peut supprimer le doublon (abandonner le téléversement) ou continuer. Dans ce cas, le fichier est renommé avec un indice -1 (-2…etc).
    Fichier doublon téléverséLes deux fichiers ont alors la même empreinte numérique :
    fichier de même contenu
  • Possibilité de téléverser des fichiers de même nom s’ils sont dans des dossiers différents.
    Si un utilisateur télécharge un fichier dans un répertoire où un fichier existe déjà avec cette combinaison répertoire/nom de fichier, Dataverse ajustera le chemin et les noms de fichiers en ajoutant « -1 » ou « -2 » selon le cas.
    Si le répertoire ou le nom d’un fichier existant ou nouvellement téléchargé est modifié de manière à créer une combinaison répertoire/nom de fichier qui existe déjà, Dataverse affichera une erreur.
    message d'erreur fichier dupliqué

 

Gestion des fichiers associés à un dataset

Permet :

  • de modifier la provenance,  les métadonnées (titre, chemin d’accès et description) et les libellés associés au fichier ;
  • de remplacer le fichier par un autre ;
  • de restreindre (ou supprimer la restriction) l’accès au fichier ;
  • de supprimer le fichier.

Afficher le fichier en cliquant sur son titre puis 2 voies possibles :

1 / Modifier (Edit)

ou 2/ Ajouter + Modifier les métadonnées (Add + Edit Metadata)

Libellés associés aux fichiers

Par défaut 3 libellés sont proposés : Data, Documentation et Code.

libelles fichier

Il est possible de saisir des tags dans la métadonnée Personnaliser le libellé du fichier (Custom File Tag).

personnaliser libelle

Ces libellés sont affichés en facettes et aident à la découverte des fichiers mais ne sont pas utilisables en recherche.

Attention à ne pas utiliser les libellés à la place d’autres métadonnées (keywords, Kind of Data…).

Remplacer un fichier

La fonction Remplacer (Replace) permet de remplacer un fichier par un autre, sans avoir à ajouter un nouveau fichier, dans le cas par exemple où l’on souhaite simplement corriger ou mettre à jour le contenu du fichier.

  • Afficher la page descriptive du fichier
  • Modifier > Remplacer (Edit > Replace)
Remplacer un fichier
Remplacer un fichier
  • Charger le nouveau fichier,
  • Sauvegarder,
  • Publier le dataset : un changement de version majeur est automatiquement appliqué. Un nouveau DOI est attribué au fichier.

Notes :

  1. Les métadonnées liées à l’ancienne version du fichier (description, provenance, tags) ne sont pas reportées sur la nouvelle version. Il faut donc les re-saisir si l’on souhaite les associer à la nouvelle version du fichier.
  2. Le nombre de téléchargement du fichier est remis à zéro.
  3. Les anciennes versions du fichier restent accessibles.

Il n’est pas possible de remplacer un fichier par un autre fichier de même contenu (même empreinte numérique). Un message d’erreur est alors affiché :Message d'erreur remplacement fichier de même contenu

Il n’est pas possible de remplacer un fichier par un fichier dont le contenu est semblable à celui d’un autre fichier du dataset. un message d’avertissement est alors affiché :

Message d'erreur doublon contenu

Restreindre l’accès à un fichier de données

L’accès à un fichier de données peut être restreint par son déposant (ou toute personne autorisée à éditer le dataset correspondant).

Modifier > Restreindre (Edit Files > Restrict)

restreindre fichier

Indiquer les conditions d’accès et cocher, ou non, la possibilité de demander l’accès au fichier par mail.

  • Si on ne coche pas « Demander l’accès (Enable access request)  » : un utilisateur non autorisé ne peut pas télécharger ni demander l’accès au fichier de données :
  • Si on coche « Demander l’accès (Enable access request)  » : l’accès au fichier peut être demandé par mail au déposant (le demandeur doit alors s’authentifier). request access
    Le(s) curateur(s) et administrateur(s) du dataset reçoivent un mail de demande d’accès (objet : “Portail Data INRAE: Access has been requested for a restricted file”) contenant un lien vers la gestion des accès au fichier, et sont notifiés de cette demande (avec un lien vers la gestion des accès au fichier),

Il peuvent valider ou rejeter la demande, soit en cliquant sur le lien reçu dans le mail et dans la notification, soit en allant directement dans le menu du dataset :

Modifier > Autorisations > Fichier (Edit > Permissions > File)

Si la demande est validée, le demandeur reçoit un mail et une notification sur son compte Dataverse et peut télécharger le fichier.

Rôles et permissions associés à un dataset

Permettent d’assigner un rôle à un utilisateur ou à un groupe d’utilisateurs sur l’ensemble du dataset.

Modifier > Autorisations > Dataset (Edit > Permissions > Dataset)

assigner role

Les utilisateurs ayant un Ldap Inra forment un groupe particulier : All Inra Shibboleth Users

assigner role

Rôles et permissions associés à un fichier

Permettent d’accorder un accès à un ou des fichier(s) à accès restreint à un utilisateur ou à un groupe d’utilisateurs.

Modifier > Autorisations > Fichier (Edit > Permissions > File)

accorder acces

 

Retirer un dataset de la diffusion

Modifier > Retirer le dataset de la diffusion (Edit > Deaccession Dataset).

Un dataset publié ne peut plus être supprimé. Il peut (une de ses versions ou toutes) uniquement être retiré de la diffusion : les métadonnées, en dehors de celles utilisées pour la citation, et les fichiers éventuellement associés ne sont alors plus visibles publiquement dans Data INRAE (les fichiers restent visibles des administrateurs  authentifiés).

Retirer un Dataset de la diffusion est irréversible. 

Exemple de dataset retiré de la diffusion :

 

Notes

[1]. Les DOIs du fichier et du dataset sont reliés par la métadonnée DataCite “relatedIdentifier” (relationType= »IsPartOf » ou relationType= »HasPart »).
[2]. SPSS : Statistical Package for the Social Sciences.
[3]. https://fr.wikipedia.org/wiki/Shapefile