Versement de données tabulées dans Data INRAE

Bonjour

J’ai consulté le guide « Créer et gérer un dataset » afin de préparer un dépôt de données dans Data INRAE. En page 9 du guide, dans la rubrique « Note sur l’ingestion des données tabulées », il est écrit : « Chaque fichier Excel ne doit contenir qu’1 onglet, avec les variables sur la première ligne (entêtes de colonne) et une observation par ligne ». Or, en explorant le dataverse Data INRAE, on trouve fréquemment des dataset contenant des fichiers tabulés qui sont des fichiers excel .xlsx ayant plusieurs onglets. On trouve notamment souvent des fichiers excel comportant 2 onglets, un premier onglet donnant la table des data avec en première ligne le nom des variables, et un second onglet (parfois nommé readme) qui décrit et donne le détail des variables (nom, description, unité…), cad les metadata attendues pour comprendre la table

Le fait de déposer un fichier excel ayant plusieurs onglets ne semble donc pas bloquer le processus de dépôt dans Data INRAE puisqu’on en trouve fréquemment.

Ma position et ma question : Pour préparer mes propres fichiers de données à déposer, je suis tentée de faire des fichiers excel comportant 2 onglets (l’un avec les data, l’autre avec la description des variables) car je trouve cette solution simple et facile à comprendre pour un utilisateur de données. Ma question : y a t il des raisons qui rendent réellement nécessaire de faire des fichiers excel n’ayant qu’un seul onglet pour les déposer dans un dataset (comme le demande le guide) ? ; S’il n’y a pas de raison impérieuse, le fait de déposer des fichiers excel ayant 2 onglets devient-il une option préconisée ? (celà m’arrangerait)

Merci

INRA-QR-IST-LOGO-50

Techniquement, rien n’empêche que les fichiers Excel contenant plusieurs onglets puissent être déposés dans l’entrepôt Recherche Data Gouv (et par conséquent dans Data INRAE, qui est l’espace INRAE pour cet entrepôt).

Par contre, les fichiers Excel qui contiennent plusieurs onglets ne seront pas correctement ingérés (c’est-à-dire analysés par l’outil puis convertis au format ouvert .tab) puisque seul le premier onglet sera converti au .tab et sera par conséquent prévisualisable ou explorable.

Le risque sera donc qu’un utilisateur qui prévisualise le fichier au format .tab ne voie que le 1er onglet et donc une seule partie des données. A noter qu’un utilisateur aura toutefois la possibilité d’exporter le fichier global sous son format d’origine.

C’est pour cela que le guide utilisateur recommande de ne mettre qu’un seul onglet par fichier tabulé et de créer des fichiers readme à part.

 

Data INRAE faisant désormais partie de l’entrepôt national Recherche Data Gouv, les guides ont été enrichis et se trouvent désormais  sur le portail Recherche Data Gouv : https://recherche.data.gouv.fr/fr/categorie/9/guide/lessentiel-sur-lentrepot-recherche-data-gouv

La rubrique « Cas des fichiers de données tabulées » est consultable à cet endroit  : https://recherche.data.gouv.fr/fr/categorie/9/guide/deposer-un-jeu-de-donnees#Cas+des+fichiers+de+donn%C3%A9es+tabul%C3%A9es

L’équipe Data INRAE a ajouté une note sur les anciens guides pour indiquer la redirection vers les nouveaux liens.

 

Pour tout complément d’information sur Data INRAE, nous vous conseillons de contacter directement le support de ce service : datainrae@inrae.fr.

Ce contenu a été publié dans Données de la recherche. Vous pouvez le mettre en favoris avec ce permalien.