Semaine Data-SHS 2025

Créer, nettoyer, analyser ses données en SHS

La Semaine dataSHS propose un choix d'ateliers d'initiation aux méthodes de production et de traitement de données en sciences humaines et sociales, à suivre ensemble ou séparément.

Ces ateliers ont un double objectif d'initiation : aux fondements théoriques de la production et de l'analyse de données en sciences humaines et sociales et à leur mise en œuvre pratique. Le but est de permettre aux participants d'adapter ces méthodes à leur propres travaux, de façon la plus autonome possible. Les formations sont ouvertes à toute personne faisant partie des universités publiques des Hauts-de-France et des laboratoires affiliés à la MESHS, que vous soyez étudiant-e en master, ingénieur-e, enseignant-e, chercheur-e...

Comme depuis 2019, toutes les plateformes universitaires de données de France, coordonnées par l'IR* PROGEDO, organisent des formations, conférences, ateliers lors de cette même semaine.

À la PUD de Lille, qui est à l'origine de ce concept, la Semaine dataSHS consiste en cinq jours de formation en présentiel que vous pouvez suivre indépendamment l'un de l'autre. La matinée est généralement consacrée à des questions plus théoriques pour passer à des ateliers d'application dans l'après-midi. 

Programme

Questionnaire : théorie et mise en pratique avec LimeSurvey

Ada Chmilevschi, PUDL

Durant la matinée, nous aborderons quelques bases de la conception d'un questionnaire : étapes, modes de passation, types de questions, types de biais, comment concevoir le questionnaire dans le respect du RGPD... 

L'après-midi sera dédié à un atelier de création d'un questionnaire à l'aide du logiciel en ligne LimeSurvey. Ce logiciel, souvent hébergé par les universités, a l'avantage de garantir le stockage sécurisé des données, tout en permettant une gamme large de types de questions et de facilités de passation en ligne, de l'importation depuis d'autres logiciels jusqu'à l'extraction des résultats dans des formats variés.

Si vous avez déjà prévu de réaliser un questionnaire et que vous souhaitez apprendre à le mettre en ligne avec LimeSurvey, n'hésitez pas à venir avec. Sinon, nous parcourrons ensemble les différents types de questions, filtres, blocs... en créant questionnaire fictif.

Pas de prérequis.

Nettoyer et préparer ses données avec Openrefine

Valentin de Craene, MESHS

Si la saisie manuelle ou la production de données constitue déjà un travail fastidieux dans la recherche en SHS, leur mise en forme, leur traitement et leur curation peuvent s’avérer tout aussi exigeants. Cette étape de "nettoyage" des données (qu’elles soient sérielles, quantitatives ou qualitatives) peut toutefois être grandement facilitée par l’usage d’outils de préparation des données. Parmi eux, OpenRefine s’est imposé comme une solution open source particulièrement puissante pour la normalisation et l’enrichissement de données tabulaires. Ses fonctionnalités de nettoyage, de typage, de regroupement ("clustering") ou encore d’alignement sur des référentiels pérennes en font un outil incontournable pour quiconque travaille avec des corpus hétérogènes et peu normalisés.

Plan de l’atelier :

  1. Introduction – De la donnée à l’information : OpenRefine et les données de recherche
  2. Prise en main – Nettoyage, transformations et attribution de types
  3. Fonctionnalités avancées – Clustering, alignement sur des référentiels pérennes et post-traitement
  4. Ouverture – Retour d’expérience : OpenRefine, ETL, Python ou R, quels outils pour quels besoins ?

L'installation de OpenRefine sera nécessaire, vous recevrez les instructions la semaine avant la formation.

Pas de prérequis.

Initiation à l'analyse de données textuelles avec R

Bénédicte Garnier, Ined

La formation aborde les étapes clés d'une analyse de textes au moyen de la statistique textuelle et sa mise en pratique avec des packages dédiés de R dans RStudio :

  • La statistique textuelle, une analyse quantitative de textes 
  • Les données textuelles, des données plus ou moins structurées
  • Les opérations sur textes : création de tableaux lexicaux et lemmatisation 
  • Exploration et visualisations : nuages de mots, graphes de mots, plans factoriels
  • Interprétation des résultats : bilan lexical, spécificités, analyses factorielles et concordances

Les jeux de données pour les exercices seront fournies par l'intervenante.

L'installation de R, RStudio et de certains packages sera nécessaire, vous recevrez les instructions la semaine avant la formation.

Analyse et visualisation de données quantitatives avec R

Lisa Wacogne-Triplet, Clersé

Cette formation a pour objectif d’initier aux bases du langage R. Nous verrons comment importer, nettoyer, mettre en forme et analyser des données de natures diverses (numériques, chaînes de caractères, etc.) à l'aide de fonctions simples. Nous aborderons également des éléments plus complexes comme les jointures ou encore la réalisation des graphiques les plus courants.
Si le temps le permet, une première approche des tests statistiques sous R sera également proposée.
Les données pour ces exercices seront fournies par l'intervenante.
L'installation de R, RStudio et de certains packages sera nécessaire, vous recevrez les instructions la semaine avant la formation.

Pas de prérequis.

Webscraping avec R

Thomas Delclite, Statbel

Les sites web ne permettent souvent pas d’extraire directement l’ensemble des données. Théoriquement, il serait possible de naviguer sur les sites et d’extraire manuellement les informations, mais la limitation tient au fait que ce travail est long et sujet à erreur de report. Des outils existent déjà, certains sites web proposent des API et l’IA générative promet de réaliser cela automatiquement. Mais ce ne sont jamais les bonnes données, au bon moment, au bon format.

L’objectif de cet atelier est de former à l’extraction de données à l’aide du logiciel R. Nous verrons ensemble comment - à l’aide de programmes simples - localiser, extraire et structurer des données issues de sites internet simples. À la fin de l’atelier, les participant-e-s seront capables d’identifier les données disponibles sur un site internet, de programmer une routine destinée à extraire automatiquement les données et à les structurer sous un format propice à l’analyse. L’analyse des données n’est pas abordée dans cet atelier.
L'installation de R, RStudio et de certains packages sera nécessaire, vous recevrez les instructions la semaine avant la formation.

Pas de prérequis.

Informations

Du 8 au 12 décembre 2025, de 9h à 17h

Campus Flers Château, Université de Lille
(365bis rue Jules Guesde, Villeneuve d'Ascq)

PUDL

  • Mathilde Guergoat-Larivière, responsable scientifique
  • Ada-Marlen Chmilevschi, ingénieure d'études

Partenaire

IR* PROGEDO

Crédits

Services de la MESHS