Données Structurées

Données structurées

🦊

1. Introduction

La nécessité d'organiser et de structurer les données remonte aux premiers systèmes informatiques. Aujourd'hui, les données structurées permettent de gérer des milliards d'informations pour alimenter des applications, des sites web ou des systèmes d'intelligence artificielle.

Définition : Une donnée structurée est une information organisée selon un format prédéfini qui facilite son stockage, sa recherche et son traitement automatique par les machines.

On distingue deux catégories principales :

  • Données tabulaires : organisées en lignes et colonnes (ex: CSV).
  • Données hiérarchiques : organisées en arbre avec des niveaux de profondeur (ex: JSON).

2. Les formats de données

FormatRôleExemple d'usage
CSVFormat tabulaire simpleTableurs, exports de données
JSONFormat hiérarchique pour structures complexesAPIs web, configuration
XMLFormat de balisage pour documents structurésDocuments officiels, échange
SQLLangage pour interroger les bases de donnéesRequêtes, rapports

2.1 Le format CSV (Données tabulaires)

Le format CSV (Comma-Separated Values) utilise des séparateurs (souvent des virgules ou des points-virgules) pour délimiter les colonnes. Il commence souvent par une ligne d'en-tête.

Exemple : Base de données sur les renards

Nom,Espece,Habitat,Poids_kg,Longueur_cm
Rusty,Vulpes vulpes,Forêt tempérée,6.5,58
Arctic,Vulpes lagopus,Toundra arctique,3.2,46
Fennec,Vulpes zerda,Désert,1.5,24
Silver,Vulpes vulpes,Forêt boréale,7.1,61

2.2 Le format JSON (Données hiérarchiques)

Le format JSON (JavaScript Object Notation) permet de représenter des objets complexes avec des relations internes. Il est constitué de paires clé-valeur.

Note : Le JSON est très utilisé sur le web car il est léger et lisible par les humains et les machines.

Exemple : Fiche détaillée d'un renard

{
  "renard": {
    "nom": "Rusty",
    "espece": "Vulpes vulpes",
    "caracteristiques": {
      "poids": 6.5,
      "longueur": 58,
      "couleur": "roux",
      "age": 3
    },
    "habitat": {
      "type": "Forêt tempérée",
      "region": "Europe",
      "coordonnees": {
        "latitude": 48.8566,
        "longitude": 2.3522
      }
    },
    "alimentation": ["rongeurs", "oiseaux", "insectes", "fruits"]
  }
}

3. Les Bases de Données Relationnelles

Pour gérer de grands volumes de données, on utilise des bases de données. Le modèle relationnel organise les données en tables liées entre elles.

Concepts clés :

  • Table : Structure organisée en lignes (enregistrements) et colonnes (champs).
  • Relation : Lien entre les tables (via des clés étrangères).
  • SQL : Langage standard pour interroger et manipuler les données.

Exemple : Table "Renards"

IDNomEspèceHabitatPoids (kg)Région
1RustyVulpes vulpesForêt6.5Europe
2ArcticVulpes lagopusToundra3.2Arctique
3FennecVulpes zerdaDésert1.5Afrique
4SilverVulpes vulpesForêt7.1Amérique

3.5 Traitement des données

Une fois les données structurées dans une table, on peut effectuer des opérations pour en extraire de l'information.

Les opérations de base :

  1. Trier : Ordonner les données (ex: du plus petit au plus grand).
  2. Filtrer : Ne garder que les données qui nous intéressent (ex: seulement les monstres de type Feu).
  3. Calculer : Faire des statistiques (ex: moyenne des niveaux).

Essayez de manipuler cette base de données de monstres :

Explorateur de Données

> SELECT * FROM monstres
Filtrer par Type
Trier par
IDNomTypeNiveauPoids (kg)
#1FlaméouFeu128.5
#2AquabulleEau53.2
#3HerbizarPlante1812
#4VoltaliÉlectrique255.4
#5RocabotNormal89.1
#6PyroliFeu3215.6
#7TortipoussPlante106.8
#8StarossEau2822.5
Moyenne :
17.3

4. Le Cloud Computing

☁️ Définition

Le Cloud Computing (ou informatique en nuage) consiste à utiliser des serveurs informatiques distants via Internet pour stocker des données ou exécuter des applications, plutôt que de le faire sur son propre disque dur.

🏠 Local vs ☁️ Cloud

  • Stockage Local : Vos fichiers sont sur votre ordinateur/téléphone. Si vous le perdez, vous perdez tout.
  • Stockage Cloud : Vos fichiers sont envoyés dans des Data Centers (immenses usines à serveurs). Ils sont dupliqués pour ne jamais être perdus.

☁️ Le Cloud Computing

Le "Nuage" n'est pas magique : ce sont des ordinateurs (serveurs) stockés ailleurs !

Votre Appareil
Stockage Local
Photo_1.jpg
Doc_projet.pdf
Data Center
Stockage Cloud
Vide
Pourquoi utiliser le Cloud ?
  • 🌍 Accessibilité : Vos données sont accessibles partout, depuis n'importe quel appareil.
  • 🛡️ Sécurité : Si vous perdez votre téléphone, vos données sont sauves dans le Data Center.
  • 🤝 Partage : Facile de donner accès à un fichier via un simple lien.

⚠️ Enjeu de souveraineté

La plupart des géants du Cloud (Google, Amazon, Microsoft) sont américains. Cela pose la question de la confidentialité : qui a le droit de regarder vos données stockées chez eux ? (cf. le Cloud Act américain).

5. Données Personnelles et RGPD

🛡️ RGPD (Règlement Général sur la Protection des Données)

Depuis 2018, ce règlement européen protège votre vie privée. Il impose des règles strictes aux entreprises qui collectent vos données.

En tant que citoyen européen, vous disposez de droits fondamentaux sur vos données.

Vos Droits RGPD

Le Règlement Général sur la Protection des Données vous protège. Cliquez sur une carte pour comprendre.

Droit d'accès

Cliquez pour voir l'exemple

Vous pouvez demander à tout organisme : 'Quelles données avez-vous sur moi ?'

" Je demande à Google de télécharger l'historique de toutes mes recherches. "

Droit de rectification

Cliquez pour voir l'exemple

Vous pouvez corriger des informations fausses ou incomplètes.

" Mon nom est mal orthographié sur ma facture EDF, je demande la correction. "

Droit à l'effacement

Cliquez pour voir l'exemple

Aussi appelé 'Droit à l'oubli'. Vous pouvez demander la suppression de vos données.

" Je veux supprimer mon vieux compte Skyblog que je n'utilise plus. "

Droit à la portabilité

Cliquez pour voir l'exemple

Récupérer vos données pour les transférer ailleurs.

" Je change de service de musique (Spotify -> Deezer) et je veux garder mes playlists. "

Droit d'opposition

Cliquez pour voir l'exemple

Refuser que vos données soient utilisées pour un objectif précis.

" Je refuse que mon numéro de téléphone soit utilisé pour des pubs commerciales. "

6. Big Data et Open Data

🌊 Big Data (Mégadonnées)

Quand le volume de données devient si grand qu'il est impossible de le traiter avec des outils classiques (comme Excel), on parle de Big Data. Ces données proviennent de nos smartphones, des réseaux sociaux, des objets connectés, des satellites...

Le Big Data est caractérisé par la règle des 3V :

  1. Volume : La quantité de données est gigantesque (Téraoctets, Pétaoctets).
    • Exemple : YouTube reçoit 500 heures de vidéo chaque minute.
  2. Variété : Les données sont de toutes formes (Texte, images, sons, géolocalisation, clics...).
    • Exemple : Facebook analyse vos photos, vos messages et vos likes en même temps.
  3. Vélocité : La vitesse à laquelle les données sont créées et doivent être analysées en temps réel.
    • Exemple : Les algorithmes de trading en bourse décident en quelques millisecondes.

🔓 Open Data (Données Ouvertes)

L'Open Data est une démarche politique et citoyenne qui consiste à mettre des données numériques gratuitement à la disposition de tous, sans restriction de droit d'auteur.

C'est souvent l'État ou les collectivités qui ouvrent leurs données pour favoriser la transparence et l'innovation.

  • Exemple 1 : La RATP partage les horaires de bus en temps réel -> L'application Citymapper les utilise pour vous guider.
  • Exemple 2 : La base de données des produits alimentaires -> L'application Yuka l'utilise pour noter vos courses.

🌍 Ressource : Visitez data.gouv.fr, la plateforme officielle des données publiques françaises.