External Share for Confluence
Advanced search
  • Subscribe with Child Pages
  • Unsubscribe with Child Pages
✓ Subscribed
  • Subscribe with Child Pages
  • Unsubscribe with Child Pages
✓ Subscribed

📁 Documentation technique – Nettoyage & Préparation des Données (Incidents Qualité)

Created by
Matthieu CARRE
Last updated: 17 April 2025, 16:33

🗓️ Dernière mise à jour : 5 avril 2025
👤 Responsable : Matthieu CARRE
📂 Projet : Suivi des incidents qualité multisites – Power BI / Jira

 


🧭 1. Objectif de cette page

Cette page documente les règles de traitement, de transformation et de nettoyage appliquées aux données extraites de Jira, en vue de leur exploitation dans Power BI.
Elle garantit la traçabilité, la cohérence, et la conformité réglementaire (BPF/GMP, intégrité des données, auditabilité).


📥 2. Sources de données

Source

Description

Fréquence

Format

Jira Cloud (projet INC-QA)

Tickets incidents qualité créés depuis le formulaire Confluence

Quotidienne (automatisée)

JSON (API REST)

Fichier complémentaire (référentiel sites)

Table de correspondance site / pays / langue

Hebdomadaire (manuel)

Excel .xlsx

📎 Connecteur utilisé dans Power BI : Jira REST API Connector

 


🧹 3. Étapes de nettoyage des données

a. Nettoyage de base

  • Suppression des lignes sans ID Jira

  • Retrait des tickets “brouillons” ou test (marqués par label test, dev)

  • Filtrage des tickets clos il y a plus de 12 mois (sauf incidents critiques)

b. Standardisation des valeurs

Champ

Problème identifié

Action de nettoyage

Gravité

Saisie libre non uniforme

Harmonisation via table de mapping (low/Low/LOW → Mineur)

Pays / Site

Écritures multiples / fautes

Table de correspondance (Frace → France)

Type de défaut

Multilingue ou imprécis

Regroupement dans 10 familles types

c. Champs dérivés créés

Champ dérivé

Description

Formule / Logique

Durée (heures)

Temps écoulé entre création et clôture

Date_clôture - Date_création

Priorité estimée

Calculée si absente dans Jira

Basée sur gravité + durée + site

Criticité réglementaire

Présence de mots-clés “GMP”, “compliance”, “patient” dans la description

Extraction par regex + flags


⚠️ 4. Règles de gestion spécifiques qualité

  • Un ticket est automatiquement classé critique si :
    → Gravité = Critique OU
    → Durée > 4h ET impact site prioritaire ET champ Impact GMP = Oui

  • Les tickets sans assignee sont exclus des KPIs opérationnels mais conservés pour traçabilité.

  • Les tickets en doublon (même site, même description ± 1h) sont regroupés en un seul ID logique dans les vues agrégées.


🧪 5. Outils utilisés

Étape

Outil utilisé

Détail

Extraction Jira

Power Query

Requête personnalisée via API Jira REST

Nettoyage et fusion

Power Query + M Code

Fonctions Text.Replace, Table.Join

Validation finale

Excel + validation manuelle

Fichier validé par référent data QA


🗂️ 6. Historique des versions

Date

Modifications apportées

Par

2025-03-18

Ajout du champ “Criticité réglementaire”

M. CARRE

2025-03-25

Passage à une extraction quotidienne automatisée Jira

M. CARRE

2025-04-01

Ajout du filtre "tickets test" et nettoyage doublons

M. CARRE

 


🔗 Ressources associées

  • 📝 Liste des types de défauts standardisés

 



 Technical Documentation – Data Cleaning & Preparation (Quality Incidents)

📁 Technical Documentation – Data Cleaning & Preparation (Quality Incidents)

🗓️ Last updated: April 5, 2025
👤 Owner: Matthieu CARRE
📂 Project: Multisite Quality Incident Monitoring – Power BI / Jira / Confluence


🧭 1. Purpose of this page

This page documents the processing, transformation, and cleaning rules applied to data extracted from Jira before being used in Power BI.
It ensures traceability, consistency, and regulatory compliance (GMP/GxP, data integrity, audit readiness).


📥 2. Data sources

Source

Description

Frequency

Format

Jira Cloud (project INC-QA)

Quality incident tickets submitted via Confluence form

Daily (automated)

JSON (REST API)

Supplementary site reference file

Mapping of site / country / language

Weekly (manual)

Excel .xlsx

📎 Connector used in Power BI: Jira REST API Connector


🧹 3. Data cleaning steps

a. Basic cleaning

  • Remove rows with missing Jira ticket ID

  • Filter out test or draft tickets (tagged with test, dev)

  • Exclude tickets closed more than 12 months ago (except critical ones)

b. Value standardization

Field

Issue identified

Cleaning action

Severity

Inconsistent free-text input

Harmonized via mapping table (low/Low/LOW → Minor)

Country / Site

Typos / inconsistent spelling

Corrected via reference mapping (Frace → France)

Defect Type

Multilingual or vague entries

Consolidated into 10 standardized categories

c. Derived fields

Field

Description

Logic / Formula

Duration (hours)

Time between ticket creation and closure

Close_Date - Creation_Date

Estimated Priority

Computed if not defined in Jira

Based on severity + duration + site weight

GMP Risk Flag

Based on keywords: “GMP”, “compliance”, “patient” in description

Regex extraction and keyword flags


⚠️ 4. Business logic – Pharma quality rules

  • A ticket is marked as Critical if:
    → Severity = Critical OR
    → Duration > 4h AND high-priority site AND GMP Impact = Yes

  • Unassigned tickets are excluded from operational KPIs but kept for traceability.

  • Duplicate tickets (same site, same description ± 1h) are merged into a single logical ID in aggregated views.


🧪 5. Tools used

Step

Tool used

Details

Jira data extraction

Power Query

Custom request via Jira REST API

Cleaning & transformation

Power Query + M Code

Functions like Text.Replace, Table.Join

Final validation

Excel + Manual QA

File reviewed by QA data lead


🗂️ 6. Change log

Date

Changes made

By

2025-03-18

Added “GMP Risk Flag” field

M. CARRE

2025-03-25

Switched to automated daily Jira extraction

M. CARRE

2025-04-01

Added test ticket filter and deduplication rule

M. CARRE


🔗 Related resources

  • 📝 Standard Defect Type Reference List