12  QC - contrôle de la qualité des features

Le rapport de contrôle de la qualité (QC) évalue si les features extraites sont liées à des groupes expérimentaux ou à des effets observés, mais il peut également détecter des effets non observés (problème de regroupement, etc.).

Fonction d’Analyse Type Description
Barplot du Nombre de Cellules graphique Affiche le nombre de cellules par fichier .fcs, mettant en évidence les effets de lot potentiels et identifiant les échantillons avec un faible nombre de cellules.
Nombre de Cellules par Quantiles tableau Résume la distribution des nombres de cellules à travers les fichiers .fcs en utilisant des quantiles, aidant à identifier les valeurs aberrantes et les tendances générales des données.
Histogramme du Nombre de Cellules par .fcs graphique Visualise la distribution du nombre de cellules à travers les fichiers .fcs, en marquant les quantiles clés pour illustrer les limites statistiques significatives.
Barplot du Nombre de Cellules par Clusters graphique Illustre la distribution des cellules à travers les clusters manuellement définis, montrant le pourcentage et le pourcentage cumulé de cellules par cluster.
Carte de Densité (Density Heatmap) graphique Vérifie visuellement la méthode de standardisation et s’assure que les plages d’abondance sont similaires entre les échantillons à l’aide d’une méthode de distance spécifique.
Carte de Chaleur des MFI (MFI’s Heatmap) graphique Affiche l’intensité médiane de fluorescence (MFI) des marqueurs à travers les clusters, permettant de comparer les motifs de MFI entre les conditions expérimentales ou les groupes d’échantillons.
Carte de Chaleur MFI x Abondance graphique Combine les informations sur l’expression des marqueurs et l’abondance des clusters, aidant les utilisateurs à comprendre les motifs d’expression et la distribution des clusters.
Carte de Chaleur d’Abondance graphique Affiche le pourcentage de cellules dans chaque cluster pour chaque échantillon, permettant d’identifier les valeurs aberrantes et de vérifier si les conditions expérimentales ont des motifs d’abondance de clusters distincts.
PCA des Échantillons Utilisant les Pourcentages par Cluster graphique Visualise les échantillons dans un espace de dimension réduite basé sur les pourcentages des clusters, évaluant l’homogénéité des échantillons, identifiant les valeurs aberrantes et déterminant si les conditions expérimentales peuvent être séparées.
Barplot de la Variance de Chaque PC graphique Affiche le pourcentage de variance expliquée pour chaque composant principal dans l’analyse PCA.
Contribution et Corrélation des Variables à Chaque Axe tableaux Fournit des tableaux pour analyser les résultats de la PCA, incluant les tableaux de contribution, de corrélation et de R2, aidant à identifier les variables clés qui influencent la distribution et la variabilité des échantillons.
Carte de Chaleur des 10 Premiers cos2 pour Chaque Combinaison des 3 Premières Dimensions graphique Affiche les 10 premiers marqueurs avec les valeurs cos2 les plus élevées pour chaque combinaison des trois premières dimensions dans l’analyse PCA des MFI, aidant à interpréter les marqueurs clés influençant la séparation ou le regroupement des échantillons.

12.1 Nombre de cellules Barplot

Nombre de cellules par fcs

Nombre de cellules par fcs

Le “Nombre de cellules par fcs” affiche le nombre de cellules pour chaque fichier .fcs, trié par condition si elle est fournie. Si des annotations sur les lots sont disponibles, le graphique sera entouré de couleurs pour les lots afin d’améliorer la visibilité des effets potentiels des lots.

Les annotations sur le graphique permettent d’identifier rapidement les variations, ce qui facilite la surveillance et le contrôle de la qualité. Sous le graphique, la documentation répertorie les fichiers .fcs contenant le moins de cellules afin de mettre en évidence les échantillons qui peuvent nécessiter un examen plus approfondi.

12.2 Nombre de cellules par tableau de quantiles

Ce tableau présente la distribution du nombre de cellules dans tous les fichiers .fcs, résumée par quantiles.

Il fournit des mesures statistiques clés en cinq points : Cette répartition par quantile permet de comprendre la distribution et la variabilité des nombres de cellules au sein de votre ensemble de données et d’identifier les valeurs aberrantes et les tendances générales des données.

12.3 Histogramme du nombre de cellules par .fcs

Histogramme

Histogramme

Cet histogramme visualise la distribution du nombre de cellules dans tous les fichiers .fcs, avec le nombre de .fcs en ordonnée et le nombre de cellules en abscisse.

Les quantiles clés - Q1 (25 %), Q2 (50 %, médiane), Q3 (75 %) et Q4 (100 %, maximum) - sont marqués par des lignes pointillées rouges pour illustrer les limites statistiques significatives au sein des données.

Cet histogramme fournit une représentation graphique claire de la façon dont les nombres de cellules sont répartis entre les fichiers .fcs, ce qui permet d’identifier rapidement les schémas et les anomalies dans l’ensemble de données.

12.4 Barplot Nombre de cellules par groupe

Nombre de cellules par clusters/gating

Nombre de cellules par clusters/gating

Ce diagramme à barres illustre la distribution des cellules dans les différents clusters, identifiés par un gating manuel. Il affiche le pourcentage de cellules totales par groupe et le pourcentage cumulé, ce qui donne un aperçu détaillé des schémas de distribution des cellules. Détails du diagramme à barres

  • Axe Y (gauche) : Affiche le pourcentage de cellules totales dans chaque groupe.

  • Axe Y (droite) : Affiche le pourcentage cumulé de cellules, ce qui permet de mieux comprendre la distribution globale au fur et à mesure qu’elle s’accumule dans les clusters.

  • Annotation cumulative : Chaque groupe est trié en fonction du pourcentage de cellules qu’il contient, avec des annotations indiquant les pourcentages cumulés, ce qui aide à visualiser la façon dont les nombres de cellules s’accumulent dans les groupes.

Sous le diagramme à barres, les clusters présentant le plus faible pourcentage de cellules sont répertoriées afin de mettre en évidence les zones où le nombre de cellules est minimal. Ces informations sont cruciales pour évaluer l’efficacité et l’efficience du processus de sélection.

12.5 Carte thermique de densité

Densité

Densité

Une méthode de distance spéciale, désignée par “ks”, mesure la similarité entre les distributions en calculant la statistique de Kolmogorov-Smirnov entre deux distributions.

pour chaque échantillon/fcs une densité de fréquences Argsinh / 0,03 puis centrée par la moyenne par clusters avec une densité allant du bleu au rouge

L’objectif est de vérifier visuellement la méthode de standardisation et de s’assurer que les gammes d’abondance des échantillons sont similaires.

12.6 Heatmap de l’IMF

La heatmap de de la MFI est une visualisation qui affiche l’intensité de fluorescence médiane (MFI) des marqueurs dans les groupes d’un ensemble de données cytométriques.

L’entrée de cette heatmap est le tableau MFI cluster x marqueur, où les valeurs MFI ont été préalablement transformées à l’aide d’une fonction asinh(intensité/cofacteur). La heatmap est organisée avec les clusters en lignes et les marqueurs en colonnes, ce qui permet d’obtenir une vue d’ensemble claire de la distribution de de la MFI dans l’ensemble des données. Parallèlement à la heatmap, un diagramme à barres est présenté pour montrer le nombre de cellules dans chaque métacluster, ce qui donne une idée de la taille relative des clusters.

Initialement, la heatmap couvre tous les fichiers .fcs de l’ensemble de données, ce qui permet d’obtenir une vue d’ensemble des modèles d’IMF. Toutefois, si une condition spécifique est sélectionnée pour le rendu du document, des cartes thermiques supplémentaires sont générées pour afficher les MFI pour chaque sous-groupe de cette condition. Cette fonction permet aux utilisateurs de comparer et de contraster les modèles de MFI entre différentes conditions expérimentales ou différents groupes d’échantillons. La heatmap de de la MFI est un outil précieux pour vérifier visuellement la cohérence des valeurs de de la MFI entre les échantillons et s’assurer que les données sont comparables dans l’ensemble du jeu de données. En fournissant une représentation claire et concise de la distribution de de la MFI, cette visualisation facilite l’interprétation et le contrôle de la qualité des données.

12.7 Mfi x Abundance Heatmap

Carte thermique MFI / abondance

Carte thermique MFI / abondance

La heatmap Mfi x Abondance est une visualisation en deux parties qui combine des informations sur l’expression des marqueurs et l’abondance des clusters dans les données de cytométrie.

  • La première heatmap montre l’intensité de fluorescence médiane normalisée (MFI) de chaque marqueur par cluster, ce qui permet de comparer facilement l’expression des marqueurs entre les clusters. Les marqueurs sont regroupés de façon hiérarchique pour une meilleure interprétation.

  • La seconde heatmap affiche les abondances relatives de chaque groupe par fichier .fcs, transformées par rapport à la moyenne du groupe. L’échelle de couleur vert-violet est utilisée dans toute la matrice d’abondance.

  • Les métadonnées de l’échantillon sont fournies sur le côté gauche de la heatmap d’abondance, offrant un contexte pour l’interprétation des abondances des groupes.

12.8 Abondance Heatmap

Carte thermique d’abondance

Carte thermique d’abondance

La heatmap d’abondance est un graphique qui montre le pourcentage de cellules dans chaque groupe pour chaque échantillon de votre ensemble de données cytométriques. La heatmap présente les échantillons en colonnes et les clusters en lignes, l’intensité de la couleur représentant le pourcentage de cellules. Le graphique vous aide à :

  • Voir si les échantillons au sein des groupes ou des conditions ont des abondances de clusters similaires.

  • Identifier les échantillons qui sont différents des autres (valeurs aberrantes)

  • Vérifier si les conditions expérimentales présentent des schémas distincts d’abondance des clusters.

La heatmap comporte également un diagramme à barres sur le côté droit qui montre les valeurs d’abondance des groupes sur une échelle logarithmique, colorées par condition si l’une d’entre elles a été sélectionnée. Ce graphique est utile pour vérifier la qualité des données et explorer la façon dont l’abondance des groupes varie selon les échantillons et les conditions de votre ensemble de données.

13 PCA of Samples Using Percentages per Cluster {#sec-pca-abu} (ACP des échantillons à l’aide de pourcentages par groupe)

Le graphique PCA (Principal Component Analysis) est une visualisation de vos échantillons dans un espace de dimension réduite basé sur les pourcentages de cellules dans chaque cluster. Ce graphique vous aide à évaluer l’homogénéité des états de l’échantillon, à identifier les valeurs aberrantes ou les effets de genre, et à déterminer si les conditions expérimentales peuvent être séparées. L’entrée de l’ACP est un tableau dont les échantillons sont les lignes et les clusters les colonnes, et qui contient le pourcentage de cellules dans chaque cluster pour chaque échantillon. Avant l’analyse, les pourcentages sont transformés à l’aide d’une fonction asinh(%+cte) avec une constante (cte) de 0,03, puis centrés par cluster. Le graphique de l’ACP est généré à l’aide de la fonction factormineR PCA et visualisé à l’aide des fonctions factoextra. Il est important de vérifier que les 2 ou 3 premières composantes principales conservent l’information principale de votre jeu de données. Dans le graphique de l’ACP, chaque point représente un échantillon, et la distance entre les points reflète leur similarité en termes de pourcentages de clusters. Les échantillons dont l’abondance des clusters est similaire seront plus proches les uns des autres, tandis que les échantillons dont l’abondance est différente seront plus éloignés les uns des autres. En examinant le graphique ACP, vous pouvez :

  • évaluer l’homogénéité des états de l’échantillon au sein des groupes ou des conditions

  • identifier les valeurs aberrantes potentielles ou les échantillons affectés par des facteurs tels que le sexe

  • Déterminer si les conditions expérimentales forment des groupes distincts, en indiquant leur impact sur l’abondance des groupes.

Ce graphique fournit un résumé concis des relations entre vos échantillons en fonction de leur composition en clusters, ce qui facilite l’évaluation de la qualité des données et l’analyse exploratoire de votre ensemble de données cytométriques.

13.1 Barplot de la variance de chaque PC

Le diagramme à barres de la variance montre le pourcentage de variance expliquée pour chaque composante principale (CP) dans l’analyse ACP, à la fois pour les données d’abondance et de MFI. Les barres représentent les composantes principales, la hauteur indiquant la proportion de variance expliquée. Les quelques premières dimensions capturant les informations les plus significatives sont affichées.

  • ACP Le graphique ACP visualise les échantillons dans l’espace à dimensions réduites, les couleurs représentant les annotations d’intérêt. Chaque point est un échantillon et les couleurs correspondent à différentes catégories ou conditions. Les cercles mettent en évidence les regroupements ou la séparation des groupes. Ce graphique évalue l’impact des variables annotées sur la distribution des échantillons.

  • Biplot Le biplot combine les points d’échantillonnage et les charges des variables, montrant les relations entre les échantillons et les contributions des variables (clusters ou marqueurs) aux composantes principales. Les corrélations entre les variables et les composantes principales sont annotées si leurs valeurs cos2 dépassent la moyenne cos2 pour les axes d’intérêt, ce qui permet d’identifier les variables clés à l’origine de la séparation ou du regroupement des échantillons.

Ces graphiques permettent de mieux comprendre les résultats de l’ACP, en explorant les relations entre les échantillons, l’impact des annotations et les principaux facteurs contribuant à la variance dans l’ensemble de données cytométriques.

14 Contribution et corrélation des variables à chaque axe

En plus des graphiques de l’ACP, trois tableaux sont fournis pour approfondir l’analyse des résultats :

  • Tableau de contribution : Le tableau de contribution montre les contributions de chaque variable (cluster ou marqueur) aux cinq premières composantes principales. Seules les variables qui contribuent à hauteur d’au moins 1 % à l’une de ces dimensions sont incluses dans le tableau. Ce tableau permet d’identifier les variables clés qui ont un impact significatif sur la variance capturée par chaque composante principale. Les variables dont la contribution est élevée sont considérées comme importantes pour façonner la distribution de l’échantillon dans l’espace à dimensions réduites.

  • Tableau de corrélation** : Si des variables quantitatives associées ont été détectées dans l’ensemble de données, un tableau de corrélation est généré. Ce tableau affiche les corrélations entre les variables quantitatives et les composantes principales. Des valeurs absolues élevées de corrélation indiquent une forte relation entre une variable et une composante principale spécifique. Ces informations peuvent aider à interpréter la signification des composantes principales et à comprendre comment les variables quantitatives sont liées à la distribution de l’échantillon dans l’espace de l’ACP.

  • Tableau R2** : Si des variables qualitatives associées ont été détectées dans l’ensemble de données, un tableau R2 est fourni. Ce tableau indique les valeurs R au carré, qui mesurent la proportion de la variance dans les composantes principales qui peut être expliquée par chaque variable qualitative. Des valeurs R-carré élevées suggèrent qu’une variable qualitative a une forte influence sur la distribution de l’échantillon le long de la composante principale correspondante. Cette information peut aider à identifier les facteurs catégoriels qui contribuent de manière significative aux modèles observés dans les résultats de l’ACP.

Ces tableaux complètent les graphiques de l’ACP en fournissant des résumés numériques des contributions des variables, des corrélations et du pouvoir explicatif. Ils aident à interpréter les résultats de l’ACP et à identifier les facteurs clés de la distribution et de la variabilité des échantillons dans l’ensemble de données cytométriques.

14.1 Heatmap Top 10 cos2 pour chaque combinaison des 3 premières dimensions

L’analyse PCA de l’IMF comprend des cartes thermiques qui montrent les 10 premiers marqueurs ayant les valeurs cos2 les plus élevées pour chaque combinaison des trois premières dimensions (Dim.1 vs Dim.2, Dim.1 vs Dim.3, et Dim.2 vs Dim.3). La valeur cos2 indique dans quelle mesure un marqueur est représenté et contribue à la variabilité capturée par les dimensions correspondantes. Une valeur cos2 élevée signifie qu’un marqueur a une forte influence sur la distribution de l’échantillon dans l’espace PCA. Pour chaque combinaison de dimensions, une heatmap distincte est générée