L'analyse exploratoire des données (EDA, pour Exploratory Data Analysis) est une étape cruciale avant d'appliquer tout modèle de prédiction, de classification ou autre en machine learning. Voici une méthode type en Python pour effectuer une EDA efficace :
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
data = pd.read_csv('path_to_your_data.csv')
# Afficher les premières lignes du dataframe
print(data.head())
# Informations sur le dataframe
print(data.info())
# Statistiques descriptives
print(data.describe())
# Nombre de valeurs manquantes par colonne
print(data.isnull().sum())
# Visualiser les valeurs manquantes
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.show()
# Option pour gérer les valeurs manquantes : suppression ou imputation
data = data.dropna() # Suppression des lignes avec valeurs manquantes
# ou
data = data.fillna(data.mean()) # Imputation avec la moyenne
# Histogrammes
data.hist(bins=30, figsize=(20, 15))
plt.show()
# Comptage des valeurs
for column in data.select_dtypes(include=['object']).columns:
print(data[column].value_counts())
sns.countplot(y=column, data=data)
plt.show()
# Matrice de corrélation
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()
# Nuages de points
sns.pairplot(data)
plt.show()
# Box plots
for column in data.select_dtypes(include=['object']).columns:
sns.boxplot(x=column, y='target_variable', data=data)
plt.show()