📖
📈 Intermédiaire
Python Pandas : analyser un fichier Excel de 100 000 lignes en 5 secondes
1 min de lecture
1,230 vues
09 May 2026
? Pandas : Excel mais en 100× plus puissant
Pandas est la bibliothèque Python pour analyser des données. Là où Excel a des limites, Pandas gère des millions de lignes en quelques secondes.
pip install pandas openpyxl
? Charger des données
import pandas as pd
# Lire un fichier CSV
df = pd.read_csv('ventes.csv')
# Lire un fichier Excel
df = pd.read_excel('rapport.xlsx', sheet_name='Feuil1')
# Afficher les premières lignes
print(df.head())
print(df.shape) # (lignes, colonnes)
print(df.info()) # Types et valeurs manquantes
? Explorer et filtrer
# Sélectionner une colonne
df['Prénom']
# Filtrer les lignes
parisiens = df[df['Ville'] == 'Paris']
adultes = df[df['Âge'] >= 18]
combo = df[(df['Âge'] >= 18) & (df['Ville'] == 'Paris')]
# Trier
df.sort_values('Salaire', ascending=False).head(10)
? Statistiques en 1 ligne
df.describe() # Stats complètes (min, max, moyenne...)
df['Salaire'].mean() # Moyenne
df['Ville'].value_counts() # Fréquences
df.groupby('Région')['Ventes'].sum() # Total par région
? groupby() c'est le tableau croisé dynamique d'Excel, mais en 10× plus flexible.
? Nettoyer les données
# Valeurs manquantes
df.isnull().sum() # Compter les NaN
df.dropna() # Supprimer les lignes avec NaN
df['Âge'].fillna(df['Âge'].mean()) # Remplacer par la moyenne
# Doublons
df.duplicated().sum()
df.drop_duplicates(inplace=True)
# Renommer des colonnes
df.rename(columns={{'old': 'new'}}, inplace=True)
? Exporter les résultats
df.to_csv('résultat.csv', index=False)
df.to_excel('résultat.xlsx', index=False, sheet_name='Analyse')
Pandas + Matplotlib = analyser ET visualiser des données avec Python. Cherchez "matplotlib pyplot" pour les graphiques.