---
type: Glossary Term
title: Contamination de Benchmark
description: "La contamination de benchmark désigne le problème où les données d'évaluation d'un benchmark apparaissent dans les données d'entraînement d'un modèle, accidente"
resource: "https://www.contextstudios.ai/fr/glossaire/benchmark-contamination"
category: safety
language: fr
timestamp: "2026-03-18T09:55:58.990Z"
---

# Contamination de Benchmark

La contamination de benchmark désigne le problème où les données d'évaluation d'un benchmark apparaissent dans les données d'entraînement d'un modèle, accidentellement ou intentionnellement. En conséquence, le modèle semble mieux performer sur ce benchmark qu'il ne généralise réellement à des données non vues — il a 'mémorisé' les réponses plutôt qu'acquis les capacités sous-jacentes.

La contamination est un défi systémique : les modèles de langage modernes s'entraînent sur de vastes données web ; les benchmarks populaires (MMLU, HumanEval, GSM8K) sont librement disponibles en ligne, rendant l'inclusion accidentelle probable. Des incitations économiques créent également des conditions pour une contamination intentionnelle.

Les symptômes comprennent : des scores de benchmark considérablement meilleurs que les performances sur tâches réelles ; l'effet 'MMLU shuffle' où le réordonnancement aléatoire des choix de réponses modifie significativement les scores.

Les contre-mesures : benchmarks privés tenus secrets avant publication ; benchmarks dynamiques à questions quotidiennement générées ; détection de contamination via analyse de chevauchement n-gramme ; s'appuyer sur des évaluations externes indépendantes. Des organisations comme METR, HELM et ARC Evals développent des méthodologies résistantes à la contamination.

## Business Value

Unternehmen, die Modelle ausschließlich nach publizierten Benchmarks wählen, riskieren, suboptimale Modelle zu wählen. Eigene Task-spezifische Evaluierungen sind unerlässlich.

## Context Studios Perspective

Bei Context Studios testen wir Modelle immer mit intern erstellten Evaluierungsaufgaben aus realen Produktionsproblemen — niemals ausschließlich mit publizierten Benchmarks.