AI Knowledge Base 2026

Glossaire IA 2026

Définitions claires pour l'ère de l'IA agentique et de l'intelligence spatiale.

Infrastructure Agentique

Puce d'Inférence

Une puce d'inférence est un processeur semiconducteur spécialisé optimisé pour exécuter efficacement des modèles IA lors de l'inférence. Contrairement aux CPU à usage général ou aux GPU optimisés pour l'entraînement, les puces d'inférence priorisent le débit (TPS), l'efficacité énergétique et la faible latence pour les modèles déjà entraînés. Les trois catégories dominantes : les GPU comme les H100 et B200 Blackwell de NVIDIA, excellant par leur architecture massivement parallèle et leurs Tensor Cores ; les TPU de Google, conçus pour les multiplications matricielles dans les réseaux de neurones ; et les ASIC comme le LPU de Groq atteignant 500+ tokens/seconde, le CS-3 de Cerebras et les puces Inferentia d'Amazon. La génération Blackwell de NVIDIA (GB200, B200) a remodelé le paysage : FP4 natif permet 4× plus d'opérations par watt vs H100 ; 192 Go HBM3e contient entièrement les plus grands modèles frontier dans la VRAM. Le rack GB200 NVL72 atteint un débit 30× supérieur aux systèmes H100. Le bon choix de puce influence profondément coût, latence et taille maximale du modèle. Les modèles plus petits fonctionnent sur des H100 individuels ; les modèles frontier nécessitent des clusters GPU.

Explore Concept