---
type: Glossary Term
title: RLHF (Apprendimento per Rinforzo da Feedback Umano)
description: "Il metodo dominante per allineare gli LLM alle preferenze umane. Gli umani valutano gli output del modello, e il modello viene addestrato a preferire le rispost"
resource: "https://www.contextstudios.ai/it/glossario/rlhf"
category: engineering
language: it
timestamp: "2026-02-05T22:07:48.614Z"
---

# RLHF (Apprendimento per Rinforzo da Feedback Umano)

Il metodo dominante per allineare gli LLM alle preferenze umane. Gli umani valutano gli output del modello, e il modello viene addestrato a preferire le risposte con valutazioni più alte. Può portare al Mode Collapse poiché le risposte "tipiche" vengono sistematicamente preferite.

## Business Value

RLHF è il motivo per cui modelli come ChatGPT e Claude diventano utili e sicuri. Comprendere i suoi meccanismi aiuta a prevedere il comportamento del modello e aggirare i suoi limiti.

## Context Studios Perspective

RLHF è potente ma imperfetto. Aiutiamo i clienti a capire dove i comportamenti indotti da RLHF aiutano o ostacolano – e come aggirare i limiti tramite prompting.
