---
type: Glossary Term
title: DPO (Ottimizzazione Diretta delle Preferenze)
description: "Un'alternativa più efficiente a RLHF che elimina il passaggio separato del modello di ricompensa. Addestra il modello direttamente su coppie di preferenze. Più "
resource: "https://www.contextstudios.ai/it/glossario/dpo"
category: engineering
language: it
timestamp: "2026-02-05T22:09:04.190Z"
---

# DPO (Ottimizzazione Diretta delle Preferenze)

Un'alternativa più efficiente a RLHF che elimina il passaggio separato del modello di ricompensa. Addestra il modello direttamente su coppie di preferenze. Più semplice da implementare, ma può anche causare Mode Collapse se i dati di addestramento contengono bias di tipicità.

## Business Value

DPO consente un fine-tuning del modello più rapido e economico per casi d'uso personalizzati. Ideale per aziende che vogliono adattare modelli base al loro dominio specifico.

## Context Studios Perspective

Utilizziamo DPO per una rapida personalizzazione del modello quando i clienti necessitano di comportamenti specifici per il dominio. È più veloce di RLHF e spesso sufficiente per applicazioni enterprise.
