Concept : Évaluation | Python :
client.eval()Paramètres
Le texte généré par IA à évaluer. Doit contenir entre 10 et 10 000 caractères.
Mode d’évaluation :
"basic" (classificateur ML, rapide, 1.0 crédit) ou "deep" (LLM-as-judge, 2–5s, 3.0 crédits).Sous-ensemble de dimensions à évaluer. Omettez ce paramètre pour évaluer les 8. Options :
fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact.Pondérations personnalisées par dimension. Les valeurs doivent totaliser 100. Ex. :
{"safety": 25, "reliability": 20, ...}.Indication de contexte métier :
"general", "healthcare", "legal", "finance", "code". Améliore la précision de l’évaluation.Inclure les explications par dimension (mode deep uniquement).
Inclure les problèmes détectés par dimension (mode deep uniquement).
Inclure les suggestions d’amélioration par dimension (mode deep uniquement).
Requête
Réponse
Score RAIL global (0.0–10.0), moyenne pondérée de toutes les dimensions évaluées.
Confiance du modèle dans le score (0.0–1.0).
Scores par dimension. Chaque entrée contient
score (0–10) et confidence (0–1). En mode deep : également explanation, issues, suggestions.true si ce résultat provient du cache (0 crédit facturé).Crédits facturés pour cette requête.
0 pour les réponses en cache.