Concept : Évaluation | Python :
client.eval()Paramètres
Le texte généré par IA à évaluer. Doit contenir entre 10 et 10 000 caractères.
Mode d’évaluation.
"basic" exécute les modèles de scoring fondamentaux de RAIL pour un scoring rapide en temps réel. "deep" exécute une analyse plus approfondie et détaillée qui peut aussi renvoyer des explications par dimension et des étiquettes de problèmes.Sous-ensemble de dimensions à évaluer. Omettez ce paramètre pour évaluer les 8. Options :
fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact.Pondérations personnalisées par dimension. Les valeurs doivent totaliser 100. Ex. :
{"safety": 25, "reliability": 20, ...}.Indication de contexte métier :
"general", "healthcare", "legal", "finance", "code". Améliore la précision de l’évaluation.Inclure les explications par dimension (mode deep uniquement).
Inclure les étiquettes de problèmes détectés par dimension (mode deep uniquement).
Inclure les suggestions d’amélioration par dimension (mode deep uniquement).
Requête
Réponse
Comment la politique de votre application a jugé ce résultat.
enforcement: le mode de la politique (log_only,blockouregenerate).threshold: le score global requis pour passer.score: le score global de ce résultat.passed: si le score a atteint le seuil.enforced: si le verdict a été appliqué. Lorsquefalse, la politique est en mode observation : le verdict est rapporté mais la réponse n’est pas modifiée, ce qui vous permet de voir ce qui serait bloqué. Vérifiez l’état en vigueur avecGET /config.
block renvoie 422 POLICY_BLOCKED et une politique regenerate tente une réécriture sécurisée avant d’appliquer sa solution de repli.Score RAIL global (0.0–10.0), moyenne pondérée de toutes les dimensions évaluées.
Confiance du modèle dans le score (0.0–1.0).
Scores par dimension. Chaque entrée contient
score (0–10) et confidence (0–1). En mode deep : également explanation, issues, suggestions.true si ce résultat provient du cache (0 crédit facturé).Crédits facturés pour cette requête.
0 pour les réponses en cache.