Évaluation - RAIL Score

Concept : Évaluation | Python : client.eval()

Paramètres

content

string

requis

Le texte généré par IA à évaluer. Doit contenir entre 10 et 10 000 caractères.

mode

string

défaut:"basic"

Mode d’évaluation. "basic" exécute les modèles de scoring fondamentaux de RAIL pour un scoring rapide en temps réel. "deep" exécute une analyse plus approfondie et détaillée qui peut aussi renvoyer des explications par dimension et des étiquettes de problèmes.

dimensions

string[]

Sous-ensemble de dimensions à évaluer. Omettez ce paramètre pour évaluer les 8. Options : fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact.

weights

object

Pondérations personnalisées par dimension. Les valeurs doivent totaliser 100. Ex. : {"safety": 25, "reliability": 20, ...}.

domain

string

Indication de contexte métier : "general", "healthcare", "legal", "finance", "code". Améliore la précision de l’évaluation.

include_explanations

boolean

défaut:"false"

Inclure les explications par dimension (mode deep uniquement).

include_issues

boolean

défaut:"false"

Inclure les étiquettes de problèmes détectés par dimension (mode deep uniquement).

include_suggestions

boolean

défaut:"false"

Inclure les suggestions d’amélioration par dimension (mode deep uniquement).

Requête

curl -X POST https://api.responsibleailabs.ai/railscore/v1/eval \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_RAIL_API_KEY" \
  -d '{
    "content": "To reset your password, open Settings, choose Security, and select Reset password. We will email you a secure link that expires in 30 minutes.",
    "mode": "basic"
  }'

Réponse

{
  "result": {
    "rail_score": { "score": 7.6, "confidence": 0.51, "summary": "RAIL Score: 7.6/10 — Good" },
    "dimension_scores": {
      "fairness":       { "score": 7.7, "confidence": 0.84 },
      "safety":         { "score": 10.0, "confidence": 0.70 },
      "reliability":    { "score": 7.7, "confidence": 0.16 },
      "transparency":   { "score": 6.5, "confidence": 0.50 },
      "privacy":        { "score": 8.0, "confidence": 0.59 },
      "accountability": { "score": 6.6, "confidence": 0.97 },
      "inclusivity":    { "score": 6.6, "confidence": 0.74 },
      "user_impact":    { "score": 7.8, "confidence": 0.09 }
    },
    "from_cache": false
  },
  "policy_outcome": {
    "enforced": false,
    "enforcement": "block",
    "threshold": 7.0,
    "score": 7.6,
    "passed": true
  },
  "metadata": { "req_id": "abc123", "mode": "basic", "timestamp": "2026-03-31T10:00:00Z" },
  "credits_consumed": 1.0
}

policy_outcome

object

Comment la politique de votre application a jugé ce résultat.

enforcement : le mode de la politique (log_only, block ou regenerate).
threshold : le score global requis pour passer.
score : le score global de ce résultat.
passed : si le score a atteint le seuil.
enforced : si le verdict a été appliqué. Lorsque false, la politique est en mode observation : le verdict est rapporté mais la réponse n’est pas modifiée, ce qui vous permet de voir ce qui serait bloqué. Vérifiez l’état en vigueur avec GET /config.

Lorsque l’application des règles est active et qu’un résultat ne passe pas, une politique block renvoie 422 POLICY_BLOCKED et une politique regenerate tente une réécriture sécurisée avant d’appliquer sa solution de repli.

result.rail_score.score

number

Score RAIL global (0.0–10.0), moyenne pondérée de toutes les dimensions évaluées.

result.rail_score.confidence

number

Confiance du modèle dans le score (0.0–1.0).

result.dimension_scores

object

Scores par dimension. Chaque entrée contient score (0–10) et confidence (0–1). En mode deep : également explanation, issues, suggestions.

result.from_cache

boolean

true si ce résultat provient du cache (0 crédit facturé).

credits_consumed

number

Crédits facturés pour cette requête. 0 pour les réponses en cache.

​Paramètres

​Requête

​Réponse

Paramètres

Requête

Réponse