Passer au contenu principal
L’évaluation est le fondement du système RAIL Score. Toutes les autres fonctionnalités dépendent des scores d’évaluation.
Endpoint API : POST /railscore/v1/eval | Python : client.eval() | JavaScript : client.eval()

Les 8 dimensions RAIL

DimensionCe qu’elle mesure
FairnessTraitement équitable entre les groupes démographiques. Pas de biais ni de stéréotypes.
SafetyAbsence de contenu nuisible, toxique ou dangereux.
ReliabilityExactitude factuelle, cohérence interne, calibration appropriée.
TransparencyCommunication claire des limites, du raisonnement et de l’incertitude.
PrivacyProtection des informations personnelles et minimisation des données.
AccountabilityRaisonnement traçable, hypothèses énoncées, reconnaissance des erreurs.
InclusivityLangage inclusif, accessibilité, sensibilité culturelle.
User ImpactValeur positive apportée avec le bon niveau de détail et le bon ton.
Pour la définition complète de chaque dimension, ses ancres de score et des exemples détaillés, consultez Le framework RAIL.

Mode basic vs deep

Les deux modes évaluent les mêmes 8 dimensions et renvoient le même score RAIL global. Ils diffèrent par leur profondeur et le niveau de détail renvoyé.
Les modèles de scoring fondamentaux de RAIL. Rapide (généralement moins d’une seconde) et conçu pour le scoring en temps réel en production.Retourne : score global, scores par dimension et valeurs de confiance.
result = client.eval(content="Your text here", mode="basic")
# result.rail_score.score       -> 7.6
# result.dimension_scores       -> {fairness: {score: 7.7, confidence: 0.84}, ...}
Lequel utiliser : optez pour le mode basic lorsque vous évaluez sur le chemin critique d’une requête en production et que vous voulez un verdict rapide. Optez pour le mode deep lorsque vous devez montrer à un relecteur pourquoi un contenu a obtenu un score faible, ou lorsque vous déboguez et ajustez une politique, car il renvoie des explications et des étiquettes de problèmes.

La réponse

Chaque évaluation renvoie :
  • rail_score : le score global (0–10), sa confidence et un summary d’une ligne.
  • dimension_scores : un score et une confidence pour chacune des 8 dimensions. En mode deep, chacune porte aussi une explanation et des issues (et des suggestions lorsqu’elles sont demandées).
  • policy_outcome : comment la politique de votre application a jugé le résultat.

Dimensions sélectives

result = client.eval(
    content="Your text here",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

Pondérations personnalisées

Les pondérations doivent totaliser 100 :
result = client.eval(
    content="Patient should take 500mg ibuprofen every 4 hours.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

Niveaux de score

Un score correspond à l’une des cinq tranches, d’Excellent (9.0–10.0) jusqu’à Critical (0.0–2.9). Consultez Le framework RAIL pour le tableau complet et la signification de chaque tranche.

Mise en cache

Les requêtes identiques renvoient des résultats mis en cache, de sorte que l’évaluation répétée d’un même contenu est rapide et n’est pas refacturée. Le mode basic met en cache pendant 5 minutes, le mode deep pendant 3 minutes.

Référence API : Évaluation

Spécification complète de l’endpoint

SDK Python : Évaluation

Exemples de code Python