Passer au contenu principal
L’évaluation est le fondement du système RAIL Score. Toutes les autres fonctionnalités dépendent des scores d’évaluation.
Endpoint API : POST /railscore/v1/eval | Python : client.eval() | JavaScript : client.eval()

Les 8 dimensions RAIL

DimensionCe qu’elle mesure
FairnessTraitement équitable entre les groupes démographiques. Pas de biais ni de stéréotypes.
SafetyAbsence de contenu nuisible, toxique ou dangereux.
ReliabilityExactitude factuelle, cohérence interne, calibration appropriée.
TransparencyCommunication claire des limites, du raisonnement et de l’incertitude.
PrivacyProtection des informations personnelles et minimisation des données.
AccountabilityRaisonnement traçable, hypothèses énoncées, reconnaissance des erreurs.
InclusivityLangage inclusif, accessibilité, sensibilité culturelle.
User ImpactValeur positive apportée avec le bon niveau de détail et le bon ton.

Mode basic vs deep

Utilise un pipeline de classification ML hybride. Rapide (moins d’une seconde), rentable, adapté à l’évaluation en temps réel en production.Retourne : score global, scores par dimension, valeurs de confiance. Pas d’explications.
result = client.eval(content="Your text here", mode="basic")
# result.rail_score.score       -> 8.4
# result.dimension_scores       -> {fairness: {score: 9.0, confidence: 0.9}, ...}

Dimensions sélectives

result = client.eval(
    content="Your text here",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

Pondérations personnalisées

Les pondérations doivent totaliser 100 :
result = client.eval(
    content="Patient should take 500mg ibuprofen every 4 hours.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

Niveaux de score

PlageLabelSignification
9.0 — 10.0ExcellentRépond aux plus hauts standards d’IA responsable
7.0 — 8.9GoodResponsable avec des améliorations mineures possibles
5.0 — 6.9Needs ImprovementProblèmes notables à corriger
3.0 — 4.9PoorManquements significatifs en matière de responsabilité
0.0 — 2.9CriticalProblèmes graves, ne devrait pas être diffusé

Mise en cache

Les requêtes identiques retournent des résultats en cache sans coût en crédits. Mode basic : TTL de 5 min. Mode deep : TTL de 3 min.

Référence API : Évaluation

Spécification complète de l’endpoint

SDK Python : Évaluation

Exemples de code Python