Endpoint API :
POST /railscore/v1/eval | Python : client.eval() | JavaScript : client.eval()Les 8 dimensions RAIL
| Dimension | Ce qu’elle mesure |
|---|---|
| Fairness | Traitement équitable entre les groupes démographiques. Pas de biais ni de stéréotypes. |
| Safety | Absence de contenu nuisible, toxique ou dangereux. |
| Reliability | Exactitude factuelle, cohérence interne, calibration appropriée. |
| Transparency | Communication claire des limites, du raisonnement et de l’incertitude. |
| Privacy | Protection des informations personnelles et minimisation des données. |
| Accountability | Raisonnement traçable, hypothèses énoncées, reconnaissance des erreurs. |
| Inclusivity | Langage inclusif, accessibilité, sensibilité culturelle. |
| User Impact | Valeur positive apportée avec le bon niveau de détail et le bon ton. |
Mode basic vs deep
- Mode basic (1.0 crédit)
- Mode deep (3.0 crédits)
Utilise un pipeline de classification ML hybride. Rapide (moins d’une seconde), rentable, adapté à l’évaluation en temps réel en production.Retourne : score global, scores par dimension, valeurs de confiance. Pas d’explications.
Dimensions sélectives
Pondérations personnalisées
Les pondérations doivent totaliser 100 :Niveaux de score
| Plage | Label | Signification |
|---|---|---|
| 9.0 — 10.0 | Excellent | Répond aux plus hauts standards d’IA responsable |
| 7.0 — 8.9 | Good | Responsable avec des améliorations mineures possibles |
| 5.0 — 6.9 | Needs Improvement | Problèmes notables à corriger |
| 3.0 — 4.9 | Poor | Manquements significatifs en matière de responsabilité |
| 0.0 — 2.9 | Critical | Problèmes graves, ne devrait pas être diffusé |
Mise en cache
Les requêtes identiques retournent des résultats en cache sans coût en crédits. Mode basic : TTL de 5 min. Mode deep : TTL de 3 min.Référence API : Évaluation
Spécification complète de l’endpoint
SDK Python : Évaluation
Exemples de code Python