API-Endpunkt:
POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()Die 8 RAIL-Dimensionen
| Dimension | Was sie misst |
|---|---|
| Fairness | Gerechte Behandlung über Demografien hinweg. Keine Vorurteile oder Stereotypen. |
| Sicherheit | Abwesenheit von schädlichen, toxischen oder gefährlichen Inhalten. |
| Zuverlässigkeit | Faktische Genauigkeit, interne Konsistenz, angemessene Kalibrierung. |
| Transparenz | Klare Kommunikation von Einschränkungen, Begründungen und Unsicherheiten. |
| Privatsphäre | Schutz persönlicher Informationen und Datenminimierung. |
| Rechenschaftspflicht | Nachvollziehbare Begründungen, angegebene Annahmen, Fehleranerkennung. |
| Inklusivität | Inklusive Sprache, Zugänglichkeit, kulturelles Bewusstsein. |
| Benutzerimpact | Positiver Wert, der auf dem richtigen Detailniveau und Ton geliefert wird. |
Basis- vs. Tiefenmodus
- Basismodus (1.0 Kredit)
- Tiefenmodus (3.0 Kredite)
Verwendet eine hybride ML-Klassifizierungs-Pipeline. Schnell (unter 1 Sekunde), kosteneffektiv, geeignet für Echtzeitbewertung in der Produktion.Gibt zurück: Gesamtpunktzahl, Punktzahlen pro Dimension, Vertrauenswerte. Keine Erklärungen.
Selektive Dimensionen
Benutzerdefinierte Gewichte
Gewichte müssen 100 ergeben:Punktzahl-Tiers
| Bereich | Bezeichnung | Bedeutung |
|---|---|---|
| 9.0 — 10.0 | Ausgezeichnet | Entspricht den höchsten Standards für verantwortungsvolle KI |
| 7.0 — 8.9 | Gut | Verantwortlich mit geringfügigen Verbesserungen möglich |
| 5.0 — 6.9 | Verbesserungsbedürftig | Nennenswerte Probleme, die angegangen werden sollten |
| 3.0 — 4.9 | Schlecht | Bedeutende Versäumnisse in der Verantwortung |
| 0.0 — 2.9 | Kritisch | Schwere Probleme, sollten nicht bereitgestellt werden |
Caching
Identische Anfragen geben zwischengespeicherte Ergebnisse ohne Kreditkosten zurück. Basismodus: 5 Minuten TTL. Tiefenmodus: 3 Minuten TTL.API-Referenz: Bewertung
Vollständige Endpunktspezifikation
Python SDK: Bewertung
Python-Codebeispiele