API-Endpunkt:
POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()Die 8 RAIL-Dimensionen
| Dimension | Was sie misst |
|---|---|
| Fairness | Gleichbehandlung über Bevölkerungsgruppen hinweg. Keine Vorurteile oder Stereotype. |
| Safety | Abwesenheit schädlicher, toxischer oder gefährlicher Inhalte. |
| Reliability | Faktische Korrektheit, innere Konsistenz, angemessene Kalibrierung. |
| Transparency | Klare Kommunikation von Grenzen, Begründungen und Unsicherheit. |
| Privacy | Schutz personenbezogener Daten und Datenminimierung. |
| Accountability | Nachvollziehbare Begründung, genannte Annahmen, Anerkennung von Fehlern. |
| Inclusivity | Inklusive Sprache, Barrierefreiheit, kulturelles Bewusstsein. |
| User Impact | Positiver Mehrwert, geliefert auf dem richtigen Detailgrad und im richtigen Ton. |
Basic- vs. Deep-Modus
Beide Modi bewerten dieselben 8 Dimensionen und geben denselben RAIL-Gesamtscore zurück. Sie unterscheiden sich in der Tiefe und darin, welche Details zurückkommen.- Basic-Modus
- Deep-Modus
Die Kern-Scoring-Modelle von RAIL. Schnell (typischerweise unter einer Sekunde) und für Echtzeit-Scoring in der Produktion ausgelegt.Gibt zurück: Gesamtscore, Scores pro Dimension und Konfidenzwerte.
Die Antwort
Jede Bewertung gibt zurück:rail_score— den Gesamtscore (0 bis 10), seineconfidenceund eine einzeiligesummary.dimension_scores— einenscoreund eineconfidencefür jede der 8 Dimensionen. Im Deep-Modus trägt jede zusätzlich eineexplanationundissues(sowiesuggestions, falls angefordert).policy_outcome— wie die Richtlinie Ihrer Anwendung das Ergebnis bewertet hat.
Selektive Dimensionen
Benutzerdefinierte Gewichtungen
Die Gewichtungen müssen sich auf 100 summieren:Bewertungsstufen
Ein Score wird einem von fünf Bändern zugeordnet, von Excellent (9,0 bis 10,0) bis hinab zu Critical (0,0 bis 2,9). Die vollständige Tabelle und die Bedeutung jedes Bands finden Sie unter Das RAIL Framework.Caching
Identische Anfragen geben zwischengespeicherte Ergebnisse zurück, sodass das wiederholte Bewerten desselben Inhalts schnell ist und nicht erneut berechnet wird. Der Basic-Modus speichert für 5 Minuten zwischen, der Deep-Modus für 3 Minuten.API-Referenz: Bewertung
Vollständige Endpunktspezifikation
Python SDK: Bewertung
Python-Codebeispiele