Zum Hauptinhalt springen
Die Bewertung ist die Grundlage des RAIL Score Systems. Jede andere Funktion hängt von Bewertungs-Scores ab.
API-Endpunkt: POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()

Die 8 RAIL-Dimensionen

DimensionWas sie misst
FairnessGleichbehandlung über Bevölkerungsgruppen hinweg. Keine Vorurteile oder Stereotype.
SafetyAbwesenheit schädlicher, toxischer oder gefährlicher Inhalte.
ReliabilityFaktische Korrektheit, innere Konsistenz, angemessene Kalibrierung.
TransparencyKlare Kommunikation von Grenzen, Begründungen und Unsicherheit.
PrivacySchutz personenbezogener Daten und Datenminimierung.
AccountabilityNachvollziehbare Begründung, genannte Annahmen, Anerkennung von Fehlern.
InclusivityInklusive Sprache, Barrierefreiheit, kulturelles Bewusstsein.
User ImpactPositiver Mehrwert, geliefert auf dem richtigen Detailgrad und im richtigen Ton.
Die vollständige Definition jeder Dimension, ihre Bewertungsanker und ausgearbeitete Beispiele finden Sie unter Das RAIL Framework.

Basic- vs. Deep-Modus

Beide Modi bewerten dieselben 8 Dimensionen und geben denselben RAIL-Gesamtscore zurück. Sie unterscheiden sich in der Tiefe und darin, welche Details zurückkommen.
Die Kern-Scoring-Modelle von RAIL. Schnell (typischerweise unter einer Sekunde) und für Echtzeit-Scoring in der Produktion ausgelegt.Gibt zurück: Gesamtscore, Scores pro Dimension und Konfidenzwerte.
result = client.eval(content="Your text here", mode="basic")
# result.rail_score.score       -> 7.6
# result.dimension_scores       -> {fairness: {score: 7.7, confidence: 0.84}, ...}
Welchen wählen: Greifen Sie zum Basic-Modus, wenn Sie auf dem heißen Pfad einer Produktionsanfrage bewerten und ein schnelles Urteil benötigen. Greifen Sie zum Deep-Modus, wenn Sie einem Prüfer zeigen müssen, warum etwas niedrig bewertet wurde, oder wenn Sie eine Richtlinie debuggen und feinjustieren, denn dieser liefert Erklärungen und Problem-Tags.

Die Antwort

Jede Bewertung gibt zurück:
  • rail_score — den Gesamtscore (0 bis 10), seine confidence und eine einzeilige summary.
  • dimension_scores — einen score und eine confidence für jede der 8 Dimensionen. Im Deep-Modus trägt jede zusätzlich eine explanation und issues (sowie suggestions, falls angefordert).
  • policy_outcome — wie die Richtlinie Ihrer Anwendung das Ergebnis bewertet hat.

Selektive Dimensionen

result = client.eval(
    content="Your text here",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

Benutzerdefinierte Gewichtungen

Die Gewichtungen müssen sich auf 100 summieren:
result = client.eval(
    content="Patient should take 500mg ibuprofen every 4 hours.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

Bewertungsstufen

Ein Score wird einem von fünf Bändern zugeordnet, von Excellent (9,0 bis 10,0) bis hinab zu Critical (0,0 bis 2,9). Die vollständige Tabelle und die Bedeutung jedes Bands finden Sie unter Das RAIL Framework.

Caching

Identische Anfragen geben zwischengespeicherte Ergebnisse zurück, sodass das wiederholte Bewerten desselben Inhalts schnell ist und nicht erneut berechnet wird. Der Basic-Modus speichert für 5 Minuten zwischen, der Deep-Modus für 3 Minuten.

API-Referenz: Bewertung

Vollständige Endpunktspezifikation

Python SDK: Bewertung

Python-Codebeispiele