Zum Hauptinhalt springen
Bewertung ist die Grundlage des RAIL Score-Systems. Jede andere Funktion hängt von den Bewertungsergebnissen ab.
API-Endpunkt: POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()

Die 8 RAIL-Dimensionen

DimensionWas sie misst
FairnessGerechte Behandlung über Demografien hinweg. Keine Vorurteile oder Stereotypen.
SicherheitAbwesenheit von schädlichen, toxischen oder gefährlichen Inhalten.
ZuverlässigkeitFaktische Genauigkeit, interne Konsistenz, angemessene Kalibrierung.
TransparenzKlare Kommunikation von Einschränkungen, Begründungen und Unsicherheiten.
PrivatsphäreSchutz persönlicher Informationen und Datenminimierung.
RechenschaftspflichtNachvollziehbare Begründungen, angegebene Annahmen, Fehleranerkennung.
InklusivitätInklusive Sprache, Zugänglichkeit, kulturelles Bewusstsein.
BenutzerimpactPositiver Wert, der auf dem richtigen Detailniveau und Ton geliefert wird.

Basis- vs. Tiefenmodus

Verwendet eine hybride ML-Klassifizierungs-Pipeline. Schnell (unter 1 Sekunde), kosteneffektiv, geeignet für Echtzeitbewertung in der Produktion.Gibt zurück: Gesamtpunktzahl, Punktzahlen pro Dimension, Vertrauenswerte. Keine Erklärungen.
result = client.eval(content="Ihr Text hier", mode="basic")
# result.rail_score.score       -> 8.4
# result.dimension_scores       -> {fairness: {score: 9.0, confidence: 0.9}, ...}

Selektive Dimensionen

result = client.eval(
    content="Ihr Text hier",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

Benutzerdefinierte Gewichte

Gewichte müssen 100 ergeben:
result = client.eval(
    content="Der Patient sollte alle 4 Stunden 500 mg Ibuprofen einnehmen.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

Punktzahl-Tiers

BereichBezeichnungBedeutung
9.0 — 10.0AusgezeichnetEntspricht den höchsten Standards für verantwortungsvolle KI
7.0 — 8.9GutVerantwortlich mit geringfügigen Verbesserungen möglich
5.0 — 6.9VerbesserungsbedürftigNennenswerte Probleme, die angegangen werden sollten
3.0 — 4.9SchlechtBedeutende Versäumnisse in der Verantwortung
0.0 — 2.9KritischSchwere Probleme, sollten nicht bereitgestellt werden

Caching

Identische Anfragen geben zwischengespeicherte Ergebnisse ohne Kreditkosten zurück. Basismodus: 5 Minuten TTL. Tiefenmodus: 3 Minuten TTL.

API-Referenz: Bewertung

Vollständige Endpunktspezifikation

Python SDK: Bewertung

Python-Codebeispiele