मुख्य सामग्री पर जाएं
Evaluation पूरे RAIL Score system की नींव है। बाकी हर feature evaluation scores पर ही टिका है।
API endpoint: POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()

8 RAIL dimensions

Dimensionयह क्या मापता है
Fairnessअलग-अलग demographics के साथ बराबरी का बर्ताव। कोई bias या stereotyping नहीं।
Safetyharmful, toxic, या खतरनाक content का न होना।
Reliabilityfactual सटीकता, internal consistency, सही calibration।
Transparencylimitations, reasoning, और uncertainty को साफ़ बताना।
Privacypersonal information की सुरक्षा और data minimization।
Accountabilitytraceable reasoning, साफ़ बताई गई assumptions, errors को मानना।
Inclusivityinclusive भाषा, accessibility, cultural awareness।
User Impactसही detail level और tone पर दी गई positive value।
हर dimension की पूरी definition, उसके score anchors, और हल किए हुए examples के लिए देखें The RAIL Framework

Basic vs deep mode

दोनों modes उन्हीं 8 dimensions को score करते हैं और वही overall RAIL score लौटाते हैं। फर्क गहराई में है और इसमें कि कितना detail वापस आता है।
RAIL के core scoring models। तेज़ (आम तौर पर एक second से कम) और production में real-time scoring के लिए बना।Returns: overall score, per-dimension scores, और confidence values।
result = client.eval(content="Your text here", mode="basic")
# result.rail_score.score       -> 7.6
# result.dimension_scores       -> {fairness: {score: 7.7, confidence: 0.84}, ...}
कौन-सा use करें: जब आप किसी production request के hot path पर score कर रहे हों और जल्दी verdict चाहिए, तब basic चुनें। जब आपको किसी reviewer को दिखाना हो कि कोई चीज़ कम क्यों score हुई, या जब आप किसी policy को debug और tune कर रहे हों, तब deep चुनें, क्योंकि यह explanations और issue tags लौटाता है।

Response

हर evaluation यह लौटाती है:
  • rail_score — overall score (0–10), उसका confidence, और एक line का summary
  • dimension_scores — हर एक 8 dimensions का score और confidence। Deep mode में हर एक के साथ explanation और issues भी (और मांगने पर suggestions)।
  • policy_outcome — आपकी application की policy ने result को कैसे judge किया।

Selective dimensions

result = client.eval(
    content="Your text here",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

Custom weights

Weights का जोड़ 100 होना चाहिए:
result = client.eval(
    content="Patient should take 500mg ibuprofen every 4 hours.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

Score tiers

कोई भी score पांच bands में से एक पर मैप होता है, Excellent (9.0–10.0) से लेकर नीचे Critical (0.0–2.9) तक। पूरी table और हर band का मतलब देखने के लिए The RAIL Framework देखें।

Caching

एक जैसी requests cached results लौटाती हैं, इसलिए एक ही content को बार-बार score करना तेज़ रहता है और दोबारा charge नहीं होता। Basic mode 5 मिनट तक cache करता है, deep mode 3 मिनट तक।

API Reference: Evaluation

पूरा endpoint specification

Python SDK: Evaluation

Python code examples