Concept: Evaluation | Python:
client.eval()Parameters
AI-generated text जो evaluate करना है। 10–10,000 characters होने चाहिए।
Evaluation mode:
"basic" (ML classifier, fast, 1.0 credit) या "deep" (LLM-as-judge, 2–5s, 3.0 credits)।Score करने के लिए dimensions का subset। सब 8 score करने के लिए omit करें। Options:
fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact।Custom dimension weights। Values का sum 100 होना चाहिए। जैसे
{"safety": 25, "reliability": 20, ...}।Domain context hint:
"general", "healthcare", "legal", "finance", "code"। Scoring accuracy improve करता है।Per-dimension explanations include करें (सिर्फ deep mode में)।
Per-dimension detected issue tags include करें (सिर्फ deep mode में)।
Per-dimension improvement suggestions include करें (सिर्फ deep mode में)।
Request
Response
Overall RAIL score (0.0–10.0), सभी evaluated dimensions का weighted average।
Score में model की confidence (0.0–1.0)।
Per-dimension scores। हर entry में
score (0–10) और confidence (0–1) होता है। Deep mode में: explanation, issues, suggestions भी मिलते हैं।true अगर result cache से return हुआ है (0 credits charge होते हैं)।इस request के लिए charge हुए credits। Cached responses के लिए
0।