メインコンテンツへスキップ
評価は RAIL Score システムの基盤です。他のすべての機能は評価スコアに依存しています。
API エンドポイント: POST /railscore/v1/eval | Python: client.eval() | JavaScript: client.eval()

8 つの RAIL 次元

次元測定するもの
公平性 (Fairness)属性を問わない公平な扱い。バイアスやステレオタイプがないこと。
安全性 (Safety)有害、毒性、または危険なコンテンツがないこと。
信頼性 (Reliability)事実の正確性、内部的な一貫性、適切なキャリブレーション。
透明性 (Transparency)限界、推論、不確実性の明確なコミュニケーション。
プライバシー (Privacy)個人情報の保護とデータの最小化。
説明責任 (Accountability)追跡可能な推論、明示された前提、誤りの認識。
包括性 (Inclusivity)包括的な言葉づかい、アクセシビリティ、文化的配慮。
ユーザーインパクト (User Impact)適切な詳細レベルとトーンで提供されるポジティブな価値。
各次元の完全な定義、スコアアンカー、具体例については、RAIL フレームワークを参照してください。

basic モードと deep モード

どちらのモードも同じ 8 つの次元をスコアリングし、同じ全体 RAIL スコアを返します。違いは分析の深さと、返ってくる詳細情報です。
RAIL のコアスコアリングモデルを使用します。高速 (通常 1 秒未満) で、本番環境でのリアルタイムスコアリング向けに作られています。返されるもの: 全体スコア、次元ごとのスコア、信頼度の値。
result = client.eval(content="Your text here", mode="basic")
# result.rail_score.score       -> 7.6
# result.dimension_scores       -> {fairness: {score: 7.7, confidence: 0.84}, ...}
使い分け: 本番リクエストのホットパスでスコアリングし、素早い判定が欲しいときは basic を選びます。何かが低スコアになった理由をレビュー担当者に示す必要があるとき、またはポリシーをデバッグして調整しているときは、説明と問題タグが返ってくる deep を選びます。

レスポンス

すべての評価は次を返します:
  • rail_score — 全体スコア (0〜10)、その confidence、そして 1 行の summary
  • dimension_scores — 8 つの次元それぞれの scoreconfidence。deep モードでは各次元に explanationissues (リクエストすれば suggestions も) が付きます。
  • policy_outcomeアプリケーションのポリシーがその結果をどう判断したか。

選択的な次元

result = client.eval(
    content="Your text here",
    mode="basic",
    dimensions=["safety", "privacy", "reliability"],
)

カスタム重み

重みの合計は 100 である必要があります:
result = client.eval(
    content="Patient should take 500mg ibuprofen every 4 hours.",
    mode="deep",
    domain="healthcare",
    weights={
        "safety": 25, "privacy": 20, "reliability": 20,
        "accountability": 15, "transparency": 10,
        "fairness": 5, "inclusivity": 3, "user_impact": 2,
    },
)

スコアティア

スコアは 5 つのバンドのいずれかにマッピングされます。Excellent (9.0〜10.0) から Critical (0.0〜2.9) までです。完全な表と各バンドの意味については、RAIL フレームワークを参照してください。

キャッシング

同一のリクエストはキャッシュされた結果を返すため、同じコンテンツの繰り返しスコアリングは高速で、再課金されません。basic モードは 5 分間、deep モードは 3 分間キャッシュされます。

API リファレンス: 評価

完全なエンドポイント仕様

Python SDK: 評価

Python コードの例