概念: 評価 | Python:
client.eval()パラメータ
評価するAI生成テキスト。10〜10,000文字でなければなりません。
評価モード:
"basic" (ML分類器、速い、1.0クレジット) または "deep" (LLMを審査者として使用、2〜5秒、3.0クレジット)。スコアを付ける次元のサブセット。すべての8つをスコア付けするには省略します。オプション:
fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact。カスタム次元の重み。値は100に合計する必要があります。例:
{"safety": 25, "reliability": 20, ...}。ドメインコンテキストのヒント:
"general", "healthcare", "legal", "finance", "code"。スコアの精度を向上させます。各次元の説明を含める (深いモードのみ)。
各次元の検出された問題タグを含める (深いモードのみ)。
各次元の改善提案を含める (深いモードのみ)。
リクエスト
レスポンス
全体のRAILスコア (0.0〜10.0)、評価されたすべての次元の加重平均。
スコアに対するモデルの信頼度 (0.0〜1.0)。
各次元のスコア。各エントリには
score (0〜10) と confidence (0〜1) が含まれます。深いモードでは: explanation, issues, suggestions も含まれます。この結果がキャッシュから返された場合は
true (0クレジットが請求されます)。このリクエストに対して請求されたクレジット。キャッシュされたレスポンスの場合は
0。