コンセプト: 評価 | Python:
client.eval()パラメータ
評価する AI 生成テキスト。10〜10,000 文字である必要があります。
評価モード。
"basic" は RAIL のコアスコアリングモデルを実行し、高速なリアルタイムスコアリングを行います。"deep" はより深く詳細な分析を実行し、次元ごとの説明や問題タグも返すことができます。スコアリングする次元のサブセット。8 つすべてをスコアリングするには省略します。選択肢:
fairness, safety, reliability, transparency, privacy, accountability, inclusivity, user_impact。カスタムの次元の重み。値の合計は 100 である必要があります。例:
{"safety": 25, "reliability": 20, ...}。ドメインコンテキストのヒント:
"general", "healthcare", "legal", "finance", "code"。スコアリングの精度を向上させます。次元ごとの説明を含める (deep モードのみ)。
次元ごとに検出された問題タグを含める (deep モードのみ)。
次元ごとの改善提案を含める (deep モードのみ)。
リクエスト
レスポンス
アプリケーションのポリシーがこの結果をどう判断したか。
enforcement— ポリシーのモード (log_only、block、またはregenerate)。threshold— 合格に必要な全体スコア。score— この結果の全体スコア。passed— スコアがしきい値を満たしたかどうか。enforced— 結果に基づいて実際に処理が行われたかどうか。falseの場合、ポリシーはモニターモードです。判定は報告されますがレスポンスは変更されないため、何がブロックされうるかを確認できます。現在の状態はGET /configで確認してください。
block ポリシーは 422 POLICY_BLOCKED を返し、regenerate ポリシーはフォールバックを適用する前に安全な書き換えを試みます。全体の RAIL スコア (0.0〜10.0)。評価されたすべての次元の加重平均。
スコアに対するモデルの信頼度 (0.0〜1.0)。
次元ごとのスコア。各エントリは
score (0〜10) と confidence (0〜1) を持ちます。deep モードでは explanation、issues、suggestions も含まれます。この結果がキャッシュから返された場合は
true (0 クレジット)。このリクエストに対して課金されたクレジット。キャッシュされたレスポンスの場合は
0。