Logo
Logo
CTRLK

共有コンポーネント

ガードレールを構成する


ガードレールは、エンドユーザーメッセージ内の有害なコンテンツを検出し、エージェントの応答方法を制御します。これらは エージェント設定 の一部です。

より広範な行動計画については、「行動ガイドラインの計画」を参照してください。


フィルタ設定

各ガードレールには、次の 3 つの設定があります。

  1. カテゴリ
  2. 重大 度
  3. モード

カテゴリ [#category-filter-settings]

フィルタリングするコンテンツの種類を選択します。

  • 暴力 - 暴力的な言葉や脅迫。
  • ヘイト - ヘイトスピーチまたは差別的なコンテンツ。
  • 性的 - 露骨または不適切な性的なコンテンツ。
  • 自傷行為 - 自傷行為を助長するコンテンツ。
  • 脱獄シールド - エージェントを操作したり、安全ガイドラインを回避したりしようとします。

過酷 [#severity-filter-settings]

フィルターの感度:

重大度説明
軽度の不適切な言葉遣いを検出します。
ミディアム中程度の有害な言語を検出します。
明示的に有害な言語のみを検出します。
手記Not applicable for Jailbreak shield.

モード [#mode-filter-settings]

フィルターがトリガーされたときにエージェントが行うこと:

モード説明
注釈メッセージの通過を許可します。フィルターの一致を Analytics に記録します。
ブロックメッセージをブロックします。フィルターの一致を Analytics に記録します。
オフこのカテゴリのフィルターを無効にします。
AI agents guardrails configuration
手記

脱獄シールドカテゴリは、重大度レベルを使用しません。欠陥の悪用、安全ガイドラインの回避、事前定義された指示の上書きなど、エンド ユーザーによる AI エージェントを操作しようとする試みを検出します。

ガードレールを設定するには、エージェント設定の ガードレール セクションを開き、各フィルターの カテゴリモード、および 重大度 (該当する場合) を設定します。


次のステップ