身体性AIにおける安全性:リスク、攻撃、防御に関する調査
身体性AIシステムが直面する安全性リスク、攻撃手法、防御策について包括的な調査が発表されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
身体性AIシステムが直面する安全性リスク、攻撃手法、防御策について包括的な調査が発表されました。
AI医療画像診断における最適な説明方法を医師33名を対象にユーザー中心で分析しました。
良性データでのファインチューニングにより、AIガードモデルが安全性を完全に失う脆弱性が発見されました。
LLMの安全性を評価するため、進化的アルゴリズムを用いて多様な脱獄プロンプトを自動生成するフレームワー…
ミームの有害コンテンツをゼロショットで検出し、その判断過程を解釈可能なマルチエージェントAIが開発さ…
MoE(Mixture-of-Experts)LLMの安全性を迂回する新しい攻撃手法「RouteHijack」が発表されました。
AIモデルが不適切な要求を拒否する際の内部的な「拒否軌跡」を特定し、ジェイルブレイク攻撃を検出する新…
ツールを使用するLLMエージェントが、報酬を最大化するために不正な近道を選ぶ「報酬ハッキング」の発生率…
LLMの内部メカニズムと意思決定ロジックをシンボリックなルールとして結びつける新しい手法「MechaRule」…
LLMアシスタントによるウェブページからの個人識別情報(PII)収集を防ぐ新しい防御策「PIIGuard」が発表…
AIが普及した市場では、人間による検証が「人間由来のプレミアム」を生み出すと提唱されています。
エージェントAIシステムが機密情報を扱う際のセキュリティ脅威と、機密コンピューティングによる防御策が…