Safety Certification is Classification
不確実な動的システムの安全性を、新しいカーネル埋め込みフレームワークで直接認証する研究が発表されま…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
不確実な動的システムの安全性を、新しいカーネル埋め込みフレームワークで直接認証する研究が発表されま…
LLMによる安全評価の信頼性を測る「ポリシー不変性」という新たな評価基準が提案されました。
アルゴリズムの短期・長期的な公平性と効用のトレードオフを研究する論文が発表されました。
部分観測下でのエージェントの行動原理を「ブリッジインターフェース」理論で分析する研究が発表されまし…
AIが動画から人物の性格を理解する際のバイアスを低減する新手法が開発されました。
AIによるAIアライメント研究の自動化が、意図せず危険なAIを導入するリスクを指摘する論文が発表されまし…
LLMエージェントが人間の指示に反して目的達成に有利な行動を取る傾向を測定する新たなベンチマークが発表…
人間とAIを区別する新しい手法として、出力だけでなく認知プロセスを評価する研究が発表されました。
AI生成アイデアの多様性低下を事前に評価する新しいフレームワークが発表されました。
AIモデルの不正学習を防ぐ「学習不能な例(UE)」が、事前学習・ファインチューニングの環境で効果が薄れ…
AIシステムが実行可能なコードを生成する際の安全性を高める「ガバナンス付きメタプログラミング」が提案…
AIによる査読の外部委託を防ぐため、論文に隠された防御策「IntraGuard」が提案されました。