LLMにおけるRL-Jailbreakerの体系的調査
強化学習(RL)を用いたLLMのジェイルブレイク攻撃の成功要因が体系的に解明されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
強化学習(RL)を用いたLLMのジェイルブレイク攻撃の成功要因が体系的に解明されました。
汎用関数近似を用いる差分プライベートオンライン強化学習の理論的保証が初めて提示されました。
骨格データから人間の行動を認識するAIモデルの解釈性を高める新しいフレームワークが発表されました。
EEGデータの前処理方法の選択が、深層学習モデルによる脳活動予測の信頼性を著しく低下させることを発見し…
画像解像度の低下が、マルチモーダルLLM(MLLM)の安全対策を容易に迂回させる脆弱性が発見されました。
リモートセンシングの画像に自然な雲や霞のようなパターンを重ねることで、AIが大気関連の誤った情報を検…
言語モデルのバックドア攻撃を検出するため、2つのスパースオートエンコーダ(SAE)アーキテクチャが比較…
ツール呼び出し型テキスト-to-イメージ(T2I)AIの安全性を脅かす新たなジェイルブレイク手法「OrchJail」…
VLMに対する敵対的攻撃を検出する軽量なフレームワーク「SAEgis」が開発されました。
大規模言語モデル(LLM)の出力に施された電子透かしが、意味を保ったまま除去可能であることが判明しまし…
自己解釈可能なグラフニューラルネットワーク(SI-GNN)の説明が自己矛盾を起こす原因を特定し、その解決…
スマホ操作AIの安全性評価において、危険回避が能力不足によるものか、安全な判断によるものかを区別する…