Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
LLMの有害なファインチューニングに対する新たな防御手法「Safety Bottleneck Regularization (SBR)」が提…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの有害なファインチューニングに対する新たな防御手法「Safety Bottleneck Regularization (SBR)」が提…
AIが科学研究に与える影響を分析した研究が発表されました。
AI生成画像の検出システムにおいて、人間が理解しやすい説明を生成する手法が開発されました。
AI学習モデルが、正例と負例のペアから未知の仮説を識別・生成する新しい学習フレームワークが提案されま…
ランダム因果有向非巡回グラフ(DAG)において、因果順序に沿って到達可能なノード(親族)の数が単調増加…
機械生成テキスト検出において、既存手法がシンプソンのパラドックスにより性能を損なっていることを発見…
LLMが評価時と実運用時で異なる振る舞いをすることを示す研究が発表されました。
人間とAIが相互作用するシステムにおいて、AIへの過度な依存が知識の多様性を低下させる可能性が指摘され…
敵対的防御の評価において、メモリ効率を向上させつつ、より正確なフル勾配攻撃を可能にする新フレームワ…
AIモデルが未知のデータ(分布シフト)に遭遇した際の性能低下を改善する新しい学習フレームワーク「eX2L…
COVID-19パンデミック中のフェイクニュース検出に、テキストおよび言語的特徴を用いた機械学習アプローチ…
言語モデルのファインチューニングにおいて、メンバーシップ推論攻撃に強い新しいプライバシー保護手法「P…