状態ごとのミラー降下を超えて:パラメトリックポリシーによるオフライン方策最適化
オフライン強化学習において、大規模または連続的な行動空間を持つパラメトリックポリシーの理論的保証が…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
オフライン強化学習において、大規模または連続的な行動空間を持つパラメトリックポリシーの理論的保証が…
結腸直腸がんの薬物応答予測に、機械学習とLLMを統合した新しいAIフレームワークが開発されました。
マルチ画像理解タスクで、推論VLMが画像に散漫な注意を向ける「パルス」現象が発見されました。
大規模言語モデルの多言語間での知識の一貫性の問題を、強化学習で改善する手法が開発されました。
協調型LLMエージェントの貢献度を正確に評価する新しい手法「C3」が開発されました。
ログバリア正則化を導入した強化学習アルゴリズム「LB-SGB」が、探索メカニズムを強化し、よりロバストな…
放射線レポート生成に特化したマルチモーダル・マルチエージェント強化学習フレームワーク「MARL-Rad」が…
コーディングAIが反復的なソフトウェア開発タスクでどのようにコード品質が劣化するかを測定する新たなベ…
グラフ対照学習において、ノードごとに低周波と高周波の情報を適応的に融合する新手法「ASPECT」が提案さ…
LLMの感情ベクトルが、感情価と覚醒度からなる2次元の円環幾何学を持つサブスペースに組織されていること…
深層学習の最適化を安定させる勾配正規化手法「Muon」の理論的基盤が構築されました。
長文LLMのKVキャッシュオフロードが、情報抽出量の多いタスクで性能劣化することが判明しました。