Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
LLMの推論能力向上に向け、リストワイズ方策最適化(LPO)という新しい強化学習手法が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの推論能力向上に向け、リストワイズ方策最適化(LPO)という新しい強化学習手法が提案されました。
物理システムの生成モデル「SymDrift」が、対称性を考慮しつつ高速なワンショット生成を実現しました。
個人が過去を語る際に間接的に言及するエンティティを認識するベンチマーク「IRC-Bench」が発表されました…
AI生成画像の検出システムにおいて、人間が理解しやすい説明を生成する手法が開発されました。
目標条件付き強化学習と教師なしスキル学習を「制御最大化」という概念で統一する理論が発表されました。
画像トークナイザーと自己回帰型事前モデルの学習を統合する新手法「wAR-Tok」が提案されました。
強化学習において、状態に応じて割引率を動的に調整する「AdaGamma」という新しい手法が開発されました。
オフライン強化学習において、データに依存する人気バイアスとサポート結合の問題を解決する新しいフレー…
画像とテキストの不一致を検出するモデルの性能を向上させる新しいデータセット「HNC」が提案されました。
Retina-RAGは、糖尿病性網膜症の重症度分類、黄斑浮腫検出、臨床レポート生成を同時に行うAIフレームワー…
信頼性の低い補助フィードバックを活用し、ブラックボックス最適化の効率を向上させる新しい手法が提案さ…
ロボットの動きを正確に予測し、視覚的に生成する新しいワールドモデル「EA-WM」が開発されました。