分布プロセス報酬モデル:条件付き最適輸送による将来報酬の較正予測
プロセス報酬モデル(PRM)の成功確率予測を、条件付き最適輸送を用いて較正する新手法が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
プロセス報酬モデル(PRM)の成功確率予測を、条件付き最適輸送を用いて較正する新手法が提案されました。
Adamなどの適応的勾配法が安定性の瀬戸際で動作する現象を、ロッドフローモデルを用いて説明する研究が発…
LLMの意図理解能力を評価する新しいベンチマーク「IntentGrasp」が発表されました。
LLMとシンボリック回帰を組み合わせ、自律顕微鏡実験から新しい物理モデルを生成するフレームワークが開発…
大規模言語モデル(LLM)の強化学習(RL)後学習において、KVキャッシュのメモリ消費を大幅に削減する新し…
自己回帰型言語モデルの内部表現を再利用し、拡散型言語モデルへの変換を加速する手法が提案されました。
スマートホームIoTデバイスを操作する音声アシスタント開発のため、MISTという新しいデータセットが公開さ…
AI生成テキストを高い精度で検出する新しい手法「MELD」が開発されました。
LLMエージェントが追加計算を必要とする状況を判断する既存手法の課題を特定し、新しい学習フレームワーク…
対数線形アテンションモデルの記憶減衰パラメータを、入力に応じて動的に学習する手法が提案されました。
MoodleにRAGを活用したAI教育アシスタントプラグインが開発されました。
分散型ネットワークでストリーミングデータに対応する時変最適化手法が提案されました。