LLMポリシー最適化における重要度サンプリングの再考:累積トークン視点
LLMの強化学習後訓練において、累積トークン重要度サンプリング比率を用いる新手法「CTPO」が提案されまし…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの強化学習後訓練において、累積トークン重要度サンプリング比率を用いる新手法「CTPO」が提案されまし…
LLMが生成したゲームシーンの評価において、コンパイル成功率だけでは不十分であることを示す研究が発表さ…
ビデオ言語モデルの推論コストを削減するため、動画の視覚トークンを効率的に圧縮する新手法「TTF」が提案…
長文LLMの推論コストを削減する新しいスパースアテンション手法「MISA」が開発されました。
V2X通信の不確実性に対応し、LiDAR/レーダー/カメラとV2X情報を融合して自動運転のモーションプランニング…
強化学習を用いて、視覚物体追跡におけるターゲットの位置特定を最適化する新しい手法「RELO」が開発され…
ロボットが特定のタスクを学習する際、少ないデータで効率的に適応させる新手法が開発されました。
RLベースのMLLM画像キャプションにおいて、複数の評価軸をバランス良く最適化する新しいフレームワーク「B…
複数LLMルーティングの「解決不能の天井」が、評価方法の偏りによって過大評価されていることが判明しまし…
教師モデルの出力のみで学生モデルを効率的に学習させる新しい手法「ROPD」が開発されました。
ディープフェイク検出モデルが時間的攻撃に脆弱であることを明らかにし、その対策フレームワークを提案し…
GNSSが使えない都市部の複雑な環境で、低コストの慣性センサーのみでシェア自転車を正確に追跡する新技術…