DeEscalWild: SLMによる自動エスカレーション解除訓練のための実世界ベンチマーク
警察官のエスカレーション解除訓練を目的とした、実世界の警察と市民の対話データセット「DeEscalWild」が…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
警察官のエスカレーション解除訓練を目的とした、実世界の警察と市民の対話データセット「DeEscalWild」が…
病理画像診断において、自己教師あり学習とハイブリッド状態空間モデルを組み合わせた「SSMamba」が開発さ…
フローモデルと拡散モデルの報酬ベース微調整手法を「報酬スコアマッチング(RSM)」という共通フレームワ…
単一のLLMが潜在空間内でエンコーディング、検索、生成を統合する新しいRAGフレームワーク「LAnR」が提案…
患者の臨床データにおける欠損モダリティを、自己回帰シーケンスモデリングとLLMの因果デコーダーで処理す…
オフポリシー強化学習において、批評家学習の過学習と不安定性を低ランク適応(LoRA)で解決する手法が提…
AIエージェントが予測市場で取引し、分散した私的情報を集約する能力を実験で検証しました。
ささやき声でも高精度に個人を識別できる話者認識システムが開発されました。
AIが科学教室における生徒と教師の発話を自動分析し、推論パターンを分類するシステムが開発されました。
Mochiは、メタ学習フレームワークを採用し、グラフ基盤モデルのタスク統合と訓練効率を向上させました。
人間型ボールボットに強化学習による初の歩行ポリシーが実装され、シミュレーションから実機へのゼロショ…
推論モデルの学習におけるSFT-then-RLVRの有効性を、Tsallis q-対数を用いた統一的な損失関数で理論的に説…