非対称オンポリシー蒸留:トークンレベルでの探索と模倣の橋渡し
オンポリシー蒸留(OPD)の課題を克服し、性能を向上させる新しい学習手法「AOPD」が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
オンポリシー蒸留(OPD)の課題を克服し、性能を向上させる新しい学習手法「AOPD」が提案されました。
不規則なドメイン上の無限次元信号を扱うための新しい畳み込み学習フレームワーク「HilbNets」が提案され…
WavCubeは、音声理解と生成を同時にサポートするコンパクトな連続潜在表現を開発しました。
Mixture-of-Experts(MoE)モデルのエキスパートが健全に機能するか、機能停止するかを予測する無次元パラ…
COVID-19パンデミック中のフェイクニュース検出に、テキストおよび言語的特徴を用いた機械学習アプローチ…
LLMエージェントがバックエンドコード生成において、構造的制約が増えると性能が著しく低下する「制約の劣…
ベイズ最適化における取得関数推定のノイズを低減する新しい手法「ORTHOBO」が提案されました。
強化学習において、新しいオフポリシー評価フレームワーク「Q-MMR」が提案されました。
三値ニューラルネットワークの推論を消費者向けCPUで高速化するLitespark-Inferenceが開発されました。
3D MRI画像を制御可能な2Dスライスシーケンスに変換し、その動きを予測する新しい自己教師あり学習手法が…
連続強化学習において、価値を保持する構造を自動で発見し、学習効率と安定性を向上させる新手法が提案さ…
言語モデルのファインチューニングにおいて、メンバーシップ推論攻撃に強い新しいプライバシー保護手法「P…