DGPO:きめ細やかな信用割り当てのための分布誘導型方策最適化
強化学習において、大規模言語モデルの複雑な推論タスクへのアラインメントを改善する新しいフレームワー…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
強化学習において、大規模言語モデルの複雑な推論タスクへのアラインメントを改善する新しいフレームワー…
LLM-ADAMは、積層造形(3Dプリンティング)の印刷前Gコードから異常を検知するLLMフレームワークです。
RAG(検索拡張生成)のコーパスとして思考の軌跡を用いることで、数学やコード生成などの推論タスクの性能…
マルチモーダル学習において、S3フレームワークが入力信号を意味的エキスパートに分解し、タスクに応じて…
マルチモーダルLLMがてんかん発作の動画から病的な動きを認識する能力を評価する研究が行われました。
LLMエージェントのスキルを異なるフレームワーク間で効率的かつ安全に利用するためのコンパイルフレームワ…
LLMと進化的フレームワークを組み合わせ、強化学習の環境インターフェースを自動生成する技術が開発されま…
AIが非テキストデータから世界の仕組みを説明する「理論」を構築する新しい学習パラダイムが提案されまし…
LLMの安全対策が数学的エンコーディングされた有害なプロンプトによって回避されることが判明しました。
FINER-SQLは、小規模言語モデル(SLM)を強化し、テキストからSQLへの変換精度を大幅に向上させる新しい強…
医療退院要約におけるLLMのハルシネーションを検出するマルチエージェントフレームワーク「CuraView」が開…
LLMエージェントの外部メモリに対するメモリポイズニング攻撃を形式化し、新たな防御手法「MEMSAD」を提案…