AIが数学試験を科学者よりも速く解き、ベンチマークが追いつかない現状
AIが数学の難問を驚異的な速さで解き、既存のベンチマークが陳腐化しつつあります。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
AIが数学の難問を驚異的な速さで解き、既存のベンチマークが陳腐化しつつあります。
AIで効率的な新しい数値形式が多数登場したが、科学計算には適さないことが判明した。
AIがサイバーセキュリティ分野で脅威検知や自動応答を加速させ、防御を強化している。
OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。
AIデータセンターが電力効率向上のため、高温超電導ケーブルの導入を検討しています。
OpenAIが、数学の「First Proof」チャレンジにAIモデルの証明提出を行い、研究レベルの推論能力を披露しま…
ローカルAI推論ライブラリのGGMLとllama.cppがHugging Faceに合流しました。
米国と中国は、AI開発において異なる目標とアプローチを追求していることが明らかになりました。
OpenAIがAIアライメントの独立研究を支援するため、The Alignment Projectに750万ドルを拠出しました。
IBMとUCバークレーが、企業向けAIエージェントの失敗原因を特定する研究を発表しました。
Gradioが新機能gr.HTMLをリリースし、任意のウェブアプリを簡単にGradioアプリに統合可能になりました。
OpenAIとParadigmが、AIエージェントのスマートコントラクト脆弱性対応能力を評価するベンチマーク「EVMbe…