人間からのフィードバックによる強化学習(RLHF)の解説
RLHFは、人間がAIモデルの出力を評価し、そのフィードバックを基にモデルを改善する手法です。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
RLHFは、人間がAIモデルの出力を評価し、そのフィードバックを基にモデルを改善する手法です。
Hugging FaceがElixirコミュニティ向けに機械学習ライブラリをリリースしました。
Hugging Faceがタンパク質研究における深層学習の活用方法を解説しました。
OpenAIが対話形式でユーザーとやり取りするAIモデル「ChatGPT」を発表しました。
Hugging FaceがDocument AIモデルの推論速度を大幅に向上させました。
Transformerモデルが対照探索(Contrastive Search)を用いることで、人間レベルのテキスト生成を実現しま…
Hugging Face Transformersライブラリを使って、Whisperモデルを多言語自動音声認識(ASR)向けにファイン…
Hugging Faceが言語モデルのバイアスを評価するツール「🤗 Evaluate」をリリースしました。
OpenAIが報酬モデルの過剰最適化が性能を低下させる現象と、そのスケーリング則を発見しました。
Hugging Faceがテキスト埋め込みモデルの性能を評価する大規模ベンチマーク「MTEB」を発表しました。
Hugging Faceが大規模言語モデルBloomの推論速度を大幅に向上させました。
Hugging Faceが超大規模言語モデル(VLLM)の評価に関するブログ記事を公開しました。