はじめに
2025年3月、Allen Institute for AI(Ai2)は、OLMo 2 32B Instructと呼ばれる新しい言語モデルを発表しました。これは、OLMo-2 32B March 2025モデルの後処理バリアントであり、チャット、数学、GSM8K、IFEvalなど多种のタスクで微調整が行われており、各种のアプリケーションに适用される汎用ツールです。このモデルは、性能面でGPT-3.5-TurboやGPT-4o-miniを凌駕し、训练コストを大幅に最适化しました。类似のパフォーマンスを达成するための计算量は、わずか三分之一です。
モデルの説明
OLMo 2 32B Instructは、公开データセット、合成データセット、および人工データセットを组み合わせて训练されたモデルです。主に英語向けに设计されており、Apache 2.0ライセンスを采用しています。このモデルは、allenai/OLMo-2-0325-32B-DPOモデルの基础上で微調整が行われており、allenai/OLMo-2-0325-32B-DPOモデル自体は、Dolmaデータセット上で事前に训练されています。
インストールと使用方法
OLMo 2 32B Instructを使用するには、以下のコマンドを使用して、最新バージョンのTransformersをメインブランチからインストールする必要があります。
pip install --upgrade git+https://github.com/huggingface/transformers.git
インストールが完了すると、以下のコードスニペットを使用してHuggingFaceからモデルをロードすることができます。
from transformers import AutoModelForCausalLM
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0325-32B-Instruct")
チャットテンプレートとシステムプロンプト
OLMo 2 32B Instructのチャットテンプレートは、以前のOLMo 2やTülu 3モデルと比べて少し异なっています。bosマークが残りの部分の前にないため、Ai2デモで使用されているデフォルトのシステムプロンプトは次のとおりです。
You are OLMo 2, a helpful and harmless AI Assistant built by the Allen Institute for AI.
中间チェックポイント
RL微調整の研究を促进するために、Ai2はモデルのRLVR训练プロセス中に中间チェックポイントを発表しました。これらのチェックポイントは、训练ステップごとに20回保存され、HuggingFaceリポジトリのリビジョンでアクセスできます。
バイアス、リスク、および制限
すべての言語モデルと同様に、OLMo 2 32B Instructは、ユーザーのプロンプトに対して有害でセンシティブなコンテンツを生成する可能性があります。この技术を适用する际には、リスクを考虑する必要があります。モデル内の多くの文は、不正确である可能性があります。
パフォーマンス
OLMo 2 32B Instructは、各种のタスクで印象的なパフォーマンスを発揮しています。以下はいくつかの主要な指标です:
モデル | 平均 | AlpacaEval 2 LC | BBH | DROP | GSM8k | IFEval | MATH | MMLU | Safety | PopQA | TruthQA |
---|---|---|---|---|---|---|---|---|---|---|---|
OLMo-2-32B-0325-Instruct | 68.8 | 42.8 | 70.6 | 78.0 | 87.6 | 85.6 | 49.7 | 77.3 | 85.9 | 37.5 | 73.2 |
学习曲线
OLMo 2 32B Instructの训练曲线は、时间の経过に伴う学习の进捗を示しています。このモデルは、5つの8xH100ノードを使用して训练され、学习曲线はモデルライブラリで见つけることができます。
コピー コマンド
モデル ライブラリでは、研究者が训练プロセスを复制できるOLMo 2 32B Instructの复制コマンドが提供されています。具体的なコマンドは次のとおりです。
# clone and check out commit
git clone https://github.com/allenai/open-instruct.git
git checkout a51dc98525eec01de6e8a24c071f42dce407d738
uv sync
uv sync --extra compile
# note that you may need 5 8xH100 nodes for the training.
# so please setup ray properly, e.g., https://github.com/allenai/open-instruct/blob/main/docs/tulu3.md#llama-31-tulu-3-70b-reproduction
python open_instruct/grpo_vllm_thread_ray_gtrl.py \
--exp_name 0310_olmo2_32b_grpo_12818 \
--beta 0.01 \
--local_mini_batch_size 32 \
--number_samples_per_prompt 16 \
--output_dir output \
--local_rollout_batch_size 4 \
--kl_estimator kl3 \
--learning_rate 5e-7 \
--dataset_mixer_list allenai/RLVR-GSM-MATH-IF-Mixed-Constraints 1.0 \
--dataset_mixer_list_splits train \
--dataset_mixer_eval_list allenai/RLVR-GSM-MATH-IF-Mixed-Constraints 16 \
--dataset_mixer_eval_list_splits train \
--max_token_length 2048 \
--max_prompt_token_length 2048 \
--response_length 2048 \
--model_name_or_path allenai/OLMo-2-0325-32B-DPO \
--non_stop_penalty \
--stop_token eos \
--temperature 1.0 \
--ground_truths_key ground_truth \
--chat_template_name tulu \
--sft_messages_key messages \
--eval_max_length 4096 \
--total_episodes 10000000 \
--penalty_reward_value 0.0 \
--deepspeed_stage 3 \
--no_gather_whole_model \
--per_device_train_batch_size 2 \
--local_rollout_forward_batch_size 2 \
--actor_num_gpus_per_node 8 8 8 4 \
--num_epochs 1 \
--vllm_tensor_parallel_size 1 \
--vllm_num_engines 12 \
--lr_scheduler_type constant \
--apply_verifiable_reward true \
--seed 1 \
--num_evals 30 \
--save_freq 20 \
--reward_model_multiplier 0.0 \
--no_try_launch_beaker_eval_jobs \
--try_launch_beaker_eval_jobs_on_weka \
--gradient_checkpointing \
--with_tracking
ライセンスと使用方法
OLMo 2 32B Instructは、研究と教育目的で使用されるApache 2.0ライセンスを采用しています。このソフトウェアは、第三者のモデルによって生成された出力データセットを使用して微調整されています。这些の出力データセットは、追加の条项に约束されています。
结论
OLMo 2 32B Instructは、各种のタスクに微調整された、パフォーマンス、多功能性、オープンソース性に富んだ強力な言語モデルです。研究者や开发者が、基于言語のアプリケーションを開発するための贵重なリソースとなっています。このモデルの中间チェックポイント、学习曲线、复制コマンドは、さらに探求や実験を行うための追加ツールを提供しています。すべての言語モデルと同様に、OLMo 2 32B Instructを使用する际には、有害なコンテンツやセンシティブなコンテンツを生成するリスクや制限を考虑する必要があります。
リソース
- プロジェクト ホームページ:https://allenai.org/blog/olmo2-32B
- HuggingFace リポジトリ:https://huggingface.co/allenai/OLMo-2-0325-32B
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?