Reimplementation of Reinforce++ To finetune llama-1b for GSM8K.

Roadmap

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
BaseRL		BaseRL
utils		utils
DeepSeek-R1-Distill-Qwen-1.5B_results.json		DeepSeek-R1-Distill-Qwen-1.5B_results.json
README.md		README.md
base_model_results.json		base_model_results.json
eval.py		eval.py
gsm8k.py		gsm8k.py
instruct_model_results.json		instruct_model_results.json
llama_test.py		llama_test.py
model_playground.ipynb		model_playground.ipynb
model_wrapper.py		model_wrapper.py
pythia-14m_results.json		pythia-14m_results.json
requirements.txt		requirements.txt
t_reinforce.py		t_reinforce.py
test_gsm8k.py		test_gsm8k.py
train.py		train.py