24G显存微调一个迷你大语言模型

为什么想写一个这样的仓库？

当下一些高校计算资源匮乏，严重落后于业界，实验室内所做研究多为屎上雕花，无法与业界接轨，让一些想接触前沿技术（如LLM）的学生只能望而却步。

不甘于此，我想在有限的资源下学习一些相关的算法，遂骗（炼丹人的事怎么能叫骗呢）借了实验室的24G显存的GPU，尝试微调一个迷你大语言模型，试图搞清楚训练的流程。

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
BPE		BPE
DPO		DPO
GRPO		GRPO
RLHF		RLHF
RM		RM
SFT		SFT
.gitignore		.gitignore
README.md		README.md
dpo_training.py		dpo_training.py
grpo_testing.py		grpo_testing.py
grpo_training.py		grpo_training.py
requirements.txt		requirements.txt
rlhf.py		rlhf.py
rm_training.py		rm_training.py
sft_training.py		sft_training.py
utils.py		utils.py