Mrkkew

Mrkkew Mrkkew

Pinned Loading

LLaMA-Factory LLaMA-Factory Public

Forked from Daniel-bupt/LLaMA-Factory

A WebUI for Efficient Fine-Tuning of 100+ LLMs (ACL 2024)

Python 1
verl-project/verl verl-project/verl Public

verl/HybridFlow: A Flexible and Efficient RL Post-Training Framework

Python 20.9k 3.7k
modelscope/ms-swift modelscope/ms-swift Public

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, …

Python 13.9k 1.4k
OpenRLHF/OpenRLHF OpenRLHF/OpenRLHF Public

An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

Python 9.4k 926