Sayram
/

DeepSeek-R1-Distill-Qwen-1.5B-GRPO

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

DeepSeek-R1-Distill-Qwen-1.5B-GRPO / training_args.bin

Commit History

Training in progress, step 100

571baaa
verified

Sayram commited on 5 days ago

Training in progress, step 100

7517d7a
verified

Sayram commited on 10 days ago

Training in progress, step 200

d51e428
verified

Sayram commited on 11 days ago

Training in progress, epoch 1

62c0497
verified

Sayram commited on Sep 20, 2025