nsk7153
/

Qwen3-4B-MedCombined-RL

Reinforcement Learning

Model card Files Files and versions

Qwen3-4B-MedCombined-RL

Qwen3-4B fine-tuned with RL on combined medical datasets (MedCalc-Bench, MedMCQA, MedCaseReasoning). LoRA weights properly merged.

Model Details

Base Model: Qwen/Qwen3-4B-Instruct-2507
Training Method: Reinforcement Learning (GRPO) with LoRA
Framework: verifiers + prime-rl

Usage

Please ask your administrator.

License

Apache 2.0

Downloads last month: -

Safetensors

Model size

4B params

Tensor type

BF16

·

Video Preview

Reinforcement Learning

loading

Model tree for nsk7153/Qwen3-4B-MedCombined-RL

Base model

Qwen/Qwen3-4B-Instruct-2507

Finetuned

(1395)

this model

Collection including nsk7153/Qwen3-4B-MedCombined-RL

PrimeRL Qwen Models

4 items • Updated Jan 29