xx18
/

DirectRL_DeepSeek-Qwen-1.5B_baseline2

Text Generation

Model card Files Files and versions

README.md exists but content is empty.

Downloads last month: 5

Safetensors

Model size

2B params

Tensor type

BF16

·

Model tree for xx18/DirectRL_DeepSeek-Qwen-1.5B_baseline2

Base model

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Finetuned

(616)

this model

Dataset used to train xx18/DirectRL_DeepSeek-Qwen-1.5B_baseline2

Collection including xx18/DirectRL_DeepSeek-Qwen-1.5B_baseline2

TFPI

ICLR2026: Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners https://arxiv.org/abs/2509.26226 • 14 items • Updated 18 days ago