Reinforcement FT - a winson Collection

winson 's Collections

IDEOPT

Reinforcement FT

Reinforcement FT

updated Dec 10, 2024

ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 31