{
  "best_global_step": 240,
  "best_metric": 1.1291104555130005,
  "best_model_checkpoint": "checkpoints/Llama-3.1-8B-Instruct/hatedemics_rag-0324-fixed/checkpoint-240",
  "epoch": 0.7027818448023426,
  "eval_steps": 30,
  "global_step": 240,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05856515373352855,
      "grad_norm": 1.5662988424301147,
      "learning_rate": 1.153846153846154e-05,
      "loss": 2.9667,
      "step": 20
    },
    {
      "epoch": 0.08784773060029283,
      "eval_loss": 2.380972385406494,
      "eval_runtime": 251.1679,
      "eval_samples_per_second": 4.746,
      "eval_steps_per_second": 1.186,
      "step": 30
    },
    {
      "epoch": 0.1171303074670571,
      "grad_norm": 1.1431325674057007,
      "learning_rate": 2.307692307692308e-05,
      "loss": 2.3608,
      "step": 40
    },
    {
      "epoch": 0.17569546120058566,
      "grad_norm": 1.6002689599990845,
      "learning_rate": 2.999826624826282e-05,
      "loss": 1.6252,
      "step": 60
    },
    {
      "epoch": 0.17569546120058566,
      "eval_loss": 1.394525408744812,
      "eval_runtime": 251.3428,
      "eval_samples_per_second": 4.743,
      "eval_steps_per_second": 1.186,
      "step": 60
    },
    {
      "epoch": 0.2342606149341142,
      "grad_norm": 0.7246667146682739,
      "learning_rate": 2.9978766143703804e-05,
      "loss": 1.3266,
      "step": 80
    },
    {
      "epoch": 0.2635431918008785,
      "eval_loss": 1.2600260972976685,
      "eval_runtime": 251.2191,
      "eval_samples_per_second": 4.745,
      "eval_steps_per_second": 1.186,
      "step": 90
    },
    {
      "epoch": 0.29282576866764276,
      "grad_norm": 0.759510338306427,
      "learning_rate": 2.993762700961728e-05,
      "loss": 1.2738,
      "step": 100
    },
    {
      "epoch": 0.3513909224011713,
      "grad_norm": 0.577796995639801,
      "learning_rate": 2.9874908277529755e-05,
      "loss": 1.1882,
      "step": 120
    },
    {
      "epoch": 0.3513909224011713,
      "eval_loss": 1.1868953704833984,
      "eval_runtime": 251.0883,
      "eval_samples_per_second": 4.747,
      "eval_steps_per_second": 1.187,
      "step": 120
    },
    {
      "epoch": 0.40995607613469986,
      "grad_norm": 0.5876708030700684,
      "learning_rate": 2.97907005538692e-05,
      "loss": 1.154,
      "step": 140
    },
    {
      "epoch": 0.43923865300146414,
      "eval_loss": 1.1531668901443481,
      "eval_runtime": 251.1486,
      "eval_samples_per_second": 4.746,
      "eval_steps_per_second": 1.187,
      "step": 150
    },
    {
      "epoch": 0.4685212298682284,
      "grad_norm": 0.5894426703453064,
      "learning_rate": 2.968512548907072e-05,
      "loss": 1.1456,
      "step": 160
    },
    {
      "epoch": 0.527086383601757,
      "grad_norm": 0.739384651184082,
      "learning_rate": 2.9558335601834626e-05,
      "loss": 1.1171,
      "step": 180
    },
    {
      "epoch": 0.527086383601757,
      "eval_loss": 1.1397337913513184,
      "eval_runtime": 251.1567,
      "eval_samples_per_second": 4.746,
      "eval_steps_per_second": 1.187,
      "step": 180
    },
    {
      "epoch": 0.5856515373352855,
      "grad_norm": 0.6635804176330566,
      "learning_rate": 2.941051405879076e-05,
      "loss": 1.0742,
      "step": 200
    },
    {
      "epoch": 0.6149341142020498,
      "eval_loss": 1.1328892707824707,
      "eval_runtime": 251.0677,
      "eval_samples_per_second": 4.748,
      "eval_steps_per_second": 1.187,
      "step": 210
    },
    {
      "epoch": 0.6442166910688141,
      "grad_norm": 0.9109640717506409,
      "learning_rate": 2.9241874409887362e-05,
      "loss": 1.0554,
      "step": 220
    },
    {
      "epoch": 0.7027818448023426,
      "grad_norm": 0.7387502193450928,
      "learning_rate": 2.9052660279886785e-05,
      "loss": 1.0418,
      "step": 240
    },
    {
      "epoch": 0.7027818448023426,
      "eval_loss": 1.1291104555130005,
      "eval_runtime": 251.1002,
      "eval_samples_per_second": 4.747,
      "eval_steps_per_second": 1.187,
      "step": 240
    }
  ],
  "logging_steps": 20,
  "max_steps": 1705,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 30,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 10,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 8.04618534049874e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}