uno

d7cee63 verified almost 2 years ago

12.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.262571103526735,
	"eval_steps": 5000,
	"global_step": 55048,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.11376564277588168,
	"grad_norm": 4.343299865722656,
	"learning_rate": 7.960000000000001e-05,
	"loss": 4.3757,
	"step": 1000
	},
	{
	"epoch": 0.22753128555176336,
	"grad_norm": 3.4980385303497314,
	"learning_rate": 0.0001596,
	"loss": 1.7997,
	"step": 2000
	},
	{
	"epoch": 0.3412969283276451,
	"grad_norm": 3.350770950317383,
	"learning_rate": 0.0002396,
	"loss": 1.4879,
	"step": 3000
	},
	{
	"epoch": 0.4550625711035267,
	"grad_norm": 3.362269163131714,
	"learning_rate": 0.0003196,
	"loss": 1.3834,
	"step": 4000
	},
	{
	"epoch": 0.5688282138794084,
	"grad_norm": 2.424733877182007,
	"learning_rate": 0.0003996,
	"loss": 1.3351,
	"step": 5000
	},
	{
	"epoch": 0.5688282138794084,
	"eval_accuracy": 0.668216,
	"eval_loss": 1.3343349695205688,
	"eval_runtime": 15.5029,
	"eval_samples_per_second": 16125.98,
	"eval_steps_per_second": 31.542,
	"step": 5000
	},
	{
	"epoch": 0.6825938566552902,
	"grad_norm": 2.601680040359497,
	"learning_rate": 0.00047960000000000006,
	"loss": 1.3097,
	"step": 6000
	},
	{
	"epoch": 0.7963594994311718,
	"grad_norm": 1.9989418983459473,
	"learning_rate": 0.0005596,
	"loss": 1.2866,
	"step": 7000
	},
	{
	"epoch": 0.9101251422070534,
	"grad_norm": 1.8081185817718506,
	"learning_rate": 0.0006396,
	"loss": 1.2689,
	"step": 8000
	},
	{
	"epoch": 1.023890784982935,
	"grad_norm": 1.6405588388442993,
	"learning_rate": 0.00071952,
	"loss": 1.2487,
	"step": 9000
	},
	{
	"epoch": 1.1376564277588168,
	"grad_norm": 1.22613525390625,
	"learning_rate": 0.00079952,
	"loss": 1.2165,
	"step": 10000
	},
	{
	"epoch": 1.1376564277588168,
	"eval_accuracy": 0.686196,
	"eval_loss": 1.2481120824813843,
	"eval_runtime": 15.8446,
	"eval_samples_per_second": 15778.257,
	"eval_steps_per_second": 30.862,
	"step": 10000
	},
	{
	"epoch": 1.2514220705346986,
	"grad_norm": 1.2695167064666748,
	"learning_rate": 0.0007996786565611985,
	"loss": 1.2046,
	"step": 11000
	},
	{
	"epoch": 1.36518771331058,
	"grad_norm": 1.2521305084228516,
	"learning_rate": 0.0007987086748436788,
	"loss": 1.1849,
	"step": 12000
	},
	{
	"epoch": 1.4789533560864618,
	"grad_norm": 1.19619619846344,
	"learning_rate": 0.0007970896788508052,
	"loss": 1.1534,
	"step": 13000
	},
	{
	"epoch": 1.5927189988623436,
	"grad_norm": 1.0483107566833496,
	"learning_rate": 0.0007948275336376884,
	"loss": 1.1312,
	"step": 14000
	},
	{
	"epoch": 1.7064846416382253,
	"grad_norm": 1.3618515729904175,
	"learning_rate": 0.0007919213896323948,
	"loss": 1.112,
	"step": 15000
	},
	{
	"epoch": 1.7064846416382253,
	"eval_accuracy": 0.716556,
	"eval_loss": 1.1176625490188599,
	"eval_runtime": 15.2386,
	"eval_samples_per_second": 16405.688,
	"eval_steps_per_second": 32.09,
	"step": 15000
	},
	{
	"epoch": 1.820250284414107,
	"grad_norm": 0.9307771325111389,
	"learning_rate": 0.0007883817747762077,
	"loss": 1.0986,
	"step": 16000
	},
	{
	"epoch": 1.9340159271899886,
	"grad_norm": 0.9189246296882629,
	"learning_rate": 0.0007842073597303121,
	"loss": 1.0847,
	"step": 17000
	},
	{
	"epoch": 2.04778156996587,
	"grad_norm": 0.8016377687454224,
	"learning_rate": 0.0007794081581686037,
	"loss": 1.0506,
	"step": 18000
	},
	{
	"epoch": 2.161547212741752,
	"grad_norm": 0.9774219989776611,
	"learning_rate": 0.0007739919744091065,
	"loss": 1.0158,
	"step": 19000
	},
	{
	"epoch": 2.2753128555176336,
	"grad_norm": 0.8449124693870544,
	"learning_rate": 0.0007679676160878387,
	"loss": 1.0138,
	"step": 20000
	},
	{
	"epoch": 2.2753128555176336,
	"eval_accuracy": 0.732636,
	"eval_loss": 1.052935242652893,
	"eval_runtime": 15.2399,
	"eval_samples_per_second": 16404.275,
	"eval_steps_per_second": 32.087,
	"step": 20000
	},
	{
	"epoch": 2.3890784982935154,
	"grad_norm": 0.9211858510971069,
	"learning_rate": 0.0007613448798360993,
	"loss": 1.0113,
	"step": 21000
	},
	{
	"epoch": 2.502844141069397,
	"grad_norm": 0.7870326042175293,
	"learning_rate": 0.0007541345353494786,
	"loss": 1.0024,
	"step": 22000
	},
	{
	"epoch": 2.616609783845279,
	"grad_norm": 0.8683303594589233,
	"learning_rate": 0.0007463483078745015,
	"loss": 1.0032,
	"step": 23000
	},
	{
	"epoch": 2.73037542662116,
	"grad_norm": 1.031267523765564,
	"learning_rate": 0.000738007485475254,
	"loss": 0.9961,
	"step": 24000
	},
	{
	"epoch": 2.8441410693970424,
	"grad_norm": 0.8440726399421692,
	"learning_rate": 0.0007291089356699791,
	"loss": 0.9909,
	"step": 25000
	},
	{
	"epoch": 2.8441410693970424,
	"eval_accuracy": 0.741524,
	"eval_loss": 1.0143921375274658,
	"eval_runtime": 14.9299,
	"eval_samples_per_second": 16744.96,
	"eval_steps_per_second": 32.753,
	"step": 25000
	},
	{
	"epoch": 2.9579067121729237,
	"grad_norm": 0.708281934261322,
	"learning_rate": 0.0007196848947861554,
	"loss": 0.9832,
	"step": 26000
	},
	{
	"epoch": 3.0716723549488054,
	"grad_norm": 0.692997395992279,
	"learning_rate": 0.000709742030952583,
	"loss": 0.9383,
	"step": 27000
	},
	{
	"epoch": 3.185437997724687,
	"grad_norm": 0.8190609216690063,
	"learning_rate": 0.0006992857783851634,
	"loss": 0.9193,
	"step": 28000
	},
	{
	"epoch": 3.299203640500569,
	"grad_norm": 0.7791016697883606,
	"learning_rate": 0.0006883428362373026,
	"loss": 0.9197,
	"step": 29000
	},
	{
	"epoch": 3.4129692832764507,
	"grad_norm": 0.6834008693695068,
	"learning_rate": 0.0006769309995941914,
	"loss": 0.9236,
	"step": 30000
	},
	{
	"epoch": 3.4129692832764507,
	"eval_accuracy": 0.748324,
	"eval_loss": 0.9886829257011414,
	"eval_runtime": 14.8544,
	"eval_samples_per_second": 16830.07,
	"eval_steps_per_second": 32.92,
	"step": 30000
	},
	{
	"epoch": 3.526734926052332,
	"grad_norm": 0.7945353388786316,
	"learning_rate": 0.0006650809067991791,
	"loss": 0.9259,
	"step": 31000
	},
	{
	"epoch": 3.640500568828214,
	"grad_norm": 0.7771942019462585,
	"learning_rate": 0.000652788107427868,
	"loss": 0.924,
	"step": 32000
	},
	{
	"epoch": 3.7542662116040955,
	"grad_norm": 0.7232080101966858,
	"learning_rate": 0.0006400842315977677,
	"loss": 0.9149,
	"step": 33000
	},
	{
	"epoch": 3.868031854379977,
	"grad_norm": 0.6129056215286255,
	"learning_rate": 0.0006270032202430253,
	"loss": 0.9142,
	"step": 34000
	},
	{
	"epoch": 3.981797497155859,
	"grad_norm": 0.7053471803665161,
	"learning_rate": 0.0006135401606551002,
	"loss": 0.914,
	"step": 35000
	},
	{
	"epoch": 3.981797497155859,
	"eval_accuracy": 0.754936,
	"eval_loss": 0.9585933089256287,
	"eval_runtime": 15.1971,
	"eval_samples_per_second": 16450.463,
	"eval_steps_per_second": 32.177,
	"step": 35000
	},
	{
	"epoch": 4.09556313993174,
	"grad_norm": 0.7185536623001099,
	"learning_rate": 0.0005997438247807972,
	"loss": 0.8508,
	"step": 36000
	},
	{
	"epoch": 4.2093287827076225,
	"grad_norm": 0.7729761600494385,
	"learning_rate": 0.0005856090312640852,
	"loss": 0.8434,
	"step": 37000
	},
	{
	"epoch": 4.323094425483504,
	"grad_norm": 0.8405170440673828,
	"learning_rate": 0.0005711724058927512,
	"loss": 0.8442,
	"step": 38000
	},
	{
	"epoch": 4.436860068259386,
	"grad_norm": 0.6555745005607605,
	"learning_rate": 0.0005564574250751392,
	"loss": 0.852,
	"step": 39000
	},
	{
	"epoch": 4.550625711035267,
	"grad_norm": 0.6500961184501648,
	"learning_rate": 0.0005415031062964693,
	"loss": 0.849,
	"step": 40000
	},
	{
	"epoch": 4.550625711035267,
	"eval_accuracy": 0.758092,
	"eval_loss": 0.9504426121711731,
	"eval_runtime": 14.8523,
	"eval_samples_per_second": 16832.413,
	"eval_steps_per_second": 32.924,
	"step": 40000
	},
	{
	"epoch": 4.664391353811149,
	"grad_norm": 0.6345399618148804,
	"learning_rate": 0.0005263038333083039,
	"loss": 0.8493,
	"step": 41000
	},
	{
	"epoch": 4.778156996587031,
	"grad_norm": 0.7285176515579224,
	"learning_rate": 0.0005108991688044689,
	"loss": 0.8505,
	"step": 42000
	},
	{
	"epoch": 4.891922639362912,
	"grad_norm": 0.7443712949752808,
	"learning_rate": 0.000495314163389589,
	"loss": 0.8515,
	"step": 43000
	},
	{
	"epoch": 5.005688282138794,
	"grad_norm": 0.6659076809883118,
	"learning_rate": 0.0004795899698565036,
	"loss": 0.8403,
	"step": 44000
	},
	{
	"epoch": 5.1194539249146755,
	"grad_norm": 0.7172214984893799,
	"learning_rate": 0.00046372068282238195,
	"loss": 0.7614,
	"step": 45000
	},
	{
	"epoch": 5.1194539249146755,
	"eval_accuracy": 0.761088,
	"eval_loss": 0.9495302438735962,
	"eval_runtime": 15.3396,
	"eval_samples_per_second": 16297.69,
	"eval_steps_per_second": 31.878,
	"step": 45000
	},
	{
	"epoch": 5.233219567690558,
	"grad_norm": 0.8739346861839294,
	"learning_rate": 0.0004477477751198958,
	"loss": 0.767,
	"step": 46000
	},
	{
	"epoch": 5.346985210466439,
	"grad_norm": 0.8742613196372986,
	"learning_rate": 0.0004316972214137623,
	"loss": 0.7723,
	"step": 47000
	},
	{
	"epoch": 5.460750853242321,
	"grad_norm": 0.7512331604957581,
	"learning_rate": 0.00041559512263430705,
	"loss": 0.7738,
	"step": 48000
	},
	{
	"epoch": 5.5745164960182025,
	"grad_norm": 0.7592815160751343,
	"learning_rate": 0.00039948379493191056,
	"loss": 0.7735,
	"step": 49000
	},
	{
	"epoch": 5.688282138794084,
	"grad_norm": 0.6751989722251892,
	"learning_rate": 0.00038335718753151784,
	"loss": 0.7726,
	"step": 50000
	},
	{
	"epoch": 5.688282138794084,
	"eval_accuracy": 0.763736,
	"eval_loss": 0.9361330270767212,
	"eval_runtime": 17.5361,
	"eval_samples_per_second": 14256.306,
	"eval_steps_per_second": 27.885,
	"step": 50000
	},
	{
	"epoch": 5.802047781569966,
	"grad_norm": 0.7502247095108032,
	"learning_rate": 0.0003672737214802269,
	"loss": 0.7735,
	"step": 51000
	},
	{
	"epoch": 5.915813424345847,
	"grad_norm": 0.7880488038063049,
	"learning_rate": 0.000351227356466713,
	"loss": 0.7736,
	"step": 52000
	},
	{
	"epoch": 6.0295790671217295,
	"grad_norm": 0.7424056529998779,
	"learning_rate": 0.0003352762228480271,
	"loss": 0.7455,
	"step": 53000
	},
	{
	"epoch": 6.143344709897611,
	"grad_norm": 0.8073525428771973,
	"learning_rate": 0.0003194143300116524,
	"loss": 0.6797,
	"step": 54000
	},
	{
	"epoch": 6.257110352673493,
	"grad_norm": 0.7268177270889282,
	"learning_rate": 0.00030369914003658996,
	"loss": 0.6867,
	"step": 55000
	},
	{
	"epoch": 6.257110352673493,
	"eval_accuracy": 0.763196,
	"eval_loss": 0.9648858308792114,
	"eval_runtime": 15.5355,
	"eval_samples_per_second": 16092.147,
	"eval_steps_per_second": 31.476,
	"step": 55000
	}
	],
	"logging_steps": 1000,
	"max_steps": 87900,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 5000,
	"total_flos": 2.354556845700649e+18,
	"train_batch_size": 512,
	"trial_name": null,
	"trial_params": null
	}