Upload M2M100 model for rur to ur trained on rup

Files changed (8) hide show

config.json +37 -0
generation_config.json +10 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +237 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "/netscratch/butt/ru_infil/data/output/models/m2m100_RUR_UR_infilled/checkpoint-52066-2ndchkp",
+  "activation_dropout": 0.0,
+  "activation_function": "relu",
+  "architectures": [
+    "M2M100ForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0.05,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": null,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0.05,
+  "encoder_layers": 12,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": null,
+  "max_position_embeddings": 1024,
+  "model_type": "m2m_100",
+  "num_beams": null,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "scale_embedding": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "use_cache": true,
+  "vocab_size": 128106
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "max_length": 200,
+  "num_beams": 5,
+  "pad_token_id": 1,
+  "transformers_version": "4.45.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb2f965c29c81d36e2f7d45f3484e0d1bc252c666afe8041fa1fe8970825d21f
+size 1935657312

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:371e5c36c641ccab2a3fc50a3a9a2c33f4879594bb5bc784e65cbdae5dde7cc8
+size 4613901

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd815901fd76e36a5e208f6a3407b95ba4ed238f1ee8133d0a2ba9946e324503
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5292f452fef34bf9f2875bf85d69c05d56d28e0612020698e9831a4c002a48ff
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,237 @@

+{
+  "best_metric": 0.012863162904977798,
+  "best_model_checkpoint": "/netscratch/butt/Transliterate/RUP/finetuning/data/output_models/with_ur_rur_pretraining/m2m100_rur_ur/checkpoint-49478",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 98957,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16168638903766283,
+      "grad_norm": 0.7718783617019653,
+      "learning_rate": 1.7955627413994434e-06,
+      "loss": 3.0935,
+      "step": 4000
+    },
+    {
+      "epoch": 0.32337277807532566,
+      "grad_norm": 0.20686271786689758,
+      "learning_rate": 3.592023713284829e-06,
+      "loss": 0.0811,
+      "step": 8000
+    },
+    {
+      "epoch": 0.48505916711298847,
+      "grad_norm": 0.18024632334709167,
+      "learning_rate": 5.388035569927243e-06,
+      "loss": 0.045,
+      "step": 12000
+    },
+    {
+      "epoch": 0.6467455561506513,
+      "grad_norm": 0.12539374828338623,
+      "learning_rate": 7.184047426569658e-06,
+      "loss": 0.0314,
+      "step": 16000
+    },
+    {
+      "epoch": 0.8084319451883141,
+      "grad_norm": 0.12748591601848602,
+      "learning_rate": 8.979610167969102e-06,
+      "loss": 0.0243,
+      "step": 20000
+    },
+    {
+      "epoch": 0.9701183342259769,
+      "grad_norm": 0.12759284675121307,
+      "learning_rate": 9.998165278076701e-06,
+      "loss": 0.0199,
+      "step": 24000
+    },
+    {
+      "epoch": 0.9999898946006851,
+      "eval_bleu_score": 92.68445587158203,
+      "eval_loss": 0.0149387763813138,
+      "eval_runtime": 83.8315,
+      "eval_samples_per_second": 53.679,
+      "eval_steps_per_second": 0.847,
+      "step": 24739
+    },
+    {
+      "epoch": 1.1318047232636397,
+      "grad_norm": 0.09336024522781372,
+      "learning_rate": 9.979880503329601e-06,
+      "loss": 0.0169,
+      "step": 28000
+    },
+    {
+      "epoch": 1.2934911123013026,
+      "grad_norm": 0.08670177310705185,
+      "learning_rate": 9.942033160194284e-06,
+      "loss": 0.0149,
+      "step": 32000
+    },
+    {
+      "epoch": 1.4551775013389654,
+      "grad_norm": 0.07434108108282089,
+      "learning_rate": 9.884742671503474e-06,
+      "loss": 0.0131,
+      "step": 36000
+    },
+    {
+      "epoch": 1.6168638903766284,
+      "grad_norm": 0.10206976532936096,
+      "learning_rate": 9.808248316812721e-06,
+      "loss": 0.0118,
+      "step": 40000
+    },
+    {
+      "epoch": 1.778550279414291,
+      "grad_norm": 0.09218324720859528,
+      "learning_rate": 9.712877007813296e-06,
+      "loss": 0.0109,
+      "step": 44000
+    },
+    {
+      "epoch": 1.9402366684519539,
+      "grad_norm": 0.0780840739607811,
+      "learning_rate": 9.598956005105698e-06,
+      "loss": 0.0099,
+      "step": 48000
+    },
+    {
+      "epoch": 1.9999797892013702,
+      "eval_bleu_score": 93.96910858154297,
+      "eval_loss": 0.012863162904977798,
+      "eval_runtime": 83.5595,
+      "eval_samples_per_second": 53.854,
+      "eval_steps_per_second": 0.85,
+      "step": 49478
+    },
+    {
+      "epoch": 2.101923057489617,
+      "grad_norm": 0.09237009286880493,
+      "learning_rate": 9.46702511240559e-06,
+      "loss": 0.0089,
+      "step": 52000
+    },
+    {
+      "epoch": 2.2636094465272794,
+      "grad_norm": 0.0702459067106247,
+      "learning_rate": 9.317550119060927e-06,
+      "loss": 0.0082,
+      "step": 56000
+    },
+    {
+      "epoch": 2.4252958355649423,
+      "grad_norm": 0.072722427546978,
+      "learning_rate": 9.151030688621687e-06,
+      "loss": 0.0076,
+      "step": 60000
+    },
+    {
+      "epoch": 2.5869822246026053,
+      "grad_norm": 0.08947944641113281,
+      "learning_rate": 8.968334974427992e-06,
+      "loss": 0.0079,
+      "step": 64000
+    },
+    {
+      "epoch": 2.748668613640268,
+      "grad_norm": 0.09960344433784485,
+      "learning_rate": 8.76990706667961e-06,
+      "loss": 0.0068,
+      "step": 68000
+    },
+    {
+      "epoch": 2.910355002677931,
+      "grad_norm": 0.0603359118103981,
+      "learning_rate": 8.556768345618167e-06,
+      "loss": 0.0064,
+      "step": 72000
+    },
+    {
+      "epoch": 2.9999696838020555,
+      "eval_bleu_score": 93.96358489990234,
+      "eval_loss": 0.013073681853711605,
+      "eval_runtime": 84.3539,
+      "eval_samples_per_second": 53.347,
+      "eval_steps_per_second": 0.842,
+      "step": 74217
+    },
+    {
+      "epoch": 3.0720413917155938,
+      "grad_norm": 0.06365238130092621,
+      "learning_rate": 8.32960204922676e-06,
+      "loss": 0.0059,
+      "step": 76000
+    },
+    {
+      "epoch": 3.2337277807532563,
+      "grad_norm": 0.05498415231704712,
+      "learning_rate": 8.089352305100933e-06,
+      "loss": 0.0054,
+      "step": 80000
+    },
+    {
+      "epoch": 3.3954141697909193,
+      "grad_norm": 0.09993918985128403,
+      "learning_rate": 7.83709225538658e-06,
+      "loss": 0.0051,
+      "step": 84000
+    },
+    {
+      "epoch": 3.5571005588285822,
+      "grad_norm": 0.11793253570795059,
+      "learning_rate": 7.573493564289276e-06,
+      "loss": 0.0049,
+      "step": 88000
+    },
+    {
+      "epoch": 3.7187869478662448,
+      "grad_norm": 0.07151702791452408,
+      "learning_rate": 7.2999862584540295e-06,
+      "loss": 0.0047,
+      "step": 92000
+    },
+    {
+      "epoch": 3.8804733369039077,
+      "grad_norm": 0.05787697434425354,
+      "learning_rate": 7.017235169645627e-06,
+      "loss": 0.0045,
+      "step": 96000
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu_score": 94.14908599853516,
+      "eval_loss": 0.013429081067442894,
+      "eval_runtime": 84.6704,
+      "eval_samples_per_second": 53.147,
+      "eval_steps_per_second": 0.839,
+      "step": 98957
+    }
+  ],
+  "logging_steps": 4000,
+  "max_steps": 222651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.809719842363408e+18,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e09896a4afd79581f52e0db5907e08255069d8149cf144586480d51ec95fe1aa
+size 5432