speechbrain
diff --git a/‎.dict-speechbrain.txt‎
Lines changed: 1 addition & 0 deletions b/‎.dict-speechbrain.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.flake8‎
Lines changed: 3 additions & 3 deletions b/‎.flake8‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 4 additions & 4 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎lint-requirements.txt‎
Lines changed: 6 additions & 5 deletions b/‎lint-requirements.txt‎
Lines changed: 6 additions & 5 deletions
diff --git a/‎recipes/AISHELL-1/ASR/CTC/train_with_wav2vec.py‎
Lines changed: 21 additions & 10 deletions b/‎recipes/AISHELL-1/ASR/CTC/train_with_wav2vec.py‎
Lines changed: 21 additions & 10 deletions
diff --git a/‎recipes/AISHELL-1/ASR/seq2seq/train.py‎
Lines changed: 18 additions & 9 deletions b/‎recipes/AISHELL-1/ASR/seq2seq/train.py‎
Lines changed: 18 additions & 9 deletions
diff --git a/‎recipes/AISHELL-1/ASR/transformer/train.py‎
Lines changed: 15 additions & 12 deletions b/‎recipes/AISHELL-1/ASR/transformer/train.py‎
Lines changed: 15 additions & 12 deletions
@@ -602,6 +602,7 @@ puml
 punc
 pval
 pyctcdecode
+pydoclint
 pydub
 pygtrie
 pyin
 
@@ -1,8 +1,8 @@
 [flake8]
-ignore = E203, E266, E501, W503
+ignore = E203, E266, E501, W503, DOC105, DOC106, DOC107, DOC203, DOC403, DOC404, DOC405, DOC501, DOC502
 # line length is intentionally set to 80 here because black uses Bugbear
 # See https://github.com/psf/black/blob/master/README.md#line-length for more details
 max-line-length = 80
 max-complexity = 18
-select = B,C,E,F,W,T4,B9
-exclude = tools/kaldi_decoder
+select = B,C,E,F,W,T4,B9,DOC
+exclude = tests/tmp
@@ -14,19 +14,19 @@ repos:
         args: [--maxkb=1024]
 
   - repo: https://github.com/psf/black
-    rev: 19.10b0
+    rev: 24.3.0
     hooks:
       - id: black
         types: [python]
-        additional_dependencies: ['click==8.0.4']
+        additional_dependencies: ['click==8.1.7']
   - repo: https://github.com/PyCQA/flake8
-    rev: 3.7.9
+    rev: 7.0.0
     hooks:
       - id: flake8
         types: [python]
 
   - repo: https://github.com/adrienverge/yamllint
-    rev: v1.23.0
+    rev: v1.35.1
     hooks:
       - id: yamllint
 
 
@@ -1,6 +1,7 @@
-black==19.10b0
-click==8.0.4
-flake8==3.7.9
-pycodestyle==2.5.0
+black==24.3.0
+click==8.1.7
+flake8==7.0.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
 pytest==7.4.0
-yamllint==1.23.0
+yamllint==1.35.1
@@ -109,7 +109,9 @@ def compute_objectives(self, predictions, batch, stage):
         if stage != sb.Stage.TRAIN:
             target_words_list = [list(wrd) for wrd in batch.wrd]
             self.cer_metric.append(
-                ids=ids, predict=predicted_words_list, target=target_words_list,
+                ids=ids,
+                predict=predicted_words_list,
+                target=target_words_list,
             )
 
         return loss
@@ -154,7 +156,8 @@ def on_stage_end(self, stage, stage_loss, epoch):
                 valid_stats=stage_stats,
             )
             self.checkpointer.save_and_keep_only(
-                meta={"CER": stage_stats["CER"]}, min_keys=["CER"],
+                meta={"CER": stage_stats["CER"]},
+                min_keys=["CER"],
             )
         elif stage == sb.Stage.TEST:
             self.hparams.train_logger.log_stats(
@@ -205,11 +208,13 @@ def freeze_optimizers(self, optimizers):
 
 def dataio_prepare(hparams):
     """This function prepares the datasets to be used in the brain class.
-    It also defines the data processing pipeline through user-defined functions."""
+    It also defines the data processing pipeline through user-defined functions.
+    """
     data_folder = hparams["data_folder"]
 
     train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["train_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["train_data"],
+        replacements={"data_root": data_folder},
     )
 
     if hparams["sorting"] == "ascending":
@@ -234,12 +239,14 @@ def dataio_prepare(hparams):
         )
 
     valid_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["valid_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["valid_data"],
+        replacements={"data_root": data_folder},
     )
     valid_data = valid_data.filtered_sorted(sort_key="duration")
 
     test_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["test_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["test_data"],
+        replacements={"data_root": data_folder},
     )
     test_data = test_data.filtered_sorted(sort_key="duration")
 
@@ -272,7 +279,8 @@ def text_pipeline(wrd):
 
     # 4. Set output:
     sb.dataio.dataset.set_output_keys(
-        datasets, ["id", "sig", "wrd", "tokens"],
+        datasets,
+        ["id", "sig", "wrd", "tokens"],
     )
 
     # 5. If Dynamic Batching is used, we instantiate the needed samplers.
@@ -284,11 +292,15 @@ def text_pipeline(wrd):
         dynamic_hparams = hparams["dynamic_batch_sampler"]
 
         train_batch_sampler = DynamicBatchSampler(
-            train_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            train_data,
+            **dynamic_hparams,
+            length_func=lambda x: x["duration"],
         )
 
         valid_batch_sampler = DynamicBatchSampler(
-            valid_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            valid_data,
+            **dynamic_hparams,
+            length_func=lambda x: x["duration"],
         )
 
     return (
@@ -302,7 +314,6 @@ def text_pipeline(wrd):
 
 
 if __name__ == "__main__":
-
     # CLI:
     hparams_file, run_opts, overrides = sb.parse_arguments(sys.argv[1:])
     with open(hparams_file) as fin:
 
@@ -131,7 +131,8 @@ def on_stage_end(self, stage, stage_loss, epoch):
                 valid_stats=stage_stats,
             )
             self.checkpointer.save_and_keep_only(
-                meta={"CER": stage_stats["CER"]}, min_keys=["CER"],
+                meta={"CER": stage_stats["CER"]},
+                min_keys=["CER"],
             )
         elif stage == sb.Stage.TEST:
             self.hparams.train_logger.log_stats(
@@ -144,11 +145,13 @@ def on_stage_end(self, stage, stage_loss, epoch):
 
 def dataio_prepare(hparams):
     """This function prepares the datasets to be used in the brain class.
-    It also defines the data processing pipeline through user-defined functions."""
+    It also defines the data processing pipeline through user-defined functions.
+    """
     data_folder = hparams["data_folder"]
 
     train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["train_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["train_data"],
+        replacements={"data_root": data_folder},
     )
 
     if hparams["sorting"] == "ascending":
@@ -173,12 +176,14 @@ def dataio_prepare(hparams):
         )
 
     valid_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["valid_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["valid_data"],
+        replacements={"data_root": data_folder},
     )
     valid_data = valid_data.filtered_sorted(sort_key="duration")
 
     test_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["test_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["test_data"],
+        replacements={"data_root": data_folder},
     )
     test_data = test_data.filtered_sorted(sort_key="duration")
 
@@ -216,7 +221,8 @@ def text_pipeline(wrd):
 
     # 4. Set output:
     sb.dataio.dataset.set_output_keys(
-        datasets, ["id", "sig", "wrd", "tokens_bos", "tokens_eos", "tokens"],
+        datasets,
+        ["id", "sig", "wrd", "tokens_bos", "tokens_eos", "tokens"],
     )
 
     # 5. If Dynamic Batching is used, we instantiate the needed samplers.
@@ -228,11 +234,15 @@ def text_pipeline(wrd):
         dynamic_hparams = hparams["dynamic_batch_sampler"]
 
         train_batch_sampler = DynamicBatchSampler(
-            train_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            train_data,
+            **dynamic_hparams,
+            length_func=lambda x: x["duration"],
         )
 
         valid_batch_sampler = DynamicBatchSampler(
-            valid_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            valid_data,
+            **dynamic_hparams,
+            length_func=lambda x: x["duration"],
         )
 
     return (
@@ -246,7 +256,6 @@ def text_pipeline(wrd):
 
 
 if __name__ == "__main__":
-
     # CLI:
     hparams_file, run_opts, overrides = sb.parse_arguments(sys.argv[1:])
     with open(hparams_file) as fin:
 
@@ -75,7 +75,7 @@ def compute_forward(self, batch, stage):
     def compute_objectives(self, predictions, batch, stage):
         """Computes the loss (CTC+NLL) given predictions and targets."""
 
-        (p_ctc, p_seq, wav_lens, hyps,) = predictions
+        (p_ctc, p_seq, wav_lens, hyps) = predictions
 
         ids = batch.id
         tokens_eos, tokens_eos_lens = batch.tokens_eos
@@ -169,7 +169,6 @@ def on_stage_end(self, stage, stage_loss, epoch):
 
         # log stats and save checkpoint at end-of-epoch
         if stage == sb.Stage.VALID:
-
             # report different epoch stages according current stage
             current_epoch = self.hparams.epoch_counter.current
             if current_epoch <= self.hparams.stage_one_epochs:
@@ -247,7 +246,6 @@ def on_fit_start(self):
 
             # Load latest checkpoint to resume training if interrupted
             if self.checkpointer is not None:
-
                 # do not reload the weights if training is interrupted right before stage 2
                 group = current_optimizer.param_groups[0]
                 if "momentum" not in group:
@@ -263,7 +261,8 @@ def on_evaluate_start(self, max_key=None, min_key=None):
             max_key=max_key, min_key=min_key
         )
         ckpt = sb.utils.checkpoints.average_checkpoints(
-            ckpts, recoverable_name="model",
+            ckpts,
+            recoverable_name="model",
         )
 
         self.hparams.model.load_state_dict(ckpt, strict=True)
@@ -272,11 +271,13 @@ def on_evaluate_start(self, max_key=None, min_key=None):
 
 def dataio_prepare(hparams):
     """This function prepares the datasets to be used in the brain class.
-    It also defines the data processing pipeline through user-defined functions."""
+    It also defines the data processing pipeline through user-defined functions.
+    """
     data_folder = hparams["data_folder"]
 
     train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["train_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["train_data"],
+        replacements={"data_root": data_folder},
     )
 
     if hparams["sorting"] == "ascending":
@@ -301,12 +302,14 @@ def dataio_prepare(hparams):
         )
 
     valid_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["valid_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["valid_data"],
+        replacements={"data_root": data_folder},
     )
     valid_data = valid_data.filtered_sorted(sort_key="duration")
 
     test_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
-        csv_path=hparams["test_data"], replacements={"data_root": data_folder},
+        csv_path=hparams["test_data"],
+        replacements={"data_root": data_folder},
     )
     test_data = test_data.filtered_sorted(sort_key="duration", reverse=True)
 
@@ -344,7 +347,8 @@ def text_pipeline(wrd):
 
     # 4. Set output:
     sb.dataio.dataset.set_output_keys(
-        datasets, ["id", "sig", "wrd", "tokens_bos", "tokens_eos", "tokens"],
+        datasets,
+        ["id", "sig", "wrd", "tokens_bos", "tokens_eos", "tokens"],
     )
 
     # 5. If Dynamic Batching is used, we instantiate the needed samplers.
@@ -356,11 +360,11 @@ def text_pipeline(wrd):
         dynamic_hparams = hparams["dynamic_batch_sampler"]
 
         train_batch_sampler = DynamicBatchSampler(
-            train_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            train_data, **dynamic_hparams, length_func=lambda x: x["duration"]
         )
 
         valid_batch_sampler = DynamicBatchSampler(
-            valid_data, **dynamic_hparams, length_func=lambda x: x["duration"],
+            valid_data, **dynamic_hparams, length_func=lambda x: x["duration"]
         )
 
     return (
@@ -374,7 +378,6 @@ def text_pipeline(wrd):
 
 
 if __name__ == "__main__":
-
     # CLI:
     hparams_file, run_opts, overrides = sb.parse_arguments(sys.argv[1:])
     with open(hparams_file) as fin: