add hf, dropbox, recipes.csv

sangeet2020 · sangeet2020 · commit 555de27557eb · 2023-07-02T02:30:04.000+02:00
diff --git a/recipes/RescueSpeech/ASR/noise-robust/hparams/robust_asr_16k.yaml b/recipes/RescueSpeech/ASR/noise-robust/hparams/robust_asr_16k.yaml
@@ -12,14 +12,14 @@ save_folder: !ref <output_folder>/save
 train_log: !ref <output_folder>/train_log.txt
 
 # URL for the biggest whisper model.
-model_version: !ref large-v2
-whisper_hub: !ref openai/whisper-<model_version>
-whisper_folder: !PLACEHOLDER
+whisper_hub: !ref openai/whisper-large-v2
+whisper_folder: !ref <save_folder>/whisper_checkpoint
 language: german
-pretrained_whisper_model: !PLACEHOLDER
 
-# Path to pre-trained enhancement model
-pretrained_enhance_path: !PLACEHOLDER
+
+# Path to pre-trained models
+pretrained_whisper_path: speechbrain/whisper_rescuespeech
+pretrained_enhance_path: speechbrain/sepformer_rescuespeech
 
 epochs_before_lr_drop: 0
 unfreeze_epoch: !ref <epochs_before_lr_drop> + 1
@@ -30,14 +30,13 @@ test_only: False
 
 # Dataset prep parameters
 data_folder: !PLACEHOLDER
-csv_dir: !ref csv_files
 train_tsv_file: !ref <data_folder>/train.tsv
 dev_tsv_file: !ref <data_folder>/dev.tsv
 test_tsv_file: !ref <data_folder>/test.tsv
 accented_letters: True
-train_csv: !ref <csv_dir>/train.csv
-valid_csv: !ref <csv_dir>/dev.csv
-test_csv: !ref <csv_dir>/test.csv
+train_csv: !ref <output_folder>/train.csv
+valid_csv: !ref <output_folder>/dev.csv
+test_csv: !ref <output_folder>/test.csv
 skip_prep: False
 
 # We remove utterance slonger than 10s in the train/dev/test sets as
@@ -91,7 +90,7 @@ min_decode_ratio: 0.0
 max_decode_ratio: 1.0
 test_beam_size: 8
 
-# Model parameters
+# Whisper model parameters
 freeze_whisper: False
 freeze_encoder_only: False
 freeze_encoder: True
@@ -171,7 +170,7 @@ lr_annealing_whisper: !new:speechbrain.nnet.schedulers.NewBobScheduler
 epoch_counter: !new:speechbrain.utils.epoch_loop.EpochCounter
     limit: !ref <number_of_epochs>
 
-# Enhanc loss
+# Enhance loss
 enhance_loss: !name:speechbrain.nnet.losses.get_si_snr_with_pitwrapper
 
 # Change the path to use a local model instead of the remote one
diff --git a/recipes/RescueSpeech/ASR/noise-robust/train.py b/recipes/RescueSpeech/ASR/noise-robust/train.py
@@ -777,7 +777,7 @@ def text_pipeline(wrd):
         prepare_RescueSpeech,
         kwargs={
             "data_folder": hparams["data_folder"],
-            "save_folder": hparams["csv_dir"],
+            "save_folder": hparams["output_folder"],
             "train_tsv_file": hparams["train_tsv_file"],
             "dev_tsv_file": hparams["dev_tsv_file"],
             "test_tsv_file": hparams["test_tsv_file"],
diff --git a/recipes/RescueSpeech/README.md b/recipes/RescueSpeech/README.md
@@ -11,8 +11,9 @@ This recipe supports a simple combination of a speech enhancement model (**SepFo
 
 ## How to run
 ```
-python train.py hparams/robust_asr_16k.yaml
+python train.py hparams/robust_asr_16k.yaml --data_folder=<data_folder_path>
 ```
+Here the data path should be the path to uncompressed `Task_ASR.tar.gz` downloaded from link above.
 
 ## Results
 During training, both speech enhancement and ASR is kept unfrozen- i.e. both ASR and ehnance loss are backpropagated and weights are updated.
@@ -21,17 +22,15 @@ During training, both speech enhancement and ASR is kept unfrozen- i.e. both ASR
 |------ |--------|-------|-------|-------|----   |
 | Whisper (`large-v2`)| 7.334 | 7.871 | 2.085 | 0.857 | **24.20** |
 
-## Pretrained Models
-We initially perform fine-tuning of both the ASR model and SepFormer model using the CommonVoice dataset and the Microsoft-DNS dataset. Subsequently, we proceed with a second stage of fine-tuning on our RescueSpeech dataset. Here you can find links to the trained models.
+The final models for nosie robust speech recognition can be found here: [HuggingFace](https://huggingface.co/sangeet2020/noisy-whisper-resucespeech) and [Dropbox](https://www.dropbox.com/sh/7tryj6n7cfy0poe/AADpl4b8rGRSnoQ5j6LCj9tua?dl=0)
 
+## Fine-tuned models
+Initially, only the SepFormer model is trained on the Microsoft-DNS dataset. Then, we fine-tune both the Whisper ASR and SepFormer enhancement models using our RescueSpeech dataset. Here, you can access the links to these fine-tuned models.
 
-| Dataset        | CRDNN                                          | Wav2vec2                                       | wavLM                                          | Whisper                                        |
-|----------------|------------------------------------------------|------------------------------------------------|------------------------------------------------|------------------------------------------------|
-| German <br> CommonVoice10.0    | [HuggingFace](link_commonvoice_crdnn_hf)        | [HuggingFace](link_commonvoice_wav2vec2_hf)    | [HuggingFace](link_commonvoice_wavlm_hf)        | [HuggingFace](link_commonvoice_whisper_hf)      |
-|                | [Google Drive](link_commonvoice_crdnn_gd)       | [Google Drive](link_commonvoice_wav2vec2_gd)   | [Google Drive](link_commonvoice_wavlm_gd)       | [Google Drive](link_commonvoice_whisper_gd)     |
-| RescueSpeech   | [HuggingFace](link_rescuespeech_crdnn_hf)       | [HuggingFace](link_rescuespeech_wav2vec2_hf)   | [HuggingFace](link_rescuespeech_wavlm_hf)       | [HuggingFace](link_rescuespeech_whisper_hf)     |
-|                | [Google Drive](link_rescuespeech_crdnn_gd)      | [Google Drive](link_rescuespeech_wav2vec2_gd)  | [Google Drive](link_rescuespeech_wavlm_gd)      | [Google Drive](link_rescuespeech_whisper_gd)    |
-
+|  Model        | HuggingFace link                               | Full Model link                                |
+|----------------|------------------------------------------------|------------------------------------------------|
+| Whisper ASR    | [HuggingFace](https://huggingface.co/speechbrain/whisper_rescuespeech)             | [Dropbox](https://www.dropbox.com/sh/45wk44h8e0wkc5f/AABjEJJJ_OJp2fDYz3zEihmPa?dl=0)             |
+| Sepformer Enhancement   | [HuggingFace](https://huggingface.co/speechbrain/sepformer_rescuespeech)            | [Dropbox](https://www.dropbox.com/sh/02c3wesc65402f6/AAApoxBApft-JwqHK-bddedBa?dl=0)            |
 
 
 # **About SpeechBrain**
diff --git a/recipes/RescueSpeech/dataset.md b/recipes/RescueSpeech/dataset.md
@@ -91,7 +91,7 @@ This table represents the number of recordings in each of the three sets (train,
 
 ## Task: Speech enhancement- Dataset details
 ---------------
-- Noises used: 
+- Noises used:
     - Static and radio noise
     - Emergency vehicle and siren noise
     - Engine
@@ -111,4 +111,3 @@ Thank You
 ## Acknowledgment
 ---------------
 This work was supported under the project A-DRZ: Setting up the German Rescue Robotics Center and funded by the German Ministry of Education and Research (BMBF), grant No. I3N14856.
-
diff --git a/recipes/RescueSpeech/extra_requirements.txt b/recipes/RescueSpeech/extra_requirements.txt
@@ -0,0 +1,4 @@
+librosa
+mir_eval
+pesq
+pystoi
diff --git a/tests/recipes/RescueSpeech.csv b/tests/recipes/RescueSpeech.csv
@@ -0,0 +1,2 @@
+Task,Dataset,Script_file,Hparam_file,Data_prep_file,Readme_file,Result_url,HF_repo,test_debug_flags,test_debug_checks
+ASR+enhancement,RescueSpeech,recipes/RescueSpeech/ASR/noise-robust/train.py,recipes/RescueSpeech/ASR/noise-robust/hparams/robust_asr_16k.yaml,recipes/RescueSpeech/rescuespeech_prepare.py,recipes/RescueSpeech/README.md,https://www.dropbox.com/sh/7tryj6n7cfy0poe/AADpl4b8rGRSnoQ5j6LCj9tua?dl=0,https://huggingface.co/sangeet2020/noisy-whisper-resucespeech,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=tests/samples/annotation/ASR_train.csv --number_of_epochs=1 --skip_prep=True,,

-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +librosa
 +mir_eval
 +pesq
 +pystoi
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+Task,Dataset,Script_file,Hparam_file,Data_prep_file,Readme_file,Result_url,HF_repo,test_debug_flags,test_debug_checks`
	`2`	+ASR+enhancement,RescueSpeech,recipes/RescueSpeech/ASR/noise-robust/train.py,recipes/RescueSpeech/ASR/noise-robust/hparams/robust_asr_16k.yaml,recipes/RescueSpeech/rescuespeech_prepare.py,recipes/RescueSpeech/README.md,https://www.dropbox.com/sh/7tryj6n7cfy0poe/AADpl4b8rGRSnoQ5j6LCj9tua?dl=0,https://huggingface.co/sangeet2020/noisy-whisper-resucespeech,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=tests/samples/annotation/ASR_train.csv --number_of_epochs=1 --skip_prep=True,,