init schedulers as needed because it's slow (TODO: faster way?)

gadicc · gadicc · commit 690810dfa380 · 2022-11-08T12:14:02.000Z
diff --git a/Dockerfile b/Dockerfile
@@ -94,8 +94,14 @@ ADD convert-to-diffusers.py .
 RUN python3 convert-to-diffusers.py
 # RUN rm -rf checkpoints
 
+# Loading a new scheduler for the first time takes an extra ~800ms,
+# so set this to your most common one.
+ARG DEFAULT_SCHEDULER="LMSDiscreteScheduler"
+ENV DEFAULT_SCHEDULER=${DEFAULT_SCHEDULER}
+
 # Add your model weight files 
 # (in this case we have a python script)
+ADD getScheduler.py .
 ADD loadModel.py .
 ADD download.py .
 RUN python3 download.py
diff --git a/app.py b/app.py
@@ -4,7 +4,6 @@
 from torch import autocast
 from diffusers import (
     pipelines as _pipelines,
-    schedulers as _schedulers,
     LMSDiscreteScheduler,
     DDIMScheduler,
     PNDMScheduler,
@@ -22,6 +21,7 @@
 import skimage
 import skimage.measure
 from PyPatchMatch import patch_match
+from getScheduler import getScheduler, SCHEDULERS
 import re
 
 MODEL_ID = os.environ.get("MODEL_ID")
@@ -35,14 +35,6 @@
     "StableDiffusionInpaintPipelineLegacy",
 ]
 
-SCHEDULERS = [
-    "LMSDiscreteScheduler",
-    "DDIMScheduler",
-    "PNDMScheduler",
-    "EulerAncestralDiscreteScheduler",
-    "EulerDiscreteScheduler",
-]
-
 torch.set_grad_enabled(False)
 
 
@@ -95,30 +87,6 @@ def init():
         True,
     )
 
-    schedulers = {}
-    """
-    # This was a nice idea but until we have default init vars for all schedulers
-    # via from_config(), it's a no go.
-    isScheduler = re.compile(r".+Scheduler$")
-    for key, val in _schedulers.__dict__.items():
-        if isScheduler.match(key):
-            schedulers.update(
-                {
-                    key: val.from_config(
-                        MODEL_ID, subfolder="scheduler", use_auth_token=HF_AUTH_TOKEN
-                    )
-                }
-            )
-    """
-    for scheduler_name in SCHEDULERS:
-        schedulers.update(
-            {
-                scheduler_name: getattr(_schedulers, scheduler_name).from_config(
-                    MODEL_ID, subfolder="scheduler", use_auth_token=HF_AUTH_TOKEN
-                ),
-            }
-        )
-
     dummy_safety_checker = DummySafetyChecker()
 
     if MODEL_ID == "ALL":
@@ -200,30 +168,14 @@ def inference(all_inputs: dict) -> dict:
     else:
         pipeline = model
 
-    # Check for use of all names
-    scheduler_name = call_inputs.get("SCHEDULER", None)
-    deprecated_map = {
-        "LMS": "LMSDiscreteScheduler",
-        "DDIM": "DDIMScheduler",
-        "PNDM": "PNDMScheduler",
-    }
-    scheduler_renamed = deprecated_map.get(scheduler_name, None)
-    if scheduler_renamed != None:
-        print(
-            f'[Deprecation Warning]: Scheduler "{scheduler_name}" is now '
-            f'called "{scheduler_renamed}".  Please rename as this will '
-            f"stop working in a future release."
-        )
-        scheduler_name = scheduler_renamed
-
-    pipeline.scheduler = schedulers.get(scheduler_name, None)
+    pipeline.scheduler = getScheduler(MODEL_ID, call_inputs.get("SCHEDULER", None))
     if pipeline.scheduler == None:
         return {
             "$error": {
                 "code": "INVALID_SCHEDULER",
                 "message": "",
                 "requeted": call_inputs.get("SCHEDULER", None),
-                "available": ", ".join(schedulers.keys()),
+                "available": ", ".join(SCHEDULERS),
             }
         }
 
@@ -286,10 +238,8 @@ def inference(all_inputs: dict) -> dict:
     x_m_e_a = call_inputs.get("xformers_memory_efficient_attention", None)
     if x_m_e_a != last_xformers_memory_efficient_attention:
         last_xformers_memory_efficient_attention = x_m_e_a
-        if x_m_e_a == None:
+        if x_m_e_a == None or x_m_e_a == True:
             pipeline.enable_xformers_memory_efficient_attention()  # default on
-        elif x_m_e_a == True:
-            pipeline.enable_xformers_memory_efficient_attention()
         elif x_m_e_a == False:
             pipeline.disable_xformers_memory_efficient_attention()
         else:
diff --git a/download.py b/download.py
@@ -3,6 +3,7 @@
 
 import os
 from loadModel import loadModel, MODEL_IDS
+from getScheduler import getScheduler, SCHEDULERS, DEFAULT_SCHEDULER
 
 MODEL_ID = os.environ.get("MODEL_ID")
 
@@ -16,6 +17,8 @@ def download_model():
     else:
         loadModel(MODEL_ID, False)
 
+    getScheduler(MODEL_ID, DEFAULT_SCHEDULER)
+
 
 if __name__ == "__main__":
     download_model()
diff --git a/getScheduler.py b/getScheduler.py
@@ -0,0 +1,79 @@
+import torch
+import os
+import time
+from diffusers import schedulers as _schedulers
+
+HF_AUTH_TOKEN = os.getenv("HF_AUTH_TOKEN")
+DEFAULT_SCHEDULER = os.getenv("DEFAULT_SCHEDULER")
+
+SCHEDULERS = [
+    "LMSDiscreteScheduler",
+    "DDIMScheduler",
+    "PNDMScheduler",
+    "EulerAncestralDiscreteScheduler",
+    "EulerDiscreteScheduler",
+]
+
+"""
+# This was a nice idea but until we have default init vars for all schedulers
+# via from_config(), it's a no go.  In any case, loading a scheduler takes time
+# so better to init as needed and cache.
+isScheduler = re.compile(r".+Scheduler$")
+for key, val in _schedulers.__dict__.items():
+    if isScheduler.match(key):
+        schedulers.update(
+            {
+                key: val.from_config(
+                    MODEL_ID, subfolder="scheduler", use_auth_token=HF_AUTH_TOKEN
+                )
+            }
+        )
+"""
+
+
+def initScheduler(MODEL_ID: str, scheduler_id: str):
+    print(f"Initializing {scheduler_id} for {MODEL_ID}...")
+    start = time.time()
+    scheduler = getattr(_schedulers, scheduler_id)
+    if scheduler == None:
+        return None
+
+    inittedScheduler = scheduler.from_config(
+        MODEL_ID, subfolder="scheduler", use_auth_token=HF_AUTH_TOKEN
+    )
+    diff = round((time.time() - start) * 1000)
+    print(f"Initialized {scheduler_id} for {MODEL_ID} in {diff}ms")
+
+    return inittedScheduler
+
+
+schedulers = {}
+
+
+def getScheduler(MODEL_ID: str, scheduler_id: str):
+    schedulersByModel = schedulers.get(MODEL_ID, None)
+    if schedulersByModel == None:
+        schedulersByModel = {}
+        schedulers.update({MODEL_ID: schedulersByModel})
+
+    # Check for use of old names
+    deprecated_map = {
+        "LMS": "LMSDiscreteScheduler",
+        "DDIM": "DDIMScheduler",
+        "PNDM": "PNDMScheduler",
+    }
+    scheduler_renamed = deprecated_map.get(scheduler_id, None)
+    if scheduler_renamed != None:
+        print(
+            f'[Deprecation Warning]: Scheduler "{scheduler_id}" is now '
+            f'called "{scheduler_id}".  Please rename as this will '
+            f"stop working in a future release."
+        )
+        scheduler_id = scheduler_renamed
+
+    scheduler = schedulersByModel.get(scheduler_id, None)
+    if scheduler == None:
+        scheduler = initScheduler(MODEL_ID, scheduler_id)
+        schedulersByModel.update({scheduler_id: scheduler})
+
+    return scheduler
diff --git a/loadModel.py b/loadModel.py
@@ -1,6 +1,7 @@
 import torch
 import os
 from diffusers import pipelines as _pipelines, StableDiffusionPipeline
+from getScheduler import getScheduler, SCHEDULERS, DEFAULT_SCHEDULER
 
 HF_AUTH_TOKEN = os.getenv("HF_AUTH_TOKEN")
 PIPELINE = os.getenv("PIPELINE")
@@ -21,11 +22,15 @@ def loadModel(model_id: str, load=True):
         StableDiffusionPipeline if PIPELINE == "ALL" else getattr(_pipelines, PIPELINE)
     )
 
+    print("DEFAULT SCHEDULER=" + DEFAULT_SCHEDULER)
+    scheduler = getScheduler(model_id, DEFAULT_SCHEDULER)
+
     model = pipeline.from_pretrained(
         model_id,
         revision="fp16",
         torch_dtype=torch.float16,
         use_auth_token=HF_AUTH_TOKEN,
+        scheduler=scheduler,
     )
 
     return model.to("cuda") if load else None
diff --git a/send.py b/send.py
@@ -5,7 +5,9 @@
 import hashlib
 from requests_futures.sessions import FuturesSession
 
+print()
 print(os.environ)
+print()
 
 
 def get_now():