Replace usage of OpenAI SDK with direct API calls via httpx. (#198)

DanielRosenwasser · web-flow · commit e8fe9637ac6d · 2024-02-29T10:54:36.000-08:00
* Replace usage of OpenAI SDK with direct API calls via httpx.

* Add `override` back.

* Fix pyright errors.
diff --git a/python/pyproject.toml b/python/pyproject.toml
@@ -23,6 +23,7 @@ classifiers = [
 ]
 dependencies = [
   "pydantic>=2.5.2",
+  "httpx>=0.27.0",
 ]
 
 [project.urls]
@@ -39,7 +40,6 @@ virtual = ".hatch"
 [tool.hatch.envs.default]
 dependencies = [
   "coverage[toml]>=6.5",
-  "openai>=1.3.6",
   "python-dotenv>=1.0.0",
   "pytest",
   "spotipy", # for examples
diff --git a/python/src/typechat/_internal/model.py b/python/src/typechat/_internal/model.py
@@ -1,11 +1,13 @@
-from typing_extensions import Protocol, override
-import openai
+import asyncio
+from types import TracebackType
+from typing_extensions import AsyncContextManager, Literal, Protocol, Self, TypedDict, cast, override
 
 from typechat._internal.result import Failure, Result, Success
 
+import httpx
 
 class TypeChatLanguageModel(Protocol):
-    async def complete(self, input: str) -> Result[str]:
+    async def complete(self, prompt: str) -> Result[str]:
         """
         Represents a AI language model that can complete prompts.
         
@@ -16,30 +18,88 @@ async def complete(self, input: str) -> Result[str]:
         """
         ...
 
+class _PromptSection(TypedDict):
+    """
+    Represents a section of an LLM prompt with an associated role. TypeChat uses the "user" role for
+    prompts it generates and the "assistant" role for previous LLM responses (which will be part of
+    the prompt in repair attempts). TypeChat currently doesn't use the "system" role.
+    """
+    role: Literal["system", "user", "assistant"]
+    content: str
+
+_TRANSIENT_ERROR_CODES = [
+    429,
+    500,
+    502,
+    503,
+    504,
+]
+
+class HttpxLanguageModel(TypeChatLanguageModel, AsyncContextManager):
+    url: str
+    headers: dict[str, str]
+    default_params: dict[str, str]
+    _async_client: httpx.AsyncClient
+    _max_retry_attempts: int = 3
+    _retry_pause_seconds: float = 1.0
+
+    def __init__(self, url: str, headers: dict[str, str], default_params: dict[str, str]):
+        super().__init__()
+        self.url = url
+        self.headers = headers
+        self.default_params = default_params
+        self._async_client = httpx.AsyncClient()
 
-class DefaultOpenAIModel(TypeChatLanguageModel):
-    model_name: str
-    client: openai.AsyncOpenAI | openai.AsyncAzureOpenAI
+    @override
+    async def complete(self, prompt: str) -> Success[str] | Failure:
+        headers = {
+            "Content-Type": "application/json",
+            **self.headers,
+        }
+        messages = [{"role": "user", "content": prompt}]
+        body = {
+            **self.default_params,
+            "messages": messages,
+            "temperature": 0.0,
+            "n": 1,
+        }
+        retry_count = 0
+        while True:
+            try:
+                response = await self._async_client.post(
+                    self.url,
+                    headers=headers,
+                    json=body,
+                )
+                if response.is_success:
+                    json_result = cast(
+                        dict[Literal["choices"], list[dict[Literal["message"], _PromptSection]]],
+                        response.json()
+                    )
+                    return Success(json_result["choices"][0]["message"]["content"] or "")
+
+                if response.status_code not in _TRANSIENT_ERROR_CODES or retry_count >= self._max_retry_attempts:
+                    return Failure(f"REST API error {response.status_code}: {response.reason_phrase}")
+            except Exception as e:
+                if retry_count >= self._max_retry_attempts:
+                    return Failure(str(e))
+
+            await asyncio.sleep(self._retry_pause_seconds)
+            retry_count += 1
 
-    def __init__(self, model_name: str, client: openai.AsyncOpenAI | openai.AsyncAzureOpenAI):
-        super().__init__()
-        self.model_name = model_name
-        self.client = client
+    @override
+    async def __aenter__(self) -> Self:
+        return self
 
     @override
-    async def complete(self, input: str) -> Result[str]:
+    async def __aexit__(self, __exc_type: type[BaseException] | None, __exc_value: BaseException | None, __traceback: TracebackType | None) -> bool | None:
+        await self._async_client.aclose()
+
+    def __del__(self):
         try:
-            response = await self.client.chat.completions.create(
-                model=self.model_name,
-                messages=[{"role": "user", "content": input}],
-                temperature=0.0,
-            )
-            content = response.choices[0].message.content
-            if content is None:
-                return Failure("Response did not contain any text.")
-            return Success(content)
-        except Exception as e:
-            return Failure(str(e))
+            asyncio.get_running_loop().create_task(self._async_client.aclose())
+        except Exception:
+            pass
 
 def create_language_model(vals: dict[str, str | None]) -> TypeChatLanguageModel:
     """
@@ -58,29 +118,58 @@ def create_language_model(vals: dict[str, str | None]) -> TypeChatLanguageModel:
     Args:
         vals: A dictionary of variables. Typically just `os.environ`.
     """
-    model: TypeChatLanguageModel
-    client: openai.AsyncOpenAI | openai.AsyncAzureOpenAI
-
+    
     def required_var(name: str) -> str:
         val = vals.get(name, None)
         if val is None:
             raise ValueError(f"Missing environment variable {name}.")
         return val
 
     if "OPENAI_API_KEY" in vals:
-        client = openai.AsyncOpenAI(api_key=required_var("OPENAI_API_KEY"))
-        model = DefaultOpenAIModel(model_name=required_var("OPENAI_MODEL"), client=client)
+        api_key = required_var("OPENAI_API_KEY")
+        model = required_var("OPENAI_MODEL")
+        endpoint = vals.get("OPENAI_ENDPOINT", None) or "https://api.openai.com/v1/chat/completions"
+        org = vals.get("OPENAI_ORG", None) or ""
+        return create_openai_language_model(api_key, model, endpoint, org)
 
     elif "AZURE_OPENAI_API_KEY" in vals:
-        openai.api_type = "azure"
-        client = openai.AsyncAzureOpenAI(
-            api_key=required_var("AZURE_OPENAI_API_KEY"),
-            azure_endpoint=required_var("AZURE_OPENAI_ENDPOINT"),
-            api_version="2023-03-15-preview",
-        )
-        model = DefaultOpenAIModel(model_name=vals.get("AZURE_OPENAI_MODEL", None) or "gpt-35-turbo", client=client)
-
+        api_key=required_var("AZURE_OPENAI_API_KEY")
+        endpoint=required_var("AZURE_OPENAI_ENDPOINT")
+        return create_azure_openai_language_model(api_key, endpoint)
     else:
         raise ValueError("Missing environment variables for OPENAI_API_KEY or AZURE_OPENAI_API_KEY.")
 
-    return model
+def create_openai_language_model(api_key: str, model: str, endpoint: str = "https://api.openai.com/v1/chat/completions", org: str = ""):
+    """
+    Creates a language model encapsulation of an OpenAI REST API endpoint.
+
+    Args:
+        api_key: The OpenAI API key.
+        model: The OpenAI model name.
+        endpoint: The OpenAI REST API endpoint.
+        org: The OpenAI organization.
+    """
+    headers = {
+        "Authorization": f"Bearer {api_key}",
+        "OpenAI-Organization": org,
+    }
+    default_params = {
+        "model": model,
+    }
+    return HttpxLanguageModel(url=endpoint, headers=headers, default_params=default_params)
+
+def create_azure_openai_language_model(api_key: str, endpoint: str):
+    """
+    Creates a language model encapsulation of an Azure OpenAI REST API endpoint.
+
+    Args:
+        api_key: The Azure OpenAI API key.
+        endpoint: The Azure OpenAI REST API endpoint.
+    """
+    headers = {
+        # Needed when using managed identity
+        "Authorization": f"Bearer {api_key}",
+        # Needed when using regular API key
+        "api-key": api_key,
+    }
+    return HttpxLanguageModel(url=endpoint, headers=headers, default_params={})

Original file line number	Diff line number	Diff line change
`@@ -23,6 +23,7 @@ classifiers = [`
`23`	`23`	`]`
`24`	`24`	`dependencies = [`
`25`	`25`	`"pydantic>=2.5.2",`
	`26`	`+ "httpx>=0.27.0",`
`26`	`27`	`]`
`27`	`28`
`28`	`29`	`[project.urls]`
`@@ -39,7 +40,6 @@ virtual = ".hatch"`
`39`	`40`	`[tool.hatch.envs.default]`
`40`	`41`	`dependencies = [`
`41`	`42`	`"coverage[toml]>=6.5",`
`42`		`- "openai>=1.3.6",`
`43`	`43`	`"python-dotenv>=1.0.0",`
`44`	`44`	`"pytest",`
`45`	`45`	`"spotipy", # for examples`