Centralized the choice of the model in LLMEvaluatorSettings

Eugenumber1 · Eugenumber1 · commit 1e79468379cf · 2024-07-29T14:01:53.000+02:00
diff --git a/evaluators/haystack/langevals_haystack/faithfulness.py b/evaluators/haystack/langevals_haystack/faithfulness.py
@@ -12,6 +12,7 @@
     EvaluatorSettings,
     SingleEvaluationResult,
     Money,
+    LLMEvaluatorSettings
 )
 from pydantic import BaseModel, Field
 from haystack.components.evaluators import FaithfulnessEvaluator
@@ -28,7 +29,7 @@ class HaystackFaithfulnessEntry(EvaluatorEntry):
     contexts: list[str]
 
 
-class HaystackFaithfulnessSettings(EvaluatorSettings):
+class HaystackFaithfulnessSettings(LLMEvaluatorSettings):
     model: str = Field(
         default="azure/gpt-35-turbo-1106",
         description="The model to use for evaluation.",
diff --git a/evaluators/huggingface/langevals_huggingface/llama_guard.py b/evaluators/huggingface/langevals_huggingface/llama_guard.py
@@ -6,6 +6,7 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     Money,
 )
diff --git a/evaluators/langevals/langevals_langevals/basic.py b/evaluators/langevals/langevals_langevals/basic.py
@@ -5,6 +5,7 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
 )
 from pydantic import BaseModel, Field
@@ -26,7 +27,7 @@ class CustomBasicRule(BaseModel):
     value: str
 
 
-class CustomBasicSettings(EvaluatorSettings):
+class CustomBasicSettings(LLMEvaluatorSettings):
     rules: list[CustomBasicRule] = Field(default=[
         CustomBasicRule(field="output", rule="not_contains", value="artificial intelligence"),
     ], description="List of rules to check, the message must pass all of them")
diff --git a/evaluators/langevals/langevals_langevals/competitor_llm.py b/evaluators/langevals/langevals_langevals/competitor_llm.py
@@ -15,6 +15,7 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
@@ -26,7 +27,7 @@ class CompetitorLLMEntry(EvaluatorEntry):
     input: Optional[str] = None
 
 
-class CompetitorLLMSettings(EvaluatorSettings):
+class CompetitorLLMSettings(LLMEvaluatorSettings):
     name: str = Field(default="LangWatch", description="The name of your company")
     description: str = Field(
         default="We are providing an LLM observability and evaluation platform",
diff --git a/evaluators/langevals/langevals_langevals/competitor_llm_function_call.py b/evaluators/langevals/langevals_langevals/competitor_llm_function_call.py
@@ -12,7 +12,7 @@
     BaseEvaluator,
     EvaluatorEntry,
     EvaluationResult,
-    EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
@@ -24,7 +24,7 @@ class CompetitorLLMFunctionCallEntry(EvaluatorEntry):
     input: Optional[str] = None
 
 
-class CompetitorLLMFunctionCallSettings(EvaluatorSettings):
+class CompetitorLLMFunctionCallSettings(LLMEvaluatorSettings):
     name: str = Field(default="LangWatch", description="The name of your company")
     description: str = Field(
         default="We are providing an LLM observability and evaluation platform",
@@ -34,6 +34,7 @@ class CompetitorLLMFunctionCallSettings(EvaluatorSettings):
         default=["OpenAI", "Google", "Microsoft"],
         description="The competitors that must not be mentioned.",
     )
+    
 
 
 class CompetitorLLMFunctionCallResult(EvaluationResult):
diff --git a/evaluators/langevals/langevals_langevals/llm_boolean.py b/evaluators/langevals/langevals_langevals/llm_boolean.py
@@ -6,13 +6,16 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
 )
 from pydantic import BaseModel, Field
 import litellm
-from litellm import ModelResponse, Choices, Message, completion_cost
+from litellm import Choices, Message
+from litellm.files.main import ModelResponse
+from litellm.cost_calculator import completion_cost
 
 
 class CustomLLMBooleanEntry(EvaluatorEntry):
@@ -21,7 +24,7 @@ class CustomLLMBooleanEntry(EvaluatorEntry):
     contexts: Optional[list[str]] = None
 
 
-class CustomLLMBooleanSettings(EvaluatorSettings):
+class CustomLLMBooleanSettings(LLMEvaluatorSettings):
     prompt: str = Field(
         default="You are an LLM evaluator. We need the guarantee that the output answers what is being asked on the input, please evaluate as False if it doesn't",
         description="The system prompt to use for the LLM to run the evaluation",
diff --git a/evaluators/langevals/langevals_langevals/llm_score.py b/evaluators/langevals/langevals_langevals/llm_score.py
@@ -5,14 +5,17 @@
     BaseEvaluator,
     EvaluatorEntry,
     EvaluationResult,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
     EvaluatorSettings
 )
 from pydantic import Field
 import litellm
-from litellm import ModelResponse, Choices, Message, completion_cost
+from litellm import Choices, Message
+from litellm.files.main import ModelResponse
+from litellm.cost_calculator import completion_cost
 
 
 
@@ -22,7 +25,7 @@ class CustomLLMScoreEntry(EvaluatorEntry):
     contexts: Optional[list[str]] = None
 
 
-class CustomLLMScoreSettings(EvaluatorSettings):
+class CustomLLMScoreSettings(LLMEvaluatorSettings):
     prompt: str = Field(
         default="You are an LLM evaluator. Please score from 0.0 to 1.0 how likely the user is to be satisfied with this answer, from 0.0 being not satisfied at all to 1.0 being completely satisfied",
         description="The system prompt to use for the LLM to run the evaluation",
diff --git a/evaluators/langevals/langevals_langevals/off_topic.py b/evaluators/langevals/langevals_langevals/off_topic.py
@@ -1,7 +1,8 @@
 import litellm
-from litellm import get_max_tokens, completion_cost
-from litellm import ModelResponse, Choices, Message
-from litellm.utils import trim_messages
+from litellm import Choices, Message
+from litellm.files.main import ModelResponse
+from litellm.cost_calculator import completion_cost
+from litellm.utils import trim_messages, get_max_tokens
 
 from pydantic import BaseModel, Field
 from typing import Optional, List, Literal, cast
@@ -12,6 +13,7 @@
     BaseEvaluator,
     EvaluatorEntry,
     EvaluationResult,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
@@ -28,7 +30,7 @@ class AllowedTopic(BaseModel):
     description: str
 
 
-class OffTopicSettings(EvaluatorSettings):
+class OffTopicSettings(LLMEvaluatorSettings):
     allowed_topics: List[AllowedTopic] = Field(
         default=[
             AllowedTopic(topic="simple_chat", description="Smalltalk with the user"),
diff --git a/evaluators/langevals/langevals_langevals/query_resolution.py b/evaluators/langevals/langevals_langevals/query_resolution.py
@@ -14,6 +14,7 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
     Money,
@@ -29,7 +30,7 @@ class QueryResolutionEntry(EvaluatorEntry):
     conversation: List[QueryResolutionConversationEntry]
 
 
-class QueryResolutionSettings(EvaluatorSettings):
+class QueryResolutionSettings(LLMEvaluatorSettings):
     pass # maybe specify after how many turns we should run this evaluator?
 
 
diff --git a/evaluators/langevals/langevals_langevals/similarity.py b/evaluators/langevals/langevals_langevals/similarity.py
@@ -4,6 +4,7 @@
     EvaluatorEntry,
     EvaluationResult,
     EvaluatorSettings,
+    LLMEvaluatorSettings,
     SingleEvaluationResult,
     EvaluationResultSkipped,
 )
diff --git a/evaluators/ragas/langevals_ragas/lib/common.py b/evaluators/ragas/langevals_ragas/lib/common.py
@@ -6,10 +6,10 @@
 from langevals_core.base_evaluator import (
     BaseEvaluator,
     EvaluationResult,
+    LLMEvaluatorSettings,
     Money,
     EvaluationResultSkipped,
-    EvaluatorEntry,
-    EvaluatorSettings
+    EvaluatorEntry
 )
 from pydantic import BaseModel, Field
 from ragas import evaluate
@@ -56,7 +56,7 @@
 env_vars = []
 
 
-class RagasSettings(EvaluatorSettings):
+class RagasSettings(LLMEvaluatorSettings):
     model: str = Field(
         default="azure/gpt-35-turbo-16k",
         description="The model to use for evaluation.",
diff --git a/langevals_core/langevals_core/base_evaluator.py b/langevals_core/langevals_core/base_evaluator.py
@@ -29,35 +29,36 @@
 ]
 
 class EvaluatorSettings(BaseModel):
-     model: Literal[
-         "openai/gpt-3.5-turbo",
-         "openai/gpt-3.5-turbo-0125",
-         "openai/gpt-3.5-turbo-1106",
-         "openai/gpt-4-turbo",
-         "openai/gpt-4-0125-preview",
-         "openai/gpt-4o",
-         "openai/gpt-4o-mini",
-         "openai/gpt-4-1106-preview",
-         "azure/gpt-35-turbo-1106",
-         "azure/gpt-4o",
-         "azure/gpt-4-turbo-2024-04-09",
-         "azure/gpt-4-1106-preview",
-         "groq/llama3-70b-8192",
-         "anthropic/claude-3-haiku-20240307",
-         "anthropic/claude-3-sonnet-20240229",
-         "anthropic/claude-3-opus-20240229",
-     ] = Field(
-         default="openai/gpt-4o-mini",
-         description="The model to use for evaluation",
-     )
-     max_tokens: int = Field(
-         default=get_max_tokens("gpt-4o-mini"),
-         description="Max tokens allowed for evaluation",
-     )
+     pass
 
 TSettings = TypeVar("TSettings", bound=EvaluatorSettings)
 
-
+class LLMEvaluatorSettings(EvaluatorSettings):
+    model: Literal[
+        "openai/gpt-3.5-turbo",
+        "openai/gpt-3.5-turbo-0125",
+        "openai/gpt-3.5-turbo-1106",
+        "openai/gpt-4-turbo",
+        "openai/gpt-4-0125-preview",
+        "openai/gpt-4o",
+        "openai/gpt-4o-mini",
+        "openai/gpt-4-1106-preview",
+        "azure/gpt-35-turbo-1106",
+        "azure/gpt-4o",
+        "azure/gpt-4-turbo-2024-04-09",
+        "azure/gpt-4-1106-preview",
+        "groq/llama3-70b-8192",
+        "anthropic/claude-3-haiku-20240307",
+        "anthropic/claude-3-sonnet-20240229",
+        "anthropic/claude-3-opus-20240229",
+    ] = Field(
+        default="openai/gpt-4o-mini",
+        description="The model to use for evaluation",
+    )
+    max_tokens: int = Field(
+        default=8192,
+        description="Max tokens allowed for evaluation",
+    )
 
 class EvaluatorEntry(BaseModel):
     """

Original file line number	Diff line number	Diff line change
`@@ -6,6 +6,7 @@`
`6`	`6`	`EvaluatorEntry,`
`7`	`7`	`EvaluationResult,`
`8`	`8`	`EvaluatorSettings,`
	`9`	`+ LLMEvaluatorSettings,`
`9`	`10`	`SingleEvaluationResult,`
`10`	`11`	`Money,`
`11`	`12`	`)`
Original file line number	Diff line number	Diff line change
`@@ -4,6 +4,7 @@`
`4`	`4`	`EvaluatorEntry,`
`5`	`5`	`EvaluationResult,`
`6`	`6`	`EvaluatorSettings,`
	`7`	`+ LLMEvaluatorSettings,`
`7`	`8`	`SingleEvaluationResult,`
`8`	`9`	`EvaluationResultSkipped,`
`9`	`10`	`)`