langwatch
diff --git a/‎evaluators/ragas/langevals_ragas/answer_correctness.py
Lines changed: 0 additions & 52 deletions b/‎evaluators/ragas/langevals_ragas/answer_correctness.py
Lines changed: 0 additions & 52 deletions
diff --git a/‎evaluators/ragas/langevals_ragas/context_f1.py
Lines changed: 103 additions & 0 deletions b/‎evaluators/ragas/langevals_ragas/context_f1.py
Lines changed: 103 additions & 0 deletions
diff --git a/‎evaluators/ragas/langevals_ragas/context_precision.py
Lines changed: 49 additions & 16 deletions b/‎evaluators/ragas/langevals_ragas/context_precision.py
Lines changed: 49 additions & 16 deletions
diff --git a/‎evaluators/ragas/langevals_ragas/context_recall.py
Lines changed: 47 additions & 17 deletions b/‎evaluators/ragas/langevals_ragas/context_recall.py
Lines changed: 47 additions & 17 deletions
diff --git a/‎evaluators/ragas/langevals_ragas/context_relevancy.py
Lines changed: 0 additions & 46 deletions b/‎evaluators/ragas/langevals_ragas/context_relevancy.py
Lines changed: 0 additions & 46 deletions
@@ -0,0 +1,103 @@
+from typing import Literal
+from langevals_core.base_evaluator import (
+    BaseEvaluator,
+    EvaluationResult,
+    EvaluatorEntry,
+    SingleEvaluationResult,
+)
+from ragas import SingleTurnSample
+from .lib.common import (
+    RagasResult,
+    env_vars,
+    RagasSettings,
+)
+from pydantic import Field
+from ragas.metrics import (
+    NonLLMContextRecall,
+    NonLLMContextPrecisionWithReference,
+    NonLLMStringSimilarity,
+    DistanceMeasure,
+)
+
+
+class RagasContextF1Entry(EvaluatorEntry):
+    contexts: list[str]
+    expected_contexts: list[str]
+
+
+class RagasContextF1Result(EvaluationResult):
+    score: float = Field(
+        default=0.0,
+        description="A score between 0.0 and 1.0 indicating the F1 score.",
+    )
+
+
+class RagasContextF1Settings(RagasSettings):
+    distance_measure: Literal["levenshtein", "hamming", "jaro", "jaro_winkler"] = (
+        "levenshtein"
+    )
+
+
+class RagasContextF1Evaluator(
+    BaseEvaluator[
+        RagasContextF1Entry,
+        RagasContextF1Settings,
+        RagasContextF1Result,
+    ]
+):
+    """
+    Balances between precision and recall for context retrieval, increasing it means a better signal-to-noise ratio. Uses traditional string distance metrics.
+    """
+
+    name = "Context F1"
+    category = "rag"
+    env_vars = env_vars
+    default_settings = RagasContextF1Settings()
+    docs_url = "https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/context_F1/#non-llm-based-context-F1"
+    is_guardrail = False
+
+    def evaluate(self, entry: RagasContextF1Entry) -> SingleEvaluationResult:
+        precision_scorer = NonLLMContextPrecisionWithReference(
+            distance_measure=NonLLMStringSimilarity(
+                distance_measure={
+                    "levenshtein": DistanceMeasure.LEVENSHTEIN,
+                    "hamming": DistanceMeasure.HAMMING,
+                    "jaro": DistanceMeasure.JARO,
+                    "jaro_winkler": DistanceMeasure.JARO_WINKLER,
+                }[self.settings.distance_measure]
+            )
+        )
+
+        precision_score = precision_scorer.single_turn_score(
+            SingleTurnSample(
+                retrieved_contexts=entry.contexts,
+                reference_contexts=entry.expected_contexts,
+            )
+        )
+
+        recall_scorer = NonLLMContextRecall()
+        recall_scorer.distance_measure = {
+            "levenshtein": DistanceMeasure.LEVENSHTEIN,
+            "hamming": DistanceMeasure.HAMMING,
+            "jaro": DistanceMeasure.JARO,
+            "jaro_winkler": DistanceMeasure.JARO_WINKLER,
+        }[self.settings.distance_measure]
+
+        recall_score = recall_scorer.single_turn_score(
+            SingleTurnSample(
+                retrieved_contexts=entry.contexts,
+                reference_contexts=entry.expected_contexts,
+            )
+        )
+
+        f1_score = (
+            2 * (precision_score * recall_score) / (precision_score + recall_score)
+            if (precision_score + recall_score) != 0
+            else 0
+        )
+
+        return RagasResult(
+            score=f1_score,
+            cost=None,
+            details=f"Precision: {precision_score}, Recall: {recall_score}",
+        )
@@ -1,48 +1,81 @@
+from typing import Literal
 from langevals_core.base_evaluator import (
     BaseEvaluator,
     EvaluationResult,
     EvaluatorEntry,
     SingleEvaluationResult,
 )
-from .lib.common import env_vars, evaluate_ragas, RagasSettings
+from ragas import SingleTurnSample
+from .lib.common import (
+    RagasResult,
+    env_vars,
+    RagasSettings,
+)
 from pydantic import Field
+from ragas.metrics import (
+    NonLLMContextPrecisionWithReference,
+    NonLLMStringSimilarity,
+    DistanceMeasure,
+)
 
 
 class RagasContextPrecisionEntry(EvaluatorEntry):
-    input: str
     contexts: list[str]
-    expected_output: str
+    expected_contexts: list[str]
 
 
 class RagasContextPrecisionResult(EvaluationResult):
     score: float = Field(
         default=0.0,
-        description="A score between 0.0 and 1.0 indicating the precision of the context."
+        description="A score between 0.0 and 1.0 indicating the precision score.",
+    )
+
+
+class RagasContextPrecisionSettings(RagasSettings):
+    distance_measure: Literal["levenshtein", "hamming", "jaro", "jaro_winkler"] = (
+        "levenshtein"
     )
 
 
 class RagasContextPrecisionEvaluator(
     BaseEvaluator[
-        RagasContextPrecisionEntry, RagasSettings, RagasContextPrecisionResult
+        RagasContextPrecisionEntry,
+        RagasContextPrecisionSettings,
+        RagasContextPrecisionResult,
     ]
 ):
     """
-    This metric evaluates whether all of the ground-truth relevant items present in the contexts are ranked higher or not. Higher scores indicate better precision.
+    Measures how accurate is the retrieval compared to expected contexts, increasing it means less noise in the retrieval. Uses traditional string distance metrics.
     """
 
-    name = "Ragas Context Precision"
+    name = "Context Precision"
     category = "rag"
     env_vars = env_vars
-    default_settings = RagasSettings()
-    docs_url = "https://docs.ragas.io/en/latest/concepts/metrics/context_precision.html"
+    default_settings = RagasContextPrecisionSettings()
+    docs_url = "https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/context_precision/#non-llm-based-context-precision"
     is_guardrail = False
 
     def evaluate(self, entry: RagasContextPrecisionEntry) -> SingleEvaluationResult:
-        return evaluate_ragas(
-            evaluator=self,
-            metric="context_precision",
-            user_input=entry.input,
-            retrieved_contexts=entry.contexts,
-            reference=entry.expected_output,
-            settings=self.settings,
+        scorer = NonLLMContextPrecisionWithReference(
+            distance_measure=NonLLMStringSimilarity(
+                distance_measure={
+                    "levenshtein": DistanceMeasure.LEVENSHTEIN,
+                    "hamming": DistanceMeasure.HAMMING,
+                    "jaro": DistanceMeasure.JARO,
+                    "jaro_winkler": DistanceMeasure.JARO_WINKLER,
+                }[self.settings.distance_measure]
+            )
+        )
+
+        score = scorer.single_turn_score(
+            SingleTurnSample(
+                retrieved_contexts=entry.contexts,
+                reference_contexts=entry.expected_contexts,
+            )
+        )
+
+        return RagasResult(
+            score=score,
+            cost=None,
+            details=None,
         )
@@ -1,47 +1,77 @@
+from typing import Literal
 from langevals_core.base_evaluator import (
     BaseEvaluator,
     EvaluationResult,
     EvaluatorEntry,
     SingleEvaluationResult,
 )
-from .lib.common import env_vars, evaluate_ragas, RagasSettings
+from ragas import SingleTurnSample
+from .lib.common import (
+    RagasResult,
+    env_vars,
+    RagasSettings,
+)
 from pydantic import Field
+from ragas.metrics import (
+    NonLLMContextRecall,
+    DistanceMeasure,
+)
 
 
 class RagasContextRecallEntry(EvaluatorEntry):
-    input: str
     contexts: list[str]
-    expected_output: str
+    expected_contexts: list[str]
 
 
 class RagasContextRecallResult(EvaluationResult):
     score: float = Field(
         default=0.0,
-        description="A score between 0.0 and 1.0 indicating the recall of the context.",
+        description="A score between 0.0 and 1.0 indicating the Recall score.",
+    )
+
+
+class RagasContextRecallSettings(RagasSettings):
+    distance_measure: Literal["levenshtein", "hamming", "jaro", "jaro_winkler"] = (
+        "levenshtein"
     )
 
 
 class RagasContextRecallEvaluator(
-    BaseEvaluator[RagasContextRecallEntry, RagasSettings, RagasContextRecallResult]
+    BaseEvaluator[
+        RagasContextRecallEntry,
+        RagasContextRecallSettings,
+        RagasContextRecallResult,
+    ]
 ):
     """
-    This evaluator measures the extent to which the retrieved context aligns with the annotated answer, treated as the ground truth. Higher values indicate better performance.
+    Measures how many relevant contexts were retrieved compared to expected contexts, increasing it means more signal in the retrieval. Uses traditional string distance metrics.
     """
 
-    name = "Ragas Context Recall"
+    name = "Context Recall"
     category = "rag"
     env_vars = env_vars
-    default_settings = RagasSettings()
-    docs_url = "https://docs.ragas.io/en/latest/concepts/metrics/context_recall.html"
+    default_settings = RagasContextRecallSettings()
+    docs_url = "https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/context_recall/#non-llm-based-context-recall"
     is_guardrail = False
 
     def evaluate(self, entry: RagasContextRecallEntry) -> SingleEvaluationResult:
-        input = entry.input or ""
-        return evaluate_ragas(
-            evaluator=self,
-            metric="context_recall",
-            user_input=input,
-            retrieved_contexts=entry.contexts,
-            reference=entry.expected_output,
-            settings=self.settings,
+        scorer = NonLLMContextRecall()
+        scorer.distance_measure = {
+            "levenshtein": DistanceMeasure.LEVENSHTEIN,
+            "hamming": DistanceMeasure.HAMMING,
+            "jaro": DistanceMeasure.JARO,
+            "jaro_winkler": DistanceMeasure.JARO_WINKLER,
+        }[self.settings.distance_measure]
+
+        score = scorer.single_turn_score(
+            SingleTurnSample(
+                retrieved_contexts=entry.contexts,
+                reference_contexts=entry.expected_contexts,
+            )
+        )
+
+        return RagasResult(
+            score=score,
+            cost=None,
+            details=None,
         )