langfuse
diff --git a/‎langfuse/_client/experiments.py‎
Lines changed: 32 additions & 0 deletions b/‎langfuse/_client/experiments.py‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎langfuse/experiment.py‎
Lines changed: 25 additions & 0 deletions b/‎langfuse/experiment.py‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎langfuse/types.py‎
Lines changed: 0 additions & 25 deletions b/‎langfuse/types.py‎
Lines changed: 0 additions & 25 deletions
@@ -747,3 +747,35 @@ async def _run_task(task: TaskFunction, item: ExperimentItem) -> Any:
         result = await result
 
     return result
+
+
+def create_evaluator_from_autoevals(
+    autoevals_evaluator: Any, **kwargs: Optional[Dict[str, Any]]
+) -> EvaluatorFunction:
+    """Create a Langfuse evaluator from an autoevals evaluator.
+
+    Args:
+        autoevals_evaluator: An autoevals evaluator instance
+        **kwargs: Additional arguments passed to the evaluator
+
+    Returns:
+        A Langfuse-compatible evaluator function
+    """
+
+    def langfuse_evaluator(
+        *,
+        input: Any,
+        output: Any,
+        expected_output: Any,
+        metadata: Optional[Dict[str, Any]],
+        **kwargs: Dict[str, Any],
+    ) -> Evaluation:
+        evaluation = autoevals_evaluator(
+            input=input, output=output, expected=expected_output, **kwargs
+        )
+
+        return Evaluation(
+            name=evaluation.name, value=evaluation.score, metadata=evaluation.metadata
+        )
+
+    return langfuse_evaluator
@@ -0,0 +1,25 @@
+from ._client.experiments import (
+    Evaluation,
+    EvaluatorFunction,
+    ExperimentData,
+    ExperimentItem,
+    ExperimentItemResult,
+    ExperimentResult,
+    LocalExperimentItem,
+    RunEvaluatorFunction,
+    TaskFunction,
+    create_evaluator_from_autoevals,
+)
+
+__all__ = [
+    "LocalExperimentItem",
+    "ExperimentItem",
+    "ExperimentData",
+    "Evaluation",
+    "ExperimentItemResult",
+    "ExperimentResult",
+    "TaskFunction",
+    "EvaluatorFunction",
+    "RunEvaluatorFunction",
+    "create_evaluator_from_autoevals",
+]
@@ -39,19 +39,6 @@ def my_evaluator(*, output: str, **kwargs) -> Evaluation:
 from langfuse.api import MediaContentType, UsageDetails
 from langfuse.model import MapValue, ModelUsage, PromptClient
 
-# Experiment types
-from ._client.experiments import (
-    LocalExperimentItem,
-    ExperimentItem,
-    ExperimentData,
-    Evaluation,
-    ExperimentItemResult,
-    ExperimentResult,
-    TaskFunction,
-    EvaluatorFunction,
-    RunEvaluatorFunction,
-)
-
 SpanLevel = Literal["DEBUG", "DEFAULT", "WARNING", "ERROR"]
 
 ScoreDataType = Literal["NUMERIC", "CATEGORICAL", "BOOLEAN"]
@@ -116,19 +103,7 @@ class TraceContext(TypedDict):
     parent_span_id: NotRequired[str]
 
 
-# Export experiment types for easy access
 __all__ = [
-    # Experiment types
-    "LocalExperimentItem",
-    "ExperimentItem",
-    "ExperimentData",
-    "Evaluation",
-    "ExperimentItemResult",
-    "ExperimentResult",
-    "TaskFunction",
-    "EvaluatorFunction",
-    "RunEvaluatorFunction",
-    # Core types (keeping existing functionality)
     "SpanLevel",
     "ScoreDataType",
     "TraceMetadata",