usememos
diff --git a/‎go.mod‎
Lines changed: 15 additions & 0 deletions b/‎go.mod‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎go.sum‎
Lines changed: 111 additions & 0 deletions b/‎go.sum‎
Lines changed: 111 additions & 0 deletions
diff --git a/‎internal/ai/client.go‎
Lines changed: 65 additions & 0 deletions b/‎internal/ai/client.go‎
Lines changed: 65 additions & 0 deletions
diff --git a/‎internal/ai/gemini.go‎
Lines changed: 162 additions & 0 deletions b/‎internal/ai/gemini.go‎
Lines changed: 162 additions & 0 deletions
diff --git a/‎internal/ai/gemini/client.go‎
Lines changed: 0 additions & 59 deletions b/‎internal/ai/gemini/client.go‎
Lines changed: 0 additions & 59 deletions
@@ -19,6 +19,7 @@ require (
 	github.com/lib/pq v1.11.2
 	github.com/lithammer/shortuuid/v4 v4.2.0
 	github.com/mark3labs/mcp-go v0.45.0
+	github.com/openai/openai-go/v3 v3.31.0
 	github.com/pkg/errors v0.9.1
 	github.com/spf13/cobra v1.10.2
 	github.com/spf13/viper v1.21.0
@@ -32,6 +33,7 @@ require (
 	golang.org/x/net v0.52.0
 	golang.org/x/oauth2 v0.36.0
 	golang.org/x/sync v0.20.0
+	google.golang.org/genai v1.54.0
 	google.golang.org/genproto v0.0.0-20260316180232-0b37fe3546d5
 	google.golang.org/genproto/googleapis/api v0.0.0-20260316172706-e463d84ca32d
 	google.golang.org/grpc v1.79.2
@@ -40,6 +42,9 @@ require (
 
 require (
 	cel.dev/expr v0.25.1 // indirect
+	cloud.google.com/go v0.116.0 // indirect
+	cloud.google.com/go/auth v0.9.3 // indirect
+	cloud.google.com/go/compute/metadata v0.9.0 // indirect
 	dario.cat/mergo v1.0.2 // indirect
 	filippo.io/edwards25519 v1.1.0 // indirect
 	github.com/Azure/go-ansiterm v0.0.0-20250102033503-faa5f7b0171c // indirect
@@ -66,6 +71,11 @@ require (
 	github.com/go-logr/stdr v1.2.2 // indirect
 	github.com/go-ole/go-ole v1.2.6 // indirect
 	github.com/go-viper/mapstructure/v2 v2.4.0 // indirect
+	github.com/golang/groupcache v0.0.0-20210331224755-41bb18bfe9da // indirect
+	github.com/google/go-cmp v0.7.0 // indirect
+	github.com/google/s2a-go v0.1.8 // indirect
+	github.com/googleapis/enterprise-certificate-proxy v0.3.4 // indirect
+	github.com/gorilla/websocket v1.5.3 // indirect
 	github.com/inconshreveable/mousetrap v1.1.0 // indirect
 	github.com/invopop/jsonschema v0.13.0 // indirect
 	github.com/klauspost/compress v1.18.2 // indirect
@@ -94,11 +104,16 @@ require (
 	github.com/spf13/cast v1.10.0 // indirect
 	github.com/spf13/pflag v1.0.10 // indirect
 	github.com/subosito/gotenv v1.6.0 // indirect
+	github.com/tidwall/gjson v1.18.0 // indirect
+	github.com/tidwall/match v1.1.1 // indirect
+	github.com/tidwall/pretty v1.2.1 // indirect
+	github.com/tidwall/sjson v1.2.5 // indirect
 	github.com/tklauser/go-sysconf v0.3.16 // indirect
 	github.com/tklauser/numcpus v0.11.0 // indirect
 	github.com/wk8/go-ordered-map/v2 v2.1.8 // indirect
 	github.com/yosida95/uritemplate/v3 v3.0.2 // indirect
 	github.com/yusufpapurcu/wmi v1.2.4 // indirect
+	go.opencensus.io v0.24.0 // indirect
 	go.opentelemetry.io/auto/sdk v1.2.1 // indirect
 	go.opentelemetry.io/contrib/instrumentation/net/http/otelhttp v0.54.0 // indirect
 	go.opentelemetry.io/otel v1.41.0 // indirect
 
@@ -0,0 +1,65 @@
+package ai
+
+import (
+	"net/http"
+	"net/url"
+	"strings"
+	"time"
+
+	"github.com/pkg/errors"
+)
+
+const defaultHTTPTimeout = 2 * time.Minute
+
+type transcriberOptions struct {
+	httpClient *http.Client
+}
+
+// TranscriberOption configures a transcriber.
+type TranscriberOption func(*transcriberOptions)
+
+// WithHTTPClient sets the HTTP client used by a transcriber.
+func WithHTTPClient(client *http.Client) TranscriberOption {
+	return func(options *transcriberOptions) {
+		if client != nil {
+			options.httpClient = client
+		}
+	}
+}
+
+// NewTranscriber creates a transcriber for a provider.
+func NewTranscriber(config ProviderConfig, options ...TranscriberOption) (Transcriber, error) {
+	transcriberOptions := transcriberOptions{
+		httpClient: &http.Client{Timeout: defaultHTTPTimeout},
+	}
+	for _, applyOption := range options {
+		applyOption(&transcriberOptions)
+	}
+
+	switch config.Type {
+	case ProviderOpenAI:
+		return newOpenAITranscriber(config, transcriberOptions)
+	case ProviderGemini:
+		return newGeminiTranscriber(config, transcriberOptions)
+	default:
+		return nil, errors.Wrapf(ErrCapabilityUnsupported, "provider type %q", config.Type)
+	}
+}
+
+func normalizeEndpoint(endpoint string, defaultEndpoint string, providerName string) (string, error) {
+	endpoint = strings.TrimSpace(endpoint)
+	if endpoint == "" {
+		endpoint = defaultEndpoint
+	}
+	if _, err := url.ParseRequestURI(endpoint); err != nil {
+		return "", errors.Wrapf(err, "invalid %s endpoint", providerName)
+	}
+	return strings.TrimRight(endpoint, "/"), nil
+}
+
+func requireAPIKey(apiKey string, providerName string) error {
+	if apiKey == "" {
+		return errors.Errorf("%s API key is required", providerName)
+	}
+	return nil
+}
@@ -0,0 +1,162 @@
+package ai
+
+import (
+	"context"
+	"io"
+	"mime"
+	"net/url"
+	"strings"
+
+	"github.com/pkg/errors"
+	"google.golang.org/genai"
+)
+
+const (
+	defaultGeminiEndpoint     = "https://generativelanguage.googleapis.com/v1beta"
+	geminiTranscriptionPrompt = `Transcribe the audio accurately. Return only the transcript text. Do not summarize, explain, or add content that is not spoken.`
+	maxGeminiInlineAudioSize  = 14 * 1024 * 1024
+	defaultGeminiAPIVersion   = "v1beta"
+	geminiProviderDisplayName = "Gemini"
+	geminiDefaultTemperature  = float32(0)
+)
+
+var geminiSupportedContentTypes = map[string]string{
+	"audio/wav":    "audio/wav",
+	"audio/x-wav":  "audio/wav",
+	"audio/mp3":    "audio/mp3",
+	"audio/mpeg":   "audio/mp3",
+	"audio/aiff":   "audio/aiff",
+	"audio/aac":    "audio/aac",
+	"audio/ogg":    "audio/ogg",
+	"audio/flac":   "audio/flac",
+	"audio/x-flac": "audio/flac",
+}
+
+type geminiTranscriber struct {
+	client *genai.Client
+}
+
+func newGeminiTranscriber(config ProviderConfig, options transcriberOptions) (*geminiTranscriber, error) {
+	endpoint, err := normalizeEndpoint(config.Endpoint, defaultGeminiEndpoint, geminiProviderDisplayName)
+	if err != nil {
+		return nil, err
+	}
+	if err := requireAPIKey(config.APIKey, geminiProviderDisplayName); err != nil {
+		return nil, err
+	}
+	baseURL, apiVersion, err := normalizeGeminiEndpoint(endpoint)
+	if err != nil {
+		return nil, err
+	}
+	httpOptions := genai.HTTPOptions{
+		BaseURL:    baseURL,
+		APIVersion: apiVersion,
+	}
+	if options.httpClient.Timeout > 0 {
+		timeout := options.httpClient.Timeout
+		httpOptions.Timeout = &timeout
+	}
+
+	client, err := genai.NewClient(context.Background(), &genai.ClientConfig{
+		APIKey:      config.APIKey,
+		Backend:     genai.BackendGeminiAPI,
+		HTTPClient:  options.httpClient,
+		HTTPOptions: httpOptions,
+	})
+	if err != nil {
+		return nil, errors.Wrap(err, "failed to create Gemini client")
+	}
+	return &geminiTranscriber{client: client}, nil
+}
+
+// Transcribe transcribes audio with Gemini generateContent.
+func (t *geminiTranscriber) Transcribe(ctx context.Context, request TranscribeRequest) (*TranscribeResponse, error) {
+	if strings.TrimSpace(request.Model) == "" {
+		return nil, errors.New("model is required")
+	}
+	if request.Audio == nil {
+		return nil, errors.New("audio is required")
+	}
+	audio, err := io.ReadAll(request.Audio)
+	if err != nil {
+		return nil, errors.Wrap(err, "failed to read audio")
+	}
+	if len(audio) == 0 {
+		return nil, errors.New("audio is required")
+	}
+	if len(audio) > maxGeminiInlineAudioSize {
+		return nil, errors.Errorf("audio is too large for Gemini inline transcription; maximum size is %d bytes", maxGeminiInlineAudioSize)
+	}
+
+	contentType, err := normalizeGeminiContentType(request.ContentType)
+	if err != nil {
+		return nil, err
+	}
+	prompt := buildGeminiTranscriptionPrompt(request.Prompt, request.Language)
+	temperature := geminiDefaultTemperature
+	response, err := t.client.Models.GenerateContent(ctx, normalizeGeminiModelName(request.Model), []*genai.Content{
+		genai.NewContentFromParts([]*genai.Part{
+			genai.NewPartFromBytes(audio, contentType),
+			genai.NewPartFromText(prompt),
+		}, genai.RoleUser),
+	}, &genai.GenerateContentConfig{
+		Temperature: &temperature,
+	})
+	if err != nil {
+		return nil, errors.Wrap(err, "failed to send Gemini transcription request")
+	}
+	text := strings.TrimSpace(response.Text())
+	if text == "" {
+		return nil, errors.New("Gemini transcription response did not include text")
+	}
+	return &TranscribeResponse{
+		Text: text,
+	}, nil
+}
+
+func normalizeGeminiEndpoint(endpoint string) (string, string, error) {
+	parsed, err := url.Parse(endpoint)
+	if err != nil {
+		return "", "", errors.Wrap(err, "invalid Gemini endpoint")
+	}
+	path := strings.TrimRight(parsed.Path, "/")
+	apiVersion := defaultGeminiAPIVersion
+	for _, supportedVersion := range []string{"v1alpha", "v1beta", "v1"} {
+		if path == "/"+supportedVersion || strings.HasSuffix(path, "/"+supportedVersion) {
+			apiVersion = supportedVersion
+			parsed.Path = strings.TrimSuffix(path, "/"+supportedVersion)
+			break
+		}
+	}
+	return strings.TrimRight(parsed.String(), "/"), apiVersion, nil
+}
+
+func normalizeGeminiContentType(contentType string) (string, error) {
+	mediaType, _, err := mime.ParseMediaType(strings.TrimSpace(contentType))
+	if err != nil {
+		return "", errors.Wrap(err, "invalid audio content type")
+	}
+	mediaType = strings.ToLower(mediaType)
+	normalized, ok := geminiSupportedContentTypes[mediaType]
+	if !ok {
+		return "", errors.Errorf("audio content type %q is not supported by Gemini", mediaType)
+	}
+	return normalized, nil
+}
+
+func buildGeminiTranscriptionPrompt(prompt string, language string) string {
+	parts := []string{geminiTranscriptionPrompt}
+	language = strings.TrimSpace(language)
+	if language != "" {
+		parts = append(parts, "The input language is "+language+".")
+	}
+	prompt = strings.TrimSpace(prompt)
+	if prompt != "" {
+		parts = append(parts, "Context and spelling hints:\n"+prompt)
+	}
+	return strings.Join(parts, "\n\n")
+}
+
+func normalizeGeminiModelName(model string) string {
+	return strings.TrimPrefix(strings.TrimSpace(model), "models/")
+}