Tres problemas, tres trade-offs
Los voice updates parecen fáciles hasta que empiezas. Tres problemas saltaron:
- Latencia. Los ingenieros no esperan 8 segundos por la transcripción.
- Precisión. Los identificadores de código (
useEffect,gRPC) hacen tropezar a cualquier modelo off-the-shelf. - Storage. Un WAV de 90 segundos son 1,5MB. Con 2.400 equipos, a diario, eso es mucho S3.
Qué hicimos
- Whisper en streaming en lugar de batch — las primeras palabras aparecen en 200ms.
- Prompt de glosario cargado por workspace — atrapó los identificadores de código.
- Re-encode a Opus + expiración a 30 días — recortó storage 9×.
Qué viene
Diarización de hablantes. Ahora Loop asume una voz por update. Para updates en pareja queremos atribuir los dos nombres automáticamente. Ship estimado: Q3.
RC
por Renzo Castellanos
Staff Engineer, Loop

