edit_square igindin

Docuvera: Documentos con AI que toman decisiones, no solo extracciones

Construimos una plataforma de documentos con AI que va más allá del OCR — modelos por dominio que convierten docs en decisiones de negocio

Ilya Gindin
translate de  · en  · fr  · pt-br  · ru
leer version ilao dzindin arrow_forward

Hay un momento que tiene todo negocio con mucha carga documental. Alguien sube un PDF, lo pasa por una herramienta de OCR, recibe de vuelta una pared de texto, y luego… ¿ahora qué?

La herramienta hizo su trabajo. Obtuviste los datos. Pero todavía tienes que descubrir qué significan, si están en conformidad, qué hacer a continuación. Eso no es automatización. Es transcripción con pasos adicionales.

Esa realización es lo que llevó a Docuvera.

Lo que las herramientas existentes hacen mal

AWS Textract y Google Document AI son genuinamente buenos en lo que hacen. Extraen texto de documentos con buena precisión. Manejan tablas, formularios, firmas. Son rápidos y escalan.

Pero la extracción es el paso uno de cinco.

El paso dos es entender el contexto — ¿es esto un registro médico o un contrato legal? El paso tres es la validación — ¿coincide esto con el esquema que realmente te importa? El paso cuatro es el marcado — ¿qué falta, qué está mal, qué necesita revisión humana? El paso cinco es el enrutamiento — ¿a dónde va esta información, y qué acción desencadena?

Las herramientas de OCR commodity se detienen en el paso uno y te pasan el resto. Para un equipo pequeño que procesa unos cientos de documentos al mes, eso es manejable. Para una empresa con miles de páginas por semana en múltiples tipos de documentos en múltiples entornos regulatorios, es un cuello de botella que nunca desaparece.

Qué hace Docuvera diferente

La apuesta central: la inteligencia de dominio es más valiosa que la extracción genérica.

Un formulario de admisión médica no es lo mismo que un reclamo de seguro, incluso si ambos son PDFs con casillas de verificación y firmas. Los campos que importan son diferentes. Las reglas de validación son diferentes. Los requisitos de conformidad son diferentes.

Así que en lugar de construir un modelo que lo lee todo de forma genérica, construimos 12 especializaciones verticales — salud, legal, finanzas, logística, construcción, manufactura y más. Cada modelo está pre-entrenado con datos específicos del dominio. Sabe cómo se ve un código CPT válido. Sabe la diferencia entre una orden de compra y un recibo de entrega.

Cuando Docuvera procesa un documento, emite datos estructurados con puntajes de confianza, marca anomalías contra las reglas del dominio, verifica los requisitos de conformidad, y enruta el resultado al flujo de trabajo correcto. Eso es lo que significa “decisiones, no extracción” en la práctica.

Cómo lo construimos

El problema de los datos de entrenamiento fue la parte más difícil.

No puedes entrenar un modelo de documentos de salud con texto genérico. Necesitas registros médicos reales, formularios de admisión, solicitudes de autorización previa — suficientes de ellos, con suficiente variación, para construir algo que generalice. Terminamos con millones de puntos de datos específicos de dominio en los 12 verticales. Obtener, limpiar, etiquetar y estructurar eso para el entrenamiento llevó más tiempo que construir el pipeline de inferencia.

La arquitectura es un pipeline de múltiples etapas. Primera pasada: clasificación del documento — qué tipo de documento es este, qué modelo vertical aplica. Segunda pasada: extracción de campos usando el modelo específico del vertical. Tercera pasada: validación contra las reglas del dominio. Cuarta pasada: puntaje de confianza y marcado de anomalías. Quinta pasada: formateo del output y enrutamiento.

Cada etapa es ajustable independientemente. Si los documentos de un cliente tienen peculiaridades específicas, podemos hacer fine-tuning a nivel del modelo vertical sin tocar el pipeline principal.

La velocidad de procesamiento fue una restricción que tomamos en serio. Alrededor de 2 segundos por página a escala de producción. Ese es el rendimiento promedio bajo carga, no un benchmark de un solo documento. Para un equipo que procesa miles de páginas al día, los números importan.

Números reales

Las métricas que terminaron importando más:

~95% de precisión en la extracción de campos en todos los verticales. Ese número importa menos como titular y más como piso — el puntaje de confianza captura el resto y lo enruta a revisión humana en lugar de pasar datos malos silenciosamente.

~2 segundos por página de tiempo de procesamiento promedio. Lo suficientemente rápido como para que el procesamiento de documentos deje de ser un problema de programación.

~4.5 horas por semana ahorradas por empleado que antes tocaba documentos manualmente.

El ángulo de conformidad

Las industrias reguladas no solo quieren extracción precisa — necesitan una pista de auditoría.

El GDPR requiere saber qué datos personales existen en tus documentos, de dónde vienen, y quién los tocó. OSHA requiere formatos de registro específicos y políticas de retención. La salud tiene HIPAA. Las finanzas tienen una docena de marcos superpuestos.

Incorporar la conciencia de conformidad en el pipeline de procesamiento, no como un añadido, cambió el producto significativamente. Docuvera marca PII automáticamente, registra cada paso de procesamiento con timestamps y versiones del modelo, y produce informes de conformidad como output de primera clase.

Esto resultó ser un diferenciador mayor que los números de precisión. Las empresas en industrias reguladas no solo quieren un procesador de documentos más rápido — quieren uno que puedan auditar.

Lo que aprendí

Los problemas técnicos eran difíciles. El problema del conocimiento del dominio fue más difícil.

Puedes contratar ingenieros para construir un pipeline. No puedes acortar el proceso de entender realmente 12 industrias lo suficientemente bien como para construir modelos que sean útiles en producción. Eso requirió hablar con cientos de profesionales — facturadores médicos, coordinadores de logística, gerentes de proyectos de construcción — y entender no solo qué documentos procesan sino por qué ciertos campos importan.

La precisión no es el objetivo. La calidad de la decisión es el objetivo. Un sistema que extrae el 99% de los campos correctamente pero enruta el output al flujo de trabajo incorrecto es peor que inútil.

La inteligencia de dominio se compone. Cada especialización vertical hace que las adyacentes sean más fáciles de construir. El foso no es la arquitectura del pipeline — es la comprensión del dominio embebida en los modelos.

← arrow keys or swipe →