Extracción automatizada del dato

INTELLIGENT DOCUMENT PROCESSING (IDP)

Hay un buen número de operaciones en las que las empresas necesitan procesar los datos extraídos de todo tipo de documentos (escaneados o no) y trabajar con ellos. Una información que deben almacenar o integrar para su uso en sus sistemas internos (ERP). El empleo de tecnologías de inteligencia artificial —como la computer vision, el procesamiento del lenguaje natural (PLN) o el machine learning— hará mucho más eficientes y seguros estos procesos.

A la hora de poner en marcha tecnologías relacionadas con la digitalización y la automatización, una de las áreas de mejora evidentes es la búsqueda de la eficiencia. En toda esta vorágine de rapidez, de la reducción del time-to-market para ser más competitivos, existen algunos procesos donde las personas aún somos más inteligentes y rápidas que las máquinas, uno de ellos es el reconocimiento de documentos. Las compañías siguen recibiendo miles de certificados, credenciales o escrituras procedentes de diferentes fuentes y con múltiples formatos, que los empleados deben recibir y clasificar, para después realizar una serie de acciones en función de su contenido.

La actual tecnología OCR ha sido la encargada de con­vertir a texto editable todo tipo de documentos escaneados, fotografías, etc. Pero hay que tener en cuenta que esta tec­nología funciona siempre que se cumplan una serie de condi­cionantes:

  • Contar con buena calidad en el origen, con caracteres fácilmente reconocibles y perfectamente ali­neados.
  • El texto debe ser estructurado o semiestructurado para permitir la extracción de patrones. Por ejemplo: DNI: <texto>.

Esta tecnología permite realizar tareas básicas de extracción basadas en patrones de texto o plantilla que configuran determinadas áreas del documento.

La IDP simula el comportamiento humano en los procesos de extracción de datos

USO DE LA INTELIGENCIA ARTIFICIAL

Al leer un documento, las personas cumplimos una serie de pasos. Generalmente realizamos una composición espacial de la página para identificar los puntos donde puede estar la información. Después centramos el foco en cada una de estas áreas para extraer información relevante, aquella que nos llama la atención (negritas, etc.). Por último, pasamos a identificar los valores extraídos o a asignarles un contexto.

El IDP (intelligent document processing o procesado inteligente de documentos) busca simular el comportamiento humano en los procesos de extracción de datos relevantes de documentos, utilizando técnicas y herramientas de inteligencia artificial.

La primera de ellas es la computer vision. Se trata de una tecnología que permite adquirir, procesar, analizar y comprender las imágenes para que puedan ser procesadas. Mediante potentes herramientas y algoritmos de tratamiento de imágenes, consigue preparar los documentos de modo que desaparezcan el ruido y las imperfecciones, para así facilitar el proceso de reconocimiento. Para lograrlo, se van ajustando parámetros tales como la calidad, el contraste o el zoom hasta alcanzar el grado de “legibilidad” óptimo. Este es un paso clave y el resto del proceso depende de su correcta aplicación. Esto es lo que garantizará el éxito de la extracción.

Esta fase exige una elevada capacidad de cómputo, necesaria para el tratamiento de imágenes, sobre todo cuando se trata de ficheros con una alta calidad o de gran tamaño. Realizar eficientemente este paso garantizará unos tiempos de respuesta adecuados para todo el proceso.

CLASIFICAR, EXTRAER E IDENTIFICAR

En el siguiente paso, el de clasificación y extracción, es en el que se aplica la inteligencia artificial para buscar —dentro de los documentos— determinados patrones de texto o visuales para identificar los diferentes tipos de campos. Algunos ejemplos:

  • Campos libres, que pueden contener datos de identificación.
  • Encasillados, como pueden ser los códigos postales.
  • De selección, representados por cuadros vacíos o bullets.
  • En esta fase es muy importante, además de disponer de un buen conjunto de datos con la suficiente calidad, el entrenamiento de la solución. Realizar un buen número de pruebas con diferentes documentos ayuda a corregir y ajustar el modelo para mejorar su precisión. Con un entrenamiento adecuado podemos salvar situaciones relacionadas con:
  • Texto “sucio”, con la grafía poco clara o con un fondo que pueda distorsionarla.
  • Rayado, lo que podría dificultar su correcta lectura.
  • Con imperfecciones en el papel, arrugas, etc.
  • El siguiente paso es la identificación. Se trata de asignar una etiqueta a cada valor extraído: dirección, código postal, NIF, etc. Este último paso viene apoyado por un proceso de normalización o calidad del dato, que corrige la información recuperada para devolver datos fiables al servicio que los consume.

La fase de normalización se apoya en un modelo de autoaprendizaje, que permite al sistema incrementar la calidad de las extracciones con formatos similares al normalizado.

CASOS DE USO

Un ejemplo real del uso de estas tecnologías está en una empresa del sector utility, que cuenta con miles de trabajadores y que recibe una gran cantidad de partes de baja/alta médica al año, documentos que los empleados del área de recursos humanos tienen que incorporar a los sistemas. Debido a la descentralización de las competencias en las comunidades autónomas, estos partes tienen una gran variedad de formatos. Con una herramienta IDP pueden reconocer los campos clave necesarios con independencia del origen. Todo ello con un mínimo esfuerzo de configuración.

Otro ejemplo típico es la extracción de información de una factura, pedido o albarán. En este caso, existen miles de formatos de facturas, tantas como proveedores. Una herramienta IDP evita generar plantillas para todos estos formatos, ya que, aplicando inteligencia artificial, es capaz de extraer la información relevante en la mayoría de ellos.

Reexdoc

Desde PFS Tech hemos lanzado recientemente Reexdoc, una herramienta IDP que permite, de forma automatizada, reconocer documentos y extraer información relevante de ellos, con elevados niveles de fiabilidad y precisión.

  • Soporta varios tipos de documentos (facturas, albaranes, partes médicos, etc.) con la posibilidad de extender y ampliar a nuevos tipos de forma sencilla.
  • Utiliza machine learning para identificar el campo y la extracción de los datos.
  • Fiabilidad aproximada del 90%.
  • Modelos entrenados por etiqueta asociados a cada tipo de documento.
  • Extracción de campos principales, con la posibilidad de incorporar nuevos personalizados.
  • Segura (no almacena documentos).
  • Mejora la precisión al realizar la optimización del documento antes del procesado.
  • Construido sobre tecnología open source, lo que reduce el coste de la implementación.
  • Plugins específicos para el cliente.
  • Se integra con herramientas de RPA u otras aplicaciones mediante API.
  • No está basado en plantillas, lo que aporta gran escalabilidad y flexibilidad.
  • Despliegue e implementación en modelos cloud y on-premise.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *