JPMorgan ha presentado recientemente DocLLM, un modelo de lenguaje generativo transformador diseñado para la comprensión de documentos multimodal. Este modelo de IA representa un salto significativo en el análisis de documentos comerciales complejos como formularios, facturas, informes y contratos, que a menudo contienen una semántica intrincada en la intersección de modalidades textuales y espaciales.
DocLLM se destaca por evitar estratégicamente el uso de costosos codificadores de imágenes, a diferencia de los modelos de lenguaje grande (LLM) multimodales existentes. En cambio, se centra en la información del cuadro delimitador obtenida mediante el reconocimiento óptico de caracteres (OCR) para incorporar estructuras de diseño espacial. Este enfoque no sólo reduce los tiempos de procesamiento sino que apenas aumenta el tamaño del modelo, manteniendo la eficiencia de la arquitectura del decodificador causal. Esta decisión de diseño es crucial para hacer de DocLLM una herramienta ligera pero eficaz para el análisis de documentos.
Una innovación clave en DocLLM es su mecanismo de atención espacial desenredado, que altera el mecanismo de atención de los transformadores clásicos en un conjunto de matrices desenredadas. Este mecanismo permite que el modelo procese y alinee texto de manera efectiva con su diseño espacial correspondiente, mejorando su capacidad para comprender e interpretar documentos con diseños irregulares y contenido heterogéneo.
Para la capacitación previa, DocLLM emplea un objetivo de relleno, centrándose en aprender a rellenar segmentos de texto. Este método es especialmente adecuado para manejar documentos con segmentos de texto inconexos y diseños irregulares, que son comunes en documentos comerciales del mundo real. Luego, el conocimiento previamente entrenado de DocLLM se afina utilizando datos de instrucción de varios conjuntos de datos para atender diferentes tareas de inteligencia de documentos, como extracción de información, respuesta a preguntas, clasificación y más.
DocLLM ha demostrado un rendimiento excepcional en las evaluaciones, superando a los modelos de última generación en 14 de los 16 conjuntos de datos conocidos. También ha demostrado sólidas capacidades de generalización, con un buen rendimiento en 4 de 5 conjuntos de datos nunca antes vistos. Estos resultados resaltan el potencial de DocLLM en diversas tareas de inteligencia documental, lo que lo convierte en una herramienta prometedora para empresas y negocios. Su capacidad para desbloquear información de una amplia gama de documentos y automatizar el procesamiento y análisis de documentos es particularmente beneficiosa para las instituciones financieras y otras industrias con uso intensivo de documentos.
En resumen, DocLLM de JPMorgan representa un avance significativo en la comprensión de documentos impulsada por IA, ofreciendo un enfoque novedoso y eficiente para manejar las complejidades de los documentos empresariales. Su enfoque en el diseño espacial y la semántica del texto, junto con su diseño liviano y su potente rendimiento, lo convierten en un activo valioso en el ámbito de la IA de documentos.
Fuente de la imagen: Shutterstock