¿Que es Big Data y como transforma el análisis de documentos?

¿Que es Big Data y como transforma el análisis de documentos?

De una manera muy general, Big Data es una tendencia actual utilizada para definir el análisis de información estructurada, semiestructurada y no estructurada de grandes cantidades de datos.

Anteriormente esta tendencia presentaba problemas técnicos y analíticos:

Los soportes de almacenamiento masivo solían ser extraibles. Esto impedía tener una visión horizontal de los datos almacenados.

La capacidad de procesamiento de los procesadores no era suficiente para acometer una tarea de semejante tamaño.

Las herramientas de almacenamiento y visualización de los análisis de datos no estaban preparadas para un almacenamiento multidimensional y no estructurado.

Debido al incremento de los recursos de computación y almacenamiento disponibles ahora es posible el análisis de contenido de documentos, transacciones comerciales, tendencias de navegación de los usuarios generando un perfil o informes sobre datos compartidos, referidos o asociados desde distintos tipos de procedencia.  De esta manera podríamos extraer la información relativa a actividad de una empresa, gustos y tendencias de consumo de los usuarios, conexiones empresariales, etc..

Aunque el incremento de los recursos de computación ha sido importante, el reto en el Big Data viene en el almacenamiento y visualización de los datos, no por la capacidad tecnológica, si no por la complejidad propia de los resultados obtenidos. Es decir, el resultado analítico de un mundo digital complejo no se puede almacenar en bases de datos estructuradas ni visualizarlos en los modelos típicos de minería de datos.

Aunque el análisis de hábitos de navegación, bases de datos e información estructurada hace mucho tiempo que se viene realizando en Big Data. Los documentos digitalizados o electrónicos han estado fuera debido a la gran dificultad que presentaba su semántica y análisis. Estos, no eran mas que imágenes de documentos físicos sin información ni contenido que no tenían mas utilidad que la de transmitir un documento o almacenar un documento idéntico en aspecto al existente en papel. Con las nuevas tecnologías aplicadas podemos obtener el contexto de un documento o interpretar su información para extraer un modelo de datos desestructurado para su análisis y posterior toma de decisiones.

El empeño del Big Data por el análisis de datos desestructurados ha promovido cambios sustanciales en los servicios de tratamiento de documentos. Por ejemplo los servicios de grabación de datos en los que un grupo nutrido de personas grababan manualmente información contenida en documentos se van transformando en Servicios de adquisición de datos (mas información->) mediante un proceso de digitalización y  análisis documental. Este proceso extrae información concreta de documentos independientemente de su formato, estructura o aspecto para la generación de una base de datos. Esto permite aumentar la productividad y reducir plazos y recursos utilizados de manera tradicional en un proyecto de grabación de datos.