Smart Data

El paso de la teoría a la práctica depende de cuán adecuada es la operacionalización de los conceptos y definiciones de la primera.

Smart Data, en la mayoría de los blogs, se considera como un proceso diferente al de Big Data, de apariencia más avanzada. Para nosotros, Smart Data es el producto mismo de Big Data. Mientras que Big Data es incluso un sistema de información, Smart Data es un subconjunto de datos e información descubierto y creado gracias a la operación de Big Data. Pero no es cualquier grupo de datos.

Algunos detalles sobre Big Data

Cuando detallamos qué es Big Data, llegamos, primero, a que es un cluster de tecnologías; segundo, a que es un proceso, incluso un paradigma, de análisis; y, finalmente, lo logramos entender como un sistema de información. Es decir, Big Data no se trata solo de computación (aunque la necesita sin duda alguna), sino de varios sistemas complejos, humanos y artificiales, trabajando y comunicándose entre sí. Así, Big Data es amplio, flexible y contextual y son estas características que hacen que pueda ser implementable en cualquier tipo de organización con sus particularidades propias.

A grandes rasgos, el flujo de información en Big Data consta de tres etapas que son: Capturar, ETL y Analizar. La primera etapa registra y almacena grandes volúmenes de datos, de clases y formas muy variadas, a alta velocidad. Estas actividades son susceptibles a errores y ruido por lo que no todo lo que se captura es veraz o posee valor. Es por ello que la segunda etapa provee, entre otras, las actividades de preprocesamiento cuyo objetivo es limpiar y mejorar la calidad de los datos (García et al, 2015). Finalmente, la última etapa, cuando se usa y aplica modelamiento avanzado, es la que identifica, descubre o crea Smart Data.

¿Qué es Smart Data?

Según Kalinin et al (2015), Smart Data es el resultado de cualquier máquina inteligente o algoritmo de Machine Learning siempre y cuando Big Data haya sido extendido a Deep Data. Deep Data es un nivel más complejo de Big Data que se alcanza cuando se incorporan resultados teóricos y científicos. Esto es posible, por ejemplo, en física, biología, genética, etc. en donde ya se disponen de sistemas inteligentes como las Physics-Informed Neural Networks (Raissi, 2019, Qian et al, 2020, Karniadakis et al, 2021, entre otros) para el estudio de sistemas dinámicos complejos.

Sin embargo, según esta definición, las demás áreas del conocimiento humano que no poseen conocimientos formales sólidos y robustos no podrían permitirse esta extensión de Big Data y en consecuencia no gozar del resultado y el valor de Smart Data.

Teorías Middle-Range

En ciencias sociales, las teorías Middle-Range permiten consolidar hipótesis esparcidas y regularidades empíricas en cuerpos de conocimiento no tan abstractos y de no tan largo alcance (Bailey, 1991). Dicho de otra manera, debido a que no existe un gran cuerpo teórico robusto en ciencias sociales, el método más común es comenzar por abordar fenómenos empíricos específicos, plantear hipótesis de su causalidad teórica y finalmente validarlas usando datos (Merton & Merton, 1986). Aunque este se parece mucho al método científico, su alcance es mucho más limitado en generalidad, de ahí su nombre.

Regresando a la búsqueda de Smart Data, la incorporación de las teorías Middle-Range es una posible solución para aquellas ciencias, ingenierías y áreas del saber que no poseen cuerpos teóricos científicos altamente desarrollados. Es decir, no se trata de procesar datos por procesar, es necesario observar los fenómenos que ocurren en el contexto, en el día a día de las organizaciones, definir modelos que expliquen relaciones causales entre variables y, sobretodo, con el sistema de información Big Data verificar que esas relaciones sean las adecuadas. En efecto, no es una tarea sencilla.

Las particularidades de Smart Data

Smart Data está entre los dos macro componentes de todo sistema de información: en el sistema humano y el sistema computacional. Smart Data puede ser identificado en base a tres características que giran alrededor de su veracidad y su valor (García-Gil, 2019). Estas características son:

  • Accuracy: calidad y precisión para generar valor organizacional.
  • Actionability: permite definir acciones escalables que maximicen un objetivo organizacional.
  • Agility: disponibilidad en tiempo real que permita la adaptación a las fluctuaciones del contexto organizacional.

Es decir, Smart Data está completamente arraigado a la organización y su contexto, ya que es altamente dependiente de su pertinencia para las personas que lo usan e interpretan. Si bien Smart Data se obtiene usando cuerpos teóricos para un modelamiento avanzado, este procedimiento garantiza su veracidad (sobre todo su accuracy). Mientras que su valor depende sin duda de las personas que toman decisiones (accuracy), fijan el rumbo (actionability) y conducen (agility) a la organización.

¿Para quién es Smart Data?

Nuevamente: para todo el equipo humano de la organización. Smart Data es lo más preciso posible, describe detalles operativos, tácticos y estratégicos de la organización. En efecto, no solo contiene valor estratégico, que permite fijar o adecuar los objetivos y políticas de largo plazo, sino también permite su operacionalización a cualquier grado de detalle, en cualquier departamento de la organización, a mediano y corto plazo.

En sí, la búsqueda de Smart Data es análoga a la de buscar una aguja en un pajar. Sin embargo, si damos con él, los beneficios organizacionales son inmensos. Su adquisición es difícil, pero no imposible. Demanda muchos recursos cognitivos y computacionales, pero sus características lo valen.  Finalmente, hay que tener claro que un grupo de datos que califica como Smart Data en una determinada organización, podría no serlo para otra.

Referencias

Bailey, K. D. (1991). Alternative procedures for macrosociological theorizing. Quality and Quantity, 25(1), 37-55.

García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining (Vol. 72). Cham, Switzerland: Springer International Publishing.

García-Gil, D., Luengo, J., García, S., & Herrera, F. (2019). Enabling smart data: noise filtering in big data classification. Information Sciences, 479, 135-152.

Kalinin, S. V., Sumpter, B. G., & Archibald, R. K. (2015). Big–deep–smart data in imaging for guiding materials design. Nature materials, 14(10), 973-980.

Karniadakis, G. E., Kevrekidis, I. G., Lu, L., Perdikaris, P., Wang, S., & Yang, L. (2021). Physics-informed machine learning. Nature Reviews Physics, 3(6), 422-440.

Merton, R. K., & Merton, R. C. (1968). Social theory and social structure. Simon and Schuster.

Qian, E., Kramer, B., Peherstorfer, B., & Willcox, K. (2020). Lift & Learn: Physics-informed machine learning for large-scale nonlinear dynamical systems. Physica D: Nonlinear Phenomena, 406, 132401.

Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 378, 686-707.

¿Quieres suscribirte a nuestro boletin mensual?

Si deseas recibir información de alto valor, puedes dejarnos tus datos y te enviaremos mensualmente nuestro boletín informativo con todas las noticias relacionadas a ciencia, economía, sociedad y tecnología.

Read More

Gestión del conocimiento y Big Data

Como habíamos señalado en nuestro anterior artículo sobre Big Data, “Todo proyecto de Big Data se guía en un interés claro por parte de la organización o individuo que requiere solucionar, o al menos esclarecer, un problema dado”. 

Esto permite considerar que los procesos en los que Big Data es necesario, son contextuales, incluso coyunturales, con respecto a la estrategia, los objetivos y las operaciones de una determinada organización.

En consecuencia, es importante considerar al Big Data como un eje de la Gestión de información y conocimiento. Pero antes, recordemos, primero, qué es conocimiento, información y datos; segundo, a qué hacemos referencia con el concepto de sistema de información; y, con todo esto, será más clara la relación entre Big Data y Gestión de información y conocimiento.

Datos-Información-Conocimiento

La relación datos-información-conocimiento es una relación incremental, evolutiva (Aduin et al, 2015; Javanmardi et al, 2021):

  • Los datos hacen referencia a mediciones o registros del comportamiento o estado de una entidad de la realidad. El dato es fijo, incambiable, por que fue observado y registrado por un instrumento adecuado; como se presentó.
  • Luego, los datos son transformados en información gracias a datos adicionales, llamados metadatos, que estructuran y moldean a los datos y que permiten interpretarlos por las personas. Es decir, la información, a grosso modo, son datos cargados de interpretación para una o más personas en un contexto personal, cultural y organizacional determinado.
  • Finalmente está el conocimiento que es producido, modificado, intercambiado y posiblemente eliminado, gracias al procesamiento neuronal de las personas. El conocimiento moviliza personas para realizar cualquier actividad que esté dentro de sus capacidades

¿Qué es un sistema de información?

Un sistema de información no es solo un sistema computacional. En efecto, esta errada concepción proviene de una visión puramente tecnológica que mira al conocimiento como un objeto independiente de la persona que lo crea y usa, y que por tanto puede ser almacenado y transmitido. Es más, este mismo paradigma define a la Gestión del conocimiento en términos de procesos computacionales y bases de datos.

Sin embargo, un sistema de información, junto a un sistema de conocimientos, incluye un subsistema computacional, y se encuentra inmerso dentro del contexto de un super-sistema socio-tecnológico de una organización con personas, equipos, actividades y procesos específicos. Este es el enfoque gerencial y sociológico de la Gestión de información y conocimiento (Grundstein et al, 2014; Arduin et al, 2015; Grundstein, 2019). Aquí, el centro del sistema completo lo componen las personas y el subsistema digital informático, que no pueden ser separados de su contexto organizacional.

Big Data - ATUK

Esquema adaptado de Grundstein (2019, p.11).

Un sistema de información está compuesto, entre otros, por un subsistema computacional que ayuda a la transmisión, almacenamiento y difusión de datos, que serán transformados en información, es decir, interpretados, por el equipo humano y que finalmente permitirá a las personas crear conocimiento.

Un sistema computacional asegura la consistencia del trabajo de un equipo de la organización. Este es un artefacto basado en datos, información, computación, telecomunicaciones e inteligencia artificial (Atif, 2017).

Un sistema de conocimientos consiste, por un lado, de todo el conocimiento encarnado en las personas y, por otro lado, del codificado en cualquier forma física (fotos, texto, video, audio, etc.). Solo el conocimiento de esta última categoría puede ser transmitido, almacenado, procesado y difundido por el sistema computacional.

En resumen, un sistema de información completo interconecta a las personas que, en un contexto dado, acceden y procesan datos, gracias a un sistema computacional, y los dan sentido bajo la forma de información. Parte de esta información puede ser transmitida, almacenada, procesada y difundida por las mismas personas o por el sistema computacional. Es decir, la información es más que datos y, gracias al sistema de conocimientos, el conocimiento es más que información.

Big Data es un Sistema de información

Big Data no es una tecnología simple, incluso es más que un proceso: es un sistema de información. En efecto, Big Data no se puede reducir a una nueva, o vieja, tecnología o incluso varias. Big Data no se realiza sin objetivos e intereses claros y bien definidos. Big Data requiere un entorno organizacional. Big Data es conducido por personas con la ayuda de sub-sistemas computacionales.

Las dos primeras etapas, Capturar y ETL, de Big Data como un proceso, han permitido la automatización de las tareas que más consumen recursos en el flujo de información. En 2016, Forbes reportó que la mayor parte (aprox. 80%) del esfuerzo de los analistas de datos se concentra en la preparación, limpieza y estructuración de datos. Este fenómeno sigue vigente, aunque con menor intensidad (aprox. 45%), según una encuesta realizada por Anaconda e informada por Datanami en 2020.

Sin embargo, la última etapa de Big Data, que es Analizar, nos permite observar que Big Data no puede ser completamente automatizable. En sí, esta etapa requiere los niveles cognitivos más profundos (Anderson & Krathwohl, 2001; Krathwohl, 2002) y por tanto la hace más dependiente de las capacidades y habilidades del equipo humano que consume los datos e información. Nos referimos a las capacidades analíticas, evaluativas y de creación de información. Un estudio empírico realizado por Harvard Business Review en 2018 muestra que las habilidades requeridas por los analistas no se centran en el uso de sistemas computacionales avanzados sino en el aprendizaje (humano) continuo coyuntural y la buena comunicación debido a que se requiere responder preguntas de interés organizacional explicando resultados complejos a actores no técnicos. Esto se refleja también en la actualidad en la encuesta de Anaconda (2020), en donde, cerca de un quinto del tiempo del analista (aprox. 21%) es invertido en la visualización de información. En fin, estos informes son confirmados por Dong & Triche (2020) que muestra que la bolsa de empleo de analistas de datos demandan cada vez más capacidades en la gestión y manejos de datos (aprox. 50%) y conocimientos estadísticos y capacidades de modelamiento y estructuración de datos (aprox. 50%).

En conclusión, una mirada detallada hacia Big Data nos revela que este trasciende las fronteras de un simple concepto o tecnología, supera la definición de paradigma teórico al encajar pertinentemente en el marco práctico de la Gestión del conocimiento como un sistema de información dotado de varios subsistemas computacionales y tecnológicos interoperables cuyo propósito es la efectiva difusión de datos hacia las personas adecuadas que los interpretarán y convertirán en información para, posteriormente, generar nuevo conocimiento personal y social, extendiendo sin duda el contexto organizacional en donde está inmerso.

Referencias

Anderson, L. W., & Krathwohl, D. R. (2001). A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman.

Arduin, P. E., Grundstein, M., & Rosenthal-Sabroux, C. (2015). Information and knowledge systems (Vol. 2). ISTE.

Atif, L. (2017). P©, une approche collaborative d’analyse des besoins et des exigences dirigée par les problèmes: le cas de développement d’une application Analytics RH (Doctoral dissertation, PSL Research University).

Dong, T. & Triche, J. (2020). A Longitudinal Analysis of Job Skills for Entry-Level Data Analysts. Journal of Information Systems Education, 31(4), 312-326.

Grundstein, M., Arduin, P. E., & Rosenthal-Sabroux, C. (2014). From Information System to Information and Knowledge System. In Italian Chapter of the Association for Information Systems (itAIS).

Grundstein, M. (2019). Toward Management Based on Knowledge. In Current Issues in Knowledge Management. IntechOpen.

Javanmardi, E., Liu, S., & Xie, N. (2021). Exploring the philosophical foundations of grey systems theory: Subjective processes, information extraction and knowledge formation. Foundations of Science, 26(2), 371-404.

Krathwohl, D. R. (2002). A revision of Bloom’s taxonomy: An overview. Theory into practice, 41(4), 212-218.

¿Quieres suscribirte a nuestro boletin mensual?

Si deseas recibir información de alto valor, puedes dejarnos tus datos y te enviaremos mensualmente nuestro boletín informativo con todas las noticias relacionadas a ciencia, economía, sociedad y tecnología.

Read More