Category: Inteligencia Artificial

Smart Data

El paso de la teoría a la práctica depende de cuán adecuada es la operacionalización de los conceptos y definiciones de la primera.

Smart Data, en la mayoría de los blogs, se considera como un proceso diferente al de Big Data, de apariencia más avanzada. Para nosotros, Smart Data es el producto mismo de Big Data. Mientras que Big Data es incluso un sistema de información, Smart Data es un subconjunto de datos e información descubierto y creado gracias a la operación de Big Data. Pero no es cualquier grupo de datos.

Algunos detalles sobre Big Data

Cuando detallamos qué es Big Data, llegamos, primero, a que es un cluster de tecnologías; segundo, a que es un proceso, incluso un paradigma, de análisis; y, finalmente, lo logramos entender como un sistema de información. Es decir, Big Data no se trata solo de computación (aunque la necesita sin duda alguna), sino de varios sistemas complejos, humanos y artificiales, trabajando y comunicándose entre sí. Así, Big Data es amplio, flexible y contextual y son estas características que hacen que pueda ser implementable en cualquier tipo de organización con sus particularidades propias.

A grandes rasgos, el flujo de información en Big Data consta de tres etapas que son: Capturar, ETL y Analizar. La primera etapa registra y almacena grandes volúmenes de datos, de clases y formas muy variadas, a alta velocidad. Estas actividades son susceptibles a errores y ruido por lo que no todo lo que se captura es veraz o posee valor. Es por ello que la segunda etapa provee, entre otras, las actividades de preprocesamiento cuyo objetivo es limpiar y mejorar la calidad de los datos (García et al, 2015). Finalmente, la última etapa, cuando se usa y aplica modelamiento avanzado, es la que identifica, descubre o crea Smart Data.

¿Qué es Smart Data?

Según Kalinin et al (2015), Smart Data es el resultado de cualquier máquina inteligente o algoritmo de Machine Learning siempre y cuando Big Data haya sido extendido a Deep Data. Deep Data es un nivel más complejo de Big Data que se alcanza cuando se incorporan resultados teóricos y científicos. Esto es posible, por ejemplo, en física, biología, genética, etc. en donde ya se disponen de sistemas inteligentes como las Physics-Informed Neural Networks (Raissi, 2019, Qian et al, 2020, Karniadakis et al, 2021, entre otros) para el estudio de sistemas dinámicos complejos.

Sin embargo, según esta definición, las demás áreas del conocimiento humano que no poseen conocimientos formales sólidos y robustos no podrían permitirse esta extensión de Big Data y en consecuencia no gozar del resultado y el valor de Smart Data.

Teorías Middle-Range

En ciencias sociales, las teorías Middle-Range permiten consolidar hipótesis esparcidas y regularidades empíricas en cuerpos de conocimiento no tan abstractos y de no tan largo alcance (Bailey, 1991). Dicho de otra manera, debido a que no existe un gran cuerpo teórico robusto en ciencias sociales, el método más común es comenzar por abordar fenómenos empíricos específicos, plantear hipótesis de su causalidad teórica y finalmente validarlas usando datos (Merton & Merton, 1986). Aunque este se parece mucho al método científico, su alcance es mucho más limitado en generalidad, de ahí su nombre.

Regresando a la búsqueda de Smart Data, la incorporación de las teorías Middle-Range es una posible solución para aquellas ciencias, ingenierías y áreas del saber que no poseen cuerpos teóricos científicos altamente desarrollados. Es decir, no se trata de procesar datos por procesar, es necesario observar los fenómenos que ocurren en el contexto, en el día a día de las organizaciones, definir modelos que expliquen relaciones causales entre variables y, sobretodo, con el sistema de información Big Data verificar que esas relaciones sean las adecuadas. En efecto, no es una tarea sencilla.

Las particularidades de Smart Data

Smart Data está entre los dos macro componentes de todo sistema de información: en el sistema humano y el sistema computacional. Smart Data puede ser identificado en base a tres características que giran alrededor de su veracidad y su valor (García-Gil, 2019). Estas características son:

  • Accuracy: calidad y precisión para generar valor organizacional.
  • Actionability: permite definir acciones escalables que maximicen un objetivo organizacional.
  • Agility: disponibilidad en tiempo real que permita la adaptación a las fluctuaciones del contexto organizacional.

Es decir, Smart Data está completamente arraigado a la organización y su contexto, ya que es altamente dependiente de su pertinencia para las personas que lo usan e interpretan. Si bien Smart Data se obtiene usando cuerpos teóricos para un modelamiento avanzado, este procedimiento garantiza su veracidad (sobre todo su accuracy). Mientras que su valor depende sin duda de las personas que toman decisiones (accuracy), fijan el rumbo (actionability) y conducen (agility) a la organización.

¿Para quién es Smart Data?

Nuevamente: para todo el equipo humano de la organización. Smart Data es lo más preciso posible, describe detalles operativos, tácticos y estratégicos de la organización. En efecto, no solo contiene valor estratégico, que permite fijar o adecuar los objetivos y políticas de largo plazo, sino también permite su operacionalización a cualquier grado de detalle, en cualquier departamento de la organización, a mediano y corto plazo.

En sí, la búsqueda de Smart Data es análoga a la de buscar una aguja en un pajar. Sin embargo, si damos con él, los beneficios organizacionales son inmensos. Su adquisición es difícil, pero no imposible. Demanda muchos recursos cognitivos y computacionales, pero sus características lo valen.  Finalmente, hay que tener claro que un grupo de datos que califica como Smart Data en una determinada organización, podría no serlo para otra.

Referencias

Bailey, K. D. (1991). Alternative procedures for macrosociological theorizing. Quality and Quantity, 25(1), 37-55.

García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining (Vol. 72). Cham, Switzerland: Springer International Publishing.

García-Gil, D., Luengo, J., García, S., & Herrera, F. (2019). Enabling smart data: noise filtering in big data classification. Information Sciences, 479, 135-152.

Kalinin, S. V., Sumpter, B. G., & Archibald, R. K. (2015). Big–deep–smart data in imaging for guiding materials design. Nature materials, 14(10), 973-980.

Karniadakis, G. E., Kevrekidis, I. G., Lu, L., Perdikaris, P., Wang, S., & Yang, L. (2021). Physics-informed machine learning. Nature Reviews Physics, 3(6), 422-440.

Merton, R. K., & Merton, R. C. (1968). Social theory and social structure. Simon and Schuster.

Qian, E., Kramer, B., Peherstorfer, B., & Willcox, K. (2020). Lift & Learn: Physics-informed machine learning for large-scale nonlinear dynamical systems. Physica D: Nonlinear Phenomena, 406, 132401.

Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 378, 686-707.

¿Quieres suscribirte a nuestro boletin mensual?

Si deseas recibir información de alto valor, puedes dejarnos tus datos y te enviaremos mensualmente nuestro boletín informativo con todas las noticias relacionadas a ciencia, economía, sociedad y tecnología.

Read More

Gestión del conocimiento y Big Data

Como habíamos señalado en nuestro anterior artículo sobre Big Data, “Todo proyecto de Big Data se guía en un interés claro por parte de la organización o individuo que requiere solucionar, o al menos esclarecer, un problema dado”. 

Esto permite considerar que los procesos en los que Big Data es necesario, son contextuales, incluso coyunturales, con respecto a la estrategia, los objetivos y las operaciones de una determinada organización.

En consecuencia, es importante considerar al Big Data como un eje de la Gestión de información y conocimiento. Pero antes, recordemos, primero, qué es conocimiento, información y datos; segundo, a qué hacemos referencia con el concepto de sistema de información; y, con todo esto, será más clara la relación entre Big Data y Gestión de información y conocimiento.

Datos-Información-Conocimiento

La relación datos-información-conocimiento es una relación incremental, evolutiva (Aduin et al, 2015; Javanmardi et al, 2021):

  • Los datos hacen referencia a mediciones o registros del comportamiento o estado de una entidad de la realidad. El dato es fijo, incambiable, por que fue observado y registrado por un instrumento adecuado; como se presentó.
  • Luego, los datos son transformados en información gracias a datos adicionales, llamados metadatos, que estructuran y moldean a los datos y que permiten interpretarlos por las personas. Es decir, la información, a grosso modo, son datos cargados de interpretación para una o más personas en un contexto personal, cultural y organizacional determinado.
  • Finalmente está el conocimiento que es producido, modificado, intercambiado y posiblemente eliminado, gracias al procesamiento neuronal de las personas. El conocimiento moviliza personas para realizar cualquier actividad que esté dentro de sus capacidades

¿Qué es un sistema de información?

Un sistema de información no es solo un sistema computacional. En efecto, esta errada concepción proviene de una visión puramente tecnológica que mira al conocimiento como un objeto independiente de la persona que lo crea y usa, y que por tanto puede ser almacenado y transmitido. Es más, este mismo paradigma define a la Gestión del conocimiento en términos de procesos computacionales y bases de datos.

Sin embargo, un sistema de información, junto a un sistema de conocimientos, incluye un subsistema computacional, y se encuentra inmerso dentro del contexto de un super-sistema socio-tecnológico de una organización con personas, equipos, actividades y procesos específicos. Este es el enfoque gerencial y sociológico de la Gestión de información y conocimiento (Grundstein et al, 2014; Arduin et al, 2015; Grundstein, 2019). Aquí, el centro del sistema completo lo componen las personas y el subsistema digital informático, que no pueden ser separados de su contexto organizacional.

Big Data - ATUK

Esquema adaptado de Grundstein (2019, p.11).

Un sistema de información está compuesto, entre otros, por un subsistema computacional que ayuda a la transmisión, almacenamiento y difusión de datos, que serán transformados en información, es decir, interpretados, por el equipo humano y que finalmente permitirá a las personas crear conocimiento.

Un sistema computacional asegura la consistencia del trabajo de un equipo de la organización. Este es un artefacto basado en datos, información, computación, telecomunicaciones e inteligencia artificial (Atif, 2017).

Un sistema de conocimientos consiste, por un lado, de todo el conocimiento encarnado en las personas y, por otro lado, del codificado en cualquier forma física (fotos, texto, video, audio, etc.). Solo el conocimiento de esta última categoría puede ser transmitido, almacenado, procesado y difundido por el sistema computacional.

En resumen, un sistema de información completo interconecta a las personas que, en un contexto dado, acceden y procesan datos, gracias a un sistema computacional, y los dan sentido bajo la forma de información. Parte de esta información puede ser transmitida, almacenada, procesada y difundida por las mismas personas o por el sistema computacional. Es decir, la información es más que datos y, gracias al sistema de conocimientos, el conocimiento es más que información.

Big Data es un Sistema de información

Big Data no es una tecnología simple, incluso es más que un proceso: es un sistema de información. En efecto, Big Data no se puede reducir a una nueva, o vieja, tecnología o incluso varias. Big Data no se realiza sin objetivos e intereses claros y bien definidos. Big Data requiere un entorno organizacional. Big Data es conducido por personas con la ayuda de sub-sistemas computacionales.

Las dos primeras etapas, Capturar y ETL, de Big Data como un proceso, han permitido la automatización de las tareas que más consumen recursos en el flujo de información. En 2016, Forbes reportó que la mayor parte (aprox. 80%) del esfuerzo de los analistas de datos se concentra en la preparación, limpieza y estructuración de datos. Este fenómeno sigue vigente, aunque con menor intensidad (aprox. 45%), según una encuesta realizada por Anaconda e informada por Datanami en 2020.

Sin embargo, la última etapa de Big Data, que es Analizar, nos permite observar que Big Data no puede ser completamente automatizable. En sí, esta etapa requiere los niveles cognitivos más profundos (Anderson & Krathwohl, 2001; Krathwohl, 2002) y por tanto la hace más dependiente de las capacidades y habilidades del equipo humano que consume los datos e información. Nos referimos a las capacidades analíticas, evaluativas y de creación de información. Un estudio empírico realizado por Harvard Business Review en 2018 muestra que las habilidades requeridas por los analistas no se centran en el uso de sistemas computacionales avanzados sino en el aprendizaje (humano) continuo coyuntural y la buena comunicación debido a que se requiere responder preguntas de interés organizacional explicando resultados complejos a actores no técnicos. Esto se refleja también en la actualidad en la encuesta de Anaconda (2020), en donde, cerca de un quinto del tiempo del analista (aprox. 21%) es invertido en la visualización de información. En fin, estos informes son confirmados por Dong & Triche (2020) que muestra que la bolsa de empleo de analistas de datos demandan cada vez más capacidades en la gestión y manejos de datos (aprox. 50%) y conocimientos estadísticos y capacidades de modelamiento y estructuración de datos (aprox. 50%).

En conclusión, una mirada detallada hacia Big Data nos revela que este trasciende las fronteras de un simple concepto o tecnología, supera la definición de paradigma teórico al encajar pertinentemente en el marco práctico de la Gestión del conocimiento como un sistema de información dotado de varios subsistemas computacionales y tecnológicos interoperables cuyo propósito es la efectiva difusión de datos hacia las personas adecuadas que los interpretarán y convertirán en información para, posteriormente, generar nuevo conocimiento personal y social, extendiendo sin duda el contexto organizacional en donde está inmerso.

Referencias

Anderson, L. W., & Krathwohl, D. R. (2001). A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman.

Arduin, P. E., Grundstein, M., & Rosenthal-Sabroux, C. (2015). Information and knowledge systems (Vol. 2). ISTE.

Atif, L. (2017). P©, une approche collaborative d’analyse des besoins et des exigences dirigée par les problèmes: le cas de développement d’une application Analytics RH (Doctoral dissertation, PSL Research University).

Dong, T. & Triche, J. (2020). A Longitudinal Analysis of Job Skills for Entry-Level Data Analysts. Journal of Information Systems Education, 31(4), 312-326.

Grundstein, M., Arduin, P. E., & Rosenthal-Sabroux, C. (2014). From Information System to Information and Knowledge System. In Italian Chapter of the Association for Information Systems (itAIS).

Grundstein, M. (2019). Toward Management Based on Knowledge. In Current Issues in Knowledge Management. IntechOpen.

Javanmardi, E., Liu, S., & Xie, N. (2021). Exploring the philosophical foundations of grey systems theory: Subjective processes, information extraction and knowledge formation. Foundations of Science, 26(2), 371-404.

Krathwohl, D. R. (2002). A revision of Bloom’s taxonomy: An overview. Theory into practice, 41(4), 212-218.

¿Quieres suscribirte a nuestro boletin mensual?

Si deseas recibir información de alto valor, puedes dejarnos tus datos y te enviaremos mensualmente nuestro boletín informativo con todas las noticias relacionadas a ciencia, economía, sociedad y tecnología.

Read More

¿Qué es Big Data?

Big Data es el concepto que describe todos los esfuerzos para capturar, almacenar, gestionar y analizar información [1,5]. El término no sólo hace referencia a grandes volúmenes de datos sino también a la alta velocidad a la cual los datos son capturados y cuya gran variedad [1] no permite una integración inmediata [2]. Además, el propósito de su análisis es descubrir conocimiento e identificar valor relevante en un contexto incierto por lo que la veracidad, es decir, la precisión y la consistencia, de los datos no está asegurada [4]. Big Data hace referencia entonces a datos secundarios, en el sentido de que ellos no están relacionados normalmente a algún objetivo de investigación, como por ejemplo, los datos obtenidos de procesos administrativos [5]. En otras palabras, este tipo de datos se encuentran, no se generan de acuerdo a un objetivo de investigación bien definido [6], sin instrumentos o métodos diseñados para obtenerlos de manera fiable para su uso científico [5]. Entonces Big Data se puede entender como un proceso.

El proceso completo de Big Data se presenta en la Ilustración 1. Se comienza por la captura de los datos a partir de varias fuentes de gran variedad y de diferente flujo, se continúa con los pasos de extracción, transformación y carga de información relevante, para luego iniciar la etapa de análisis, que comprende el filtrado y el muestreo de datos con el fin de procesarlos computacionalmente y visualmente [5].

Que es Big Data - ATUK

Ilustración 1. El proceso de Big Data.

Múltiples tecnologías, algoritmos, métodos y modelos son usados en Big Data con el fin de entender relaciones entre variables y explorar sobre los datos [3]. Las técnicas más desarrolladas son aquellas basadas en aprendizaje, como Machine Learning, Deep Learning, Data stream learning, etc. Con aprendizaje nos referimos a la capacidad que tienen los algoritmos computacionales para mejorar automáticamente a través de la experiencia [7]. La experiencia está incrustada en los datos por lo cual todo algoritmo deberá extraer las características de operación que están codificadas en dicha experiencia. Claramente es una definición abstracta y requiere de un contexto bien definido para ser operacionalizada.

¿Quiénes hacen Big Data?

Los actores, y su interacción, requeridos para llevar a cabo el proceso de Big Data se muestran en la Ilustración 2. La parte tecnológica y computacional está a cargo de ingenieros y arquitectos informáticos y matemáticos y estadístas. La parte de análisis incorpora expertos de la materia guiados por un equipo de investigación los cuales, todos, permitirán dar sentido a los datos y a los resultados del proceso de Big Data [5].

Que es Big Data - ATUK

Ilustración 2. Actores y su interacción en Big Data.

¿Por qué Big Data?

Por una nueva relación con la naturaleza. Big Data ha impactado notablemente en la investigación basada en datos en donde la eficiencia energética domina el área de interés de su uso seguido de agricultura inteligente, evaluación de desastres naturales, ciudades inteligentes y sostenibilidad [12].

Por una nueva economía. La economía centrada en los datos favorece la creación, captura y análisis de datos, como forma de mejorar la productividad y de incrementar los ingresos [10]. En efecto, la incorporación de Big Data en las empresas emerge como frente de innovación y competitividad a los retos y oportunidades que nacen de la revolución de la información [9].

Por una nueva forma de gobernanza. El uso de Big Data en el sector público puede ayudar a los gobiernos a mejorar el diseño de políticas y la prestación de servicios. La disponibilidad y el cruce de información gubernamental es esencial para entender y descubrir patrones de manera profunda y acertada. Además, el involucramiento de los principales actores dentro y fuera del gobierno es un importante factor para asegurar el acceso a información relevante y actualizada [1, 11].

Más allá de Big Data

Aunque la economía centrada en datos crea un lazo de retroalimentación operativa y estratégica, la acumulación por si sola de los datos no permitiría un crecimiento sostenido; esta economía requiere de innovación y de desarrollo tecnológico más avanzado [10].

Una posible corriente es la economía circular guiada por la Industria 4.0 que incluye a los sistemas ciber-físicos, Internet de las cosas (IoT), Cloud Computing y herramientas de computación cognitiva que van mucho más allá del Machine Learning que conocemos actualmente [9].

 

Luego, si bien el proceso de captura, almacenamiento y procesamiento de datos es lo más visible en Big Data, esto nos da una ilusión de que hemos llegado al estudio propio de toda la población [11]. Sin embargo, la exhaustividad en la captura de datos no es el objetivo de Big Data. Todo proyecto de Big Data se guía en un interés claro por parte de la organización o individuo que requiere solucionar, o al menos esclarecer, un problema dado.

 A manera de conclusión, Big Data no es una simple tecnología ni es solo un concepto integrado de tecnologías. Big Data es un proceso económico, ambiental y tecnológico que permite a cualquier organización mejorar su impacto humano, ambiental y productivo tomando decisiones informadas acerca de sus procesos internos y de su influencia desde y hacia su contexto.

Referencias

[1] Tomar, L., Guicheney, W., Kyarisiima, H., Zimani, T., Roseth, B., & Acevedo, S. (2016). Big Data in the Public Sector. Inter_Amercian Developmnet Bank. 

[2] Vijaylakshmi, S., & Priyadarshini, J. (2015). Big data analysis based on mathematical model: A comprehensive survey. J. Eng. Appl. Sci., 10(5), 2103-2107. 

[3] Oussous, A., Benjelloun, F. Z., Lahcen, A. A., & Belfkih, S. (2018). Big Data technologies: A survey. Journal of King Saud University-Computer and Information Sciences, 30(4), 431-448. 

[4] Emani, C. K., Cullot, N., & Nicolle, C. (2015). Understandable big data: a survey. Computer science review, 17, 70-81. 

[5] Japec, L., Kreuter, F., Berg, M., Biemer, P., Decker, P., Lampe, C., … & Usher, A. (2015). Big data in survey research: AAPOR task force report. Public Opinion Quarterly, 79(4), 839-880. 

[6] Taylor, S. (2013). “Real Scientists Make Their Own Data.” Sean J. Taylor Blog, January 25, 2020. Available at https://bit.ly/3cxJPqi.   

[7] Mitchell, T. (1997). Machine Learning. New York: McGrawHill. 

[8] Wamba, S. F., Akter, S., Trinchera, L., & De Bourmont, M. (2019). Turning information quality into firm performance in the big data economy. Management Decision.

[9] Tseng, M. L., Tan, R. R., Chiu, A. S., Chien, C. F., & Kuo, T. C. (2018). Circular economy meets industry 4.0: can big data drive industrial symbiosis? Resources, Conservation and Recycling131, 146-147. 

[10] Farboodi, M., & Veldkamp, L. (2021). A Growth Model of the Data Economy (No. w28427). National Bureau of Economic Research. Mars 30, 2021. Available at https://bit.ly/3sOay7P. 

[11] Amoore, L., & Piotukh, V. (2015). Life beyond big data: Governing with little analytics. Economy and Society44(3), 341-366. 

[12] Hassani, H., Huang, X., & Silva, E. (2019). Big Data and climate change. Big Data and Cognitive Computing, 3(1), 12.

¿Quieres suscribirte a nuestro boletin mensual?

Si deseas recibir información de alto valor, puedes dejarnos tus datos y te enviaremos mensualmente nuestro boletín informativo con todas las noticias relacionadas a ciencia, economía, sociedad y tecnología.

Read More