Por Elizabeth Peña Jáuregui

Cada día se generan, transmiten y almacenan grandes cantidades de datos en una tasa explosiva de crecimiento, estos datos son generados por muchas fuentes y no solo por sensores y cámaras o dispositivos en la red, sino también por páginas web, sistemas de correo electrónico, plataformas comerciales, redes sociales y muchas otras fuentes. Este torrente infinito de información que todos los días se produce, requiere de una recolección especializada, estructuración y procesamiento, los megadatos o Big data por sus siglas en inglés, son el Santo Grial del siglo XXI, son una nueva realidad de la economía y de las tendencias mundiales.

El Santo Grial, es este objeto legendario de poderes extraordinarios capaz de otorgar abundancia y conocimiento infinito, esta copa con la que Jesús celebró la última cena que se ha buscado durante siglos, ahora se nos presenta en un cúmulo de datos tan grande y complejo que será la mayor fuente de conocimiento y fuerza económica en el siglo XXI.

Comencemos por lo básico ¿Qué es el Big data? Son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes a una velocidad superior, en otras palabras, son datos masivos o macrodatos con procedimientos específicos para encontrar patrones repetitivos de esos datos. La Unión Internacional de Telecomunicaciones (UIT) en 2015 publicó la primera Recomendación Internacional de Big Data UIT-T Y.3600, donde lo define como un paradigma para hacer posible la recopilación, almacenamiento, la gestión, el análisis y la visualización de grandes conjuntos de datos con características heterogéneas, potencialmente en condiciones de tiempo real.

Si bien este concepto es relativamente nuevo, tuvo su origen en las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales. Fue hasta el 2005, que la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos.

Desde entonces, el volumen de Big data se ha disparado de forma exponencial a medida que las sociedades se transforman en digitales, los humanos ya no son los únicos que generan información, la evolución tecnológica se ha convertido en una fuente inagotable de información.

Con la llegada de la Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje autónomo ha producido aún más datos.

El Big data está formado por los conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Asimismo, se caracteriza por las 5Vs explicadas como:

  • Volumen, capacidad para procesar grandes volúmenes de datos no estructurados de baja densidad, esta es una de las características más destacadas del Big Data ya que los datos crecen de manera vertiginosa. La generación de datos en un día es superior a la de hace diez años, todos esos datos desestructurados que se guardan tienen un inmenso potencial.
  • Velocidad, el ritmo al que se reciben los datos y se utilizan, el tiempo siempre es importante y el cómo se afronta también. Todo el proceso de tratamiento de datos pide agilidad, pero también requieren una respuesta adecuada a su procesamiento y análisis para extraer el valor de negocio a toda la información que se tiene y que de esta manera no se pierda ninguna oportunidad. El tiempo de procesamiento de la información es un factor fundamental del Big data.
  • Variedad, hacer frente a la variedad de datos que aumenta el grado de complejidad, tanto en el almacenamiento de información como en el análisis. Dar uniformidad a los datos que tienen origen heterogéneo es una de las fortalezas del Big Data, puede conjugar y combinar todo tipo de información para alcanzar un todo homogéneo.

Es decir, el Big data puede homogenizar datos que pueden provenir de diferentes tipos de textos, imágenes, web, tweets, sensor data, audio, video, click streams entre otros y pueden ser estructurados, semiestructurados o desestructurados, y sus fuentes podrán requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.

  • Veracidad, esta dimensión afecta mucho a la calidad de los datos, existe mucha variedad en toda la información que se recaba; por ello es conveniente encontrar las herramientas necesarias para comprobar la veracidad de la información recibida. Para ello, se tiene que ejercer una limpieza en los datos para asegurarse el mayor aprovechamiento de los mismos, ya que si los datos son buenos las decisiones tomadas en función de estos serán acertadas.
  • Valor, en cierta medida esta dimensión, afecta a todas las demás, el valor es el factor más importante del Big Data. Toda la información recogida tiene que servir para aportar valor a las empresas, los gobiernos o la sociedad porque si no, no da lugar a almacenar ni administrar. En definitiva, la clave está en cómo obtener la mejor información, el mejor valor y conocimiento para sacar la mayor rentabilidad.

Y entonces ¿Para qué sirve? El Big data tiene un enorme potencial para generar información de valor y conocimiento, identificar los modelos de comportamiento, preferencias y necesidades del consumidor, este análisis detallado de la información que generan los usuarios tienen diversas aplicaciones en los sectores económicos, además de una herramienta predictiva y de apoyo en múltiples disciplinas, como en el análisis de negocio, aplicaciones en salud, análisis sociales, biológicos y ambientales, finanzas, seguros, meteorología, espionaje y lucha contra el crimen organizado.

Es importante resaltar que no basta con solo almacenar los datos, para que el Big data sea considerado de valor, los datos deben poder utilizarse y servir para un propósito en específico cualquiera que este sea, depende mucho de su conservación, es decir, deben ser datos limpios, veraces y relevantes para el cliente, asimismo deberán ser organizados de tal modo que permitan un análisis significativo, ello requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan utilizarse.

Según investigaciones de la UIT establecen que a nivel mundial en los próximos años habrá decenas de millones de empleos para personas dotadas de habilidades digitales avanzadas, tales como la interpretación, selección y análisis del Big data, previéndose en algunas economías una escasez de profesionistas con estas habilidades. Otro dato que me parece remarcable es qué durante los últimos cinco años, casi el 90% de los paquetes de software de código abierto de «big data» fueron escritos por hombres, es decir, existe una brecha de género monumental, la que también representa una ventana de oportunidad para las nuevas generaciones de mujeres en los campos de ciencia, tecnología, ingeniería y matemáticas, estos campos que se conocen como STEM. 

El Big data, tiene aplicaciones inimaginables, un ejemplo, las huellas digitales que deja la producción eléctrica cada nanosegundo permite calcular, en tiempo real, la actividad industrial de un país. China lo está aplicado: a través de su red de satélites ‘Space Know’, la autoridad estadística construye un índice de su nivel real de actividad industrial, tomando 2.200 millones de datos cada segundo de las 6.000 principales fábricas dispuestas en una superficie de 500.000 km cuadrados sobre el corredor industrial.

Hay otros ejemplos que han desatado escándalos, como fue el caso de la empresa Cambridge Analytica, con sede en Londres que uso el análisis de datos para desarrollar campañas para marcas y políticos que buscaban «cambiar el comportamiento de la audiencia», Cambridge Analytica logró alterar la elección presidencial de EE. UU., con la utilización de un aparentemente inocente test de personalidad en la red social de Facebook y derivó en acusaciones de robo de datos, interferencia política y chantajes. Cambridge Analytica hizo alarde de poseer perfiles psicológicos basados en 5.000 piezas de información personal de 220 millones votantes estadounidenses. Aseguro que así pudo predecir las inclinaciones emocionales hacia el voto de su preferencia. Con esto se prevé que la automatización y propagación de dispositivos inteligentes y conectados a toda actividad humana y a las máquinas permitirá registrar cómo se puede alterar y prever la trayectoria de su comportamiento futuro.

El Santo Grial para las empresas y gobiernos contar con Big data limpia, veraz y relevante, la OCDE en su estudio Data-Driven innovation for growth and well-being: Interim synthesis report, señala, que la tecnología para procesar y analizar grandes volúmenes de Big data, se está convirtiendo en un recurso importante que puede conducir a nuevos conocimientos, a la creación de valor y a fomentar nuevos productos, procesos y mercados. Esta tendencia se identifica como la innovación conducida por datos (data-driven innovation, o DDI).

La gran discusión del Grial Big data radica, en que nuestra información personal y huella digital se usa para crear un perfil de consumo, siendo tratados como un dato más en la inmensa cantidad de ceros y unos del Big data. El debate de hoy en el mundo se centra en cómo tratar datos masivos acerca de o creados por los consumidores, que se recolectan a través de plataformas en línea y son utilizados por empresas y gobiernos para focalizar su publicidad, mejorar sus ofrecimientos, propuestas políticas y crear nuevos productos, nuevos gobiernos, nuevas tendencias. Así, el acceso a grandes volúmenes o a una gran variedad de datos, asegura la competitividad en el mercado, en la geopolítica y en las economías mundiales.

El conocimiento es poder, la obtención y utilización de Big data puede ser un detonador del éxito o fracaso de cualquier sociedad, el Grial capaz de otorgar abundancia y conocimiento infinito, a quien lo explote, a quien lo procese, a quien lo sepa interpretar. Abuso, concentración de poder o riqueza, concentración de mercados y barreras para nuevos competidores que carezcan de información. El reto más importante será que se lleve a cabalidad el principio pro persona y realmente se logre un beneficio en pro de la sociedad, la regulación del Big data debe ser uno de los principales temas de la agenda político tecnológica de cualquier país.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí