MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara | 22 de septiembre de 2023

Diego Lis Seenka Media Data

El constante flujo de datos en nuestro mundo plantea un dilema crucial: ¿cómo encontrar el equilibrio entre tener suficientes datos y estar abrumados por ellos? En este artículo, Diego Lis, CTO de Seenka Media Data, da una guía a través del viaje desde un Data Lake hasta un Data Warehouse, destacando la importancia de transformar datos crudos en información estructurada y homogénea para análisis eficientes.

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?

En este post te cuento cómo hacer para encontrar una solución a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más

Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el machine learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos “no estructurados” en datos “estructurados”. Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

Ahora sí, ya tienes todo para responder a tus preguntas originales. Sin embargo, han pasado cuatro años.

¿Cuál es la buena noticia? Que en Seenka ya hicimos todo eso por vos, y puedes conseguir esta información de manera inmediata en nuestra plataforma.

Y si lo prefieres, puedes ingestar la información directamente en tu BigQuery para analizarla con tus propias herramientas.

¿Quieres algo más? Puedes pedir un trial sin costo aquí (https://seenka.com/demo)

Etiquetas

Contactos

Diego Lis

Diario de Hoy

Diario de Hoy

viernes, 27 de septiembre de 2024

PRIMERA PLANA

Paula Feged de Festival ElDorado: La creatividad colombiana es un producto de exportación tan fuerte como el café y las flores

Paula Feged, directora ejecutiva del Festival ElDorado, compartió con PRODU todas las novedades que traen este año para su 13.ª edición el próximo 1 y 2 de octubre. El festival ha ido incorporando un componente académico cada vez más sólido, que no solo se limita a evaluar los trabajos presentados, sino que también busca enriquecer el panorama creativo colombiano al traer a expertos internacionales que compartan sus conocimientos y experiencias. “Este año tenemos un evento como nunca antes, será fantástico a nivel de contenido”

Ver nota completa

LATAM

• Mariana Cavalli de American Express: Buscamos conectar tanto con individuos como con empresas sdfsdf sdfdsfds sdfsdfds sdfdsf

• Nace GRANDE, una plataforma de formación innovadora para futuros publicitarios en Venezuela

• Rocknrolla.23 retrata el legado de Grupo AG con Andy García como actor principal

• Comenzó la décima edición de SMARTFILMS con más de 1.200 cortometrajes hechos con celulares

MULTICULTURAL

• Equativ expande su división de retail media con la adquisición de Kamino Retail

• IAB Tech Lab presenta PAIR una nueva herramienta para la publicidad digital más segura y privada

• César Sabroso de A+E: Producir Huellas para celebrar 70 años de VW en México es ejemplo de unir esfuerzos

LATAM

Mariana Cavalli de American Express: Buscamos conectar tanto con individuos como con empresas sdfsdf sdfdsfds sdfsdfds sdfdsf

Mariana Cavalli, directora de marketing de Tarjetas Personales y Corporativas de American Express Argentina

En el marco del MMA Talk Argentina, Mariana Cavalli, directora de marketing de Tarjetas Personales y Corporativas de American Express Argentina, compartió su experiencia con la última campaña de su producto Platinum, cuya particularidad es que se comunica con dos públicos distintos (individuos y empresas) utilizando el mismo mensaje.

Nace GRANDE, una plataforma de formación innovadora para futuros publicitarios en Venezuela

La primera edición de GRANDE se llevará a cabo durante la primera semana de octubre y contará con la participación de destacados líderes del sector creativo

En un esfuerzo por empoderar a la nueva generación de creativos en Venezuela, nace GRANDE, una plataforma educativa que promete revolucionar el panorama publicitario del país. Con el respaldo de Bendita Carpeta, este proyecto se lanza con cinco masterclass gratuitas dirigidas a jóvenes talentos, ofreciendo una oportunidad única para aprender de los mejores en la industria.

Rocknrolla.23 retrata el legado de Grupo AG con Andy García como actor principal

El film es parte del proyecto de transformación de la empresa familiar líder industrial Aceros de Guatemala en Grupo AG

Rocknrolla.23 continúa en evolución constante, trabajando para grandes compañías y marcas de Las Américas. Esta vez a cargo del proyecto de transformación de la empresa familiar líder industrial Aceros de Guatemala en Grupo AG, con el objetivo de abrirse al mundo para expandir su huella, con un film que representa el nuevo manifiesto de la compañía en Guatemala.

Comenzó la décima edición de SMARTFILMS con más de 1.200 cortometrajes hechos con celulares

SMARTFILMS celebra una década democratizando el cine

La décima versión de SMARTFILMS, el festival de cine hecho con celulares, se inauguró oficialmente este jueves 26. La apertura se desarrolló en el Centro Comercial Bima (ubicado a las afueras de Bogotá) y contó con la presencia de realizadores e invitados.

MULTICULTURAL

Equativ expande su división de retail media con la adquisición de Kamino Retail

Con esta y otras alianzas Equativ ha triplicado su tamaño en los últimos tres años, impulsando un crecimiento significativo en el panorama adtech.

Equativ adquiere Kamino Retail, una plataforma en sitio flexible y agnóstica de retail media diseñada para minoristas. Apoyada por Bridgepoint, su inversor principal, con esta y otras alianzas Equativ ha triplicado su tamaño en los últimos tres años, impulsando un crecimiento e innovación significativos en el panorama adtech.

IAB Tech Lab presenta PAIR una nueva herramienta para la publicidad digital más segura y privada

Logo IAB Tech

El IAB Tech Lab presenta PAIR (Publisher Advertiser Identity Reconciliation) para anunciantes y editores. Se trata de una herramienta para que la publicidad digital sea más segura y privada. Este protocolo, desarrollado por el IAB Tech Lab y donado inicialmente por Google, permite a anunciantes y editores combinar sus datos de usuarios de forma segura y privada, sin depender de las cookies de terceros. Esto significa que las empresas podrán ofrecer anuncios más personalizados a los usuarios, pero sin poner en riesgo su privacidad.

César Sabroso de A+E: Producir Huellas para celebrar 70 años de VW en México es ejemplo de unir esfuerzos

César Sabroso, VP ejecutivo de Marketing de A&E LatAm Group, en el evento de presentación de Huellas, serie realizada por History para celebrar los 70 años de Volkswagen en México

History cerró una alianza con Volkswagen para crear la serie de cortometrajes Huellas, compuesta de siete historias reales de los usuarios de la marca, como una forma de celebrar los 70 años de la compañía de autos en México. Los siete contenidos estrenaron este miércoles 25 a través de la señal de A+E Networks.

miércoles 01 de abril

MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara | 22 de septiembre de 2023

Etiquetas

Contactos

Diario de Hoy

© 1997 - 2026 PRODU - Todos los derechos reservados