MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara| 22 de septiembre de 2023

Diego Lis Seenka Media Data

El constante flujo de datos en nuestro mundo plantea un dilema crucial: ¿cómo encontrar el equilibrio entre tener suficientes datos y estar abrumados por ellos? En este artículo, Diego Lis, CTO de Seenka Media Data, da una guía a través del viaje desde un Data Lake hasta un Data Warehouse, destacando la importancia de transformar datos crudos en información estructurada y homogénea para análisis eficientes.

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?

En este post te cuento cómo hacer para encontrar una solución a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más

Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el machine learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos “no estructurados” en datos “estructurados”. Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

Ahora sí, ya tienes todo para responder a tus preguntas originales. Sin embargo, han pasado cuatro años.

¿Cuál es la buena noticia? Que en Seenka ya hicimos todo eso por vos, y puedes conseguir esta información de manera inmediata en nuestra plataforma.

Y si lo prefieres, puedes ingestar la información directamente en tu BigQuery para analizarla con tus propias herramientas.

¿Quieres algo más? Puedes pedir un trial sin costo aquí (https://seenka.com/demo)

Diario de Hoy

viernes, 27 de septiembre de 2024

Image

Comenzó la décima edición de SMARTFILMS con más de 1.200 cortometrajes hechos con celulares

Image
VIPS

• José Luis Sánchez de Natpe Global: Venimos a México a explicar qué es RealScreen Summit y las ventajas de participar en ambos eventos

• César Sabroso de A+E: Producir Huellas para celebrar 70 años de VW en México es ejemplo de unir esfuerzos con marcas para causar mayor impacto

• Productora Nidian Abella: SMARTFILMS me dio la posibilidad de difundir mensajes que resuenen con todos los públicos

PERSONAJE DE LA SEMANA

Roberto Stopello, showrunner y series developer de Netflix

Roberto Stopello es personaje de la semana en PRODU, tras la entrevista exclusiva ofrecida a Ríchard Izarra en #PRODUprimetime, donde reveló detalles de su nueva etapa profesional, después de dejar su cargo en enero de este año como VP de Desarrollo para México en Netflix. Ahora sigue trabajando en exclusiva para la plataforma, pero con mayor libertad y con la posibilidad de pasar tiempo de calidad con su familia. Además, puede vivir en Orlando, EE UU, donde están sus afectos.

Image
ACTUALIDAD

• Globo presenta al mercado internacional telenovela Manía de ti de João Emanuel Carneiro

• Shooting in Spain intensifica su presencia internacional para atraer rodajes a España

• Festival Internacional de Cine de Cartagena de Indias abrió convocatoria para la selección oficial de su edición 64

• ICEX España lanza la campaña Spain, Where Talent Ignites para potenciar la imagen internacional de la marca Audiovisual from Spain

El oráculo 35 años: Cecilia Gómez de la Torre

FIC Monterrey celebra vigésima edición con foco a reforzar su internacionalización

Diana Cobos del FIC Monterrey: Incrementamos la parte de Industria como parte del crecimiento del Festival

Arturo Sampson de Exile: Estrenaremos en Telemundo miniserie documental con J. Balvin que abordará temas mentales

Image
CONTENIDOS

• Mi pequeña princesa del catálogo de Latin Media lidera la audiencia en República Dominicana

• Netflix lanza documental argentino María Soledad: El fin del silencio el próximo 10 de octubre

Image
VIPS
Image

Natpe fortalece su propuesta como mercado con la incorporación de RealScreen Summit, dos mercados en uno, ambos a realizarse en la semana del 3 al 7 de febrero en el Hotel InterContinental de Miami. De esta manera, incrementa su propuesta de valor, al ofrecer un mayor acceso a distribuidores y compradores de EE UU y global, con el atractivo de nuevos contactos y negocios para el mercado latinoamericano. Otra ventana es que se distancia de Content Americas en el espacio de tiempo. Sobre estos temas habló en México José Luis Sánchez, gerente para Latinoamérica, EE UU y Global de Natpe Global, quien viajó a este país junto a César Díaz, en una cruzada de ventas y promoción del evento.

Image
Image
Image
ACTUALIDAD
Image
Gabz, Agatha Moreira, Chay Suede y Nicolas Prattes son los protagonistas de Manía de ti
Image
Image
Image
Image
CONTENIDOS
Image
Mi pequeña princesa
Image

Netflix estrena el próximo 10 de octubre en todo el mundo María Soledad: El fin del silencio, documental argentino de Red Creek y Néctar Films sobre el femicidio de María Soledad Morales, a 30 años de su asesinato.

PRODU
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.