Thu. Nov 21st, 2024

Diez verdades sobre los datos: revisadas


Hace siete años, escribí en el periódico de mi antiguo empleador (el increíble Reactor) bloguea un artículo irónico titulado Diez verdades sobre los datos.

Al recordarlo hoy, todavía estoy orgulloso del trabajo realizado, pero no puedo evitar pensar que algunas de las verdades se desperdiciaron sólo para alcanzar el mágico número 10.

Por eso, hoy quiero revisar estas verdades y ofrecerle una versión renovada, mi querido lector.

Podrías pensar cínicamente que este artículo es solo una forma de evitar que el primer mes de la historia de este weblog no tenga nuevos artículos publicados. Y tendrías parte de razón.

También podrías burlarte cínicamente de la noción de que la “verdad” se revele de manera arrogante. Y tendrías razón en tu indignación. Sin embargo, “verdad” tiene un tono más agradable que “afirmación” o “afirmación”.

De todos modos. Hagámoslo.


X


El boletín a fuego lento

Suscríbete al Boletín a fuego lento para recibir las últimas noticias y contenido de Simo Ahava en su bandeja de entrada de correo electrónico.

Verdad #1: Los datos son pasivos.

Una de las verdades de OG.

A menudo, al presentar datos, la gente usa una frase como “Los datos muestran que…” o “Los datos indican claramente que…”. Mientras yo saber Lo que estas personas intentan decir sigue siendo una evasión semántica.

El datos no hacer cualquier cosa. Es un medio pasivo: explotado, disputado, manipulado, moldeado y conformado proporcionar evidencia o justificación para, o incluso un desvío de, cualquiera que sea el presentador está tratando de afirmar.

Verdad #2: Los datos son subjetivos.

Otro refrito de la primera versión de este artículo y otra obviedad.

Cuando observa un análisis, un gráfico o las filas de una tabla de datos sin procesar, Están generando una interpretación única de lo que ves. No hay verdades objetivas en la evidencia que tienes ante ti.

Esto puede fácilmente convertirse en un argumento ontológico, y eso está bien. El hecho es que calidad y análisis de datos son no arreglado. Como escribí en el artículo authentic:

Un único conjunto de datos puede pasar de ser inútil a increíblemente revelador sin que un solo dato cambie de forma, tamaño o función.

Verdad #3: Los datos no tienen límites.

Oh, sí, y la importancia de esta verdad aumenta a medida que escala de lo que nosotros poder y hacer recoger aumentos en órdenes de magnitud con cada año que pasa de avance tecnológico.

Es imposible tener todos los datos. No es sólo tecnológicamente inviable: es una filosófico imposibilidad.

Por tanto, hay que trazar una línea. Y es muy, muy Es importante entender dónde se traza esta línea. Tú debe Comprenda las limitaciones de su conjunto de datos al ofrecerlo como evidencia con cualquier tipo de capacidad de representación. Tú debe Ser capaz de comunicar estas limitaciones cuando se le solicite, o incluso de forma proactiva para mantener los resultados justos y reproducibles.

Verdad #4: Los datos odian los silos.

Vale, utilicé la palabra “aborrece” en la primera versión de esta lista, pero eso period sólo un diccionario de sinónimos.

Por alguna razón desconcertante, muchas empresas todavía tratan los datos como algo que se puede delegar a un puesto de trabajo arbitrario (el analista o el ingeniero de datos o el científico) mientras que el resto de la empresa procede a ignorar (y descuidar) el alcance complete del canal de datos.

Datos es el alma de la organización. No le importan los títulos de trabajo. No le importa su organización matricial ni sus jerarquías planas ni sus PTO ilimitados.

Necesita conocer todos los rincones de su empresa donde se recopilan y procesan los datos, y debe evaluar y auditar constantemente estos procesos.

Verdad #5: Los datos son un proceso.

Retomando lo anterior: recuerde que los datos no son algo que pueda simplemente resumirse en un proyecto único. Desde un punto de vista regulatorio, su empresa tiene la responsabilidad de estar en contacto con el impacto ascendente y descendente de todas las disputas de datos que ocurren dentro (y más allá) de sus paredes.

Pero no es sólo eso. Su empresa genera cantidades absurdas de datos a cada segundo que pasa. Necesitas reaccionar a sus fluctuaciones (y las cosas son constantemente en proceso de cambio), y necesita un proceso implementados para nutrir adecuadamente los canales de datos dentro de su empresa.

Verdad #6: Los datos pueden ignorarse.

Mi verdad favorita.

¡Estar “basado en datos” es una mentira! ¡No caigas en ello! Con base en unos 20 años de experiencia, la mayoría de las empresas trabajan con datos que se malinterpretan por completo y cuya calidad de referencia es simplemente ridículamente pobre (aunque recuerde la Verdad número 2).

Si quieres que ese montón maloliente de unos y ceros conducir Tu compañía entonces será mi invitado. Saludame mientras te sumerges en el abismo con un basado en datos sonrisa en tu cara.

Si los datos dicen A, y esto está respaldado por experimentación, pruebas rigurosas y el conjunto de datos más sólido que jamás haya encontrado, pero su intestino cube B, ¡siéntete libre de optar por este último! Tú poder ignorar los datos. No existe ningún imperativo categórico que le obligue a hacer lo que dicen los datos (¡aunque recuerde la Verdad número 1!).

Sin embargo. Sin embargo. Tú debe ser capaz de justificar esto para que el caso de negocio haga tanto o más sentido como seguir lo que el análisis de datos le indica que haga.

No puedes simplemente hacer un ataque de ira e ignorar los datos porque sientes que tienes el derecho divino de caminar hasta el borde de la Tierra sólo para demostrar un punto elaborado. Debe poder elaborar un argumento comercial para su decisión y debe poder convencer a sus colegas de que vale la pena correr el riesgo.

Por alguna razón, muchas plataformas de datos son muy preceptivo. Obligan a la empresa a adoptar esquemas que pueden no ser relevantes para los casos de negocio de la empresa, pero que solo sirven para que la plataforma de análisis digiera la información de una manera predecible.

Los esquemas monolíticos y genéricos son, en basic, una cosa mala. Obligan a la compañía adaptarse a la plataforma de análisis y no al revés.

Recuerdo haber pasado muchos segundos preguntándome cómo puedo “engañar” a Google Analytics para digerir un Añadir a la cesta evento en un sitio internet que no tenía carrito de compras; solo para poder usar el conjunto de informes de comercio electrónico. Este es un ejercicio nadie debería tener que soportar.

Verdad #8: Las concepts reales son raras, y eso está bien.

Siento que muchos analistas actúan como John Nash en Una mente maravillosadonde observan un conjunto de datos y esperan que los patrones simplemente salten a la vista, generando nuevos conocimientos sorprendentes que cambiarán por completo su empresa.

Bueno, o te espera una larga espera o no estás haciendo bien tu trabajo.

Hay una hermosa teoría en biología evolutiva llamada Equilibrio exacto. Afirma que la mayor parte de la evolución es en realidad un progreso muy lento y constante. Sin embargo, ocasionalmente ocurren trastornos trascendentales que introducen cambios caóticos y más rápidos en el proceso.

No soy un biólogo evolutivo, pero esta teoría fue adoptada en la lingüística por RMW Dixonque es un género con el que estoy mucho más familiarizado.

Creo que muchos analistas no respetan esto y tratan de encontrar estos levantamientos sin éxito o, peor aún, intentan introducir con nuevas herramientas, nuevos métodos de recolección y nuevos esquemassólo para “obtener resultados”.

Pero el hecho es que gran parte de lo que hacemos en análisis se basa en observación y proporcionando estable datos para que otros procesos los digieran.

Somos jardineros. No cazadores de tesoros.

Verdad #9: Los datos son un efecto secundario.

Vale, esto no es siempre Es cierto (¡impactante!), pero es particularmente conmovedor en el mundo del análisis y el advertising digital.

Hay muy, muy pocos reales características en aplicaciones, sitios y servicios cuyos propósito principal es generar datos.

En cambio, como analistas, lo más frecuente es que aprovechar funciones existentes y agregar recopilación de datos como efecto secundario a ellos.

El objetivo principal de un formulario de pago no es para generar una conversión. No – su objetivo principal es para generar una compra. El ping de conversión es sólo un efecto secundario de este proceso.

Como analistas, tendemos a quedar atrapados en la importancia de nuestro trabajo y olvidamos que la mayoría de las veces nuestras empresas, nuestros clientes, nuestros desarrolladores o incluso nuestros especialistas en advertising No me importa mucho la generación de datos.. Sólo quieren la característica para cumplir su propósito authentic.

Por este motivo, las tareas de ingeniería de datos suelen ser despriorizado. Es una pena, pero también es un hecho.

La persona que trabaja con los datos necesita aclarar la importancia de estos. efectos secundarios, también. El papel del ingeniero (o analista) de datos es a menudo uno de consultaya que necesitan hacer que otros comprendan cómo estos efectos secundarios realmente pueden valer la inversión de tiempo y recursos en lugar de solo los gastos generales de desarrollo.

Verdad #10: Los datos son difíciles.

Durante años y años, todas mis presentaciones terminaban con una diapositiva que decía:

Los datos son difíciles. La calidad de los datos es ganadono adquirido.

Creo que esto sigue siendo muy importante. Especialmente con la pandemia de COVID-19, cada vez más personas estuvieron expuestas a más gráficos, más análisis y a interpretaciones cada vez más equivocadas de los datos.

I esperanza la gente entiende lo difícil que es no sólo recolectar datospero para descubrir su flujos de procesamientoes impactos aguas abajoes desafíos regulatoriosy como presentarlo de manera significativa.

I esperanza la gente entiende que “ML” e “IA” no son sólo palabras mágicas de moda. Los algoritmos que impulsan el aprendizaje automático y la inteligencia synthetic requieren ajustes y un componente humano con suficiente experiencia (y coraje) para poner los procesos en marcha.

Trabajar con datos es más difícil que nunca. Todavía no hay atajos: calidad de los datos debe ser ganado a través del trabajo duro, con una mente curiosa y un corazón fuerte.

Simo fuera.

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *