La fiabilidad de los datos es necesaria en el análisis de datos
Es de Perogrullo, la fiabilidad de los datos es necesaria en el análisis de datos.
Hay 2 premisas sin las cuales cualquier desarrollo de análisis de datos estaría condenado al fracaso antes de su lanzamiento.
- Planteamiento: es lo que se quiere analizar. Dejaré el desarrollo para otra ocasión, y simplemente diré que debe incluir los datos con los que se cuenta, cuál es el objetivo del análisis, y las pruebas previstas que se van a realizar
- Fiabilidad de los datos: el por qué se han escogido esos datos, sus orígenes, cómo se obtienen los mismos, si esos datos son suficientes, y si tenemos la tecnología suficiente para poder incorporarlos a nuestro análisis.
- ¿Por qué hemos escogido los datos?
La selección de los datos a analizar debe realizarse en concordancia con el planteamiento del análisis. Es decir, los datos deben seleccionarse una vez realizado el planteamiento y no al revés.
No sirve de nada que tengas unos datos y plantees un análisis para poder utilizarlos, sino que una vez qué el análisis está planteado, hay que pensar qué datos son necesarios para poder realizarlo.
2. ¿Cuáles son los orígenes de nuestros datos?
Existen muchas fuentes de datos, desde fuentes privadas de nuestra propia organización, hasta fuentes de acceso público.
Lo importante es conocer el origen de todos los datos que vamos a tratar.
Conocer no es saber cuál es el origen, sino confiar en el mismo, ya que la toma de datos de orígenes inciertos dará resultados inciertos.
3. ¿Cómo se obtienen los datos?
Aparte de conocer el origen hay que saber la forma en la que se han extraído los datos.
Aquí, para mí, hay una preferencia clara: sin filtros de ningún tipo en la extracción, es decir con acceso al 100% de los datos en origen.
Un lago de datos es un sistema o repositorio de datos almacenados en su formato natural / sin procesar, generalmente objetos o archivos.
Una vez se tenga acceso al lago de datos se podrá organizar y procesar conforme al planteamiento del análisis.
En otro caso, con exportaciones realizadas por terceros, o a través del uso de almacenes de datos, existe un tratamiento primigenio que no está controlado por el desarrollador del análisis y que no garantiza la idoneidad con el planteamiento realizado, lo cual puede generar la obtención de información sesgada.
4. ¿Son suficientes los datos para nuestro análisis?
También importante para garantizar que el resultado es correcto, el garantizar que tenemos suficientes datos para poder realizarlo.
La denominación “suficientes” tiene 2 connotaciones:
- Todos los datos que me permiten realizar el análisis
- De diferentes fuentes que me permita contrastar los resultados
5. ¿Tenemos la tecnología suficiente para tratarlos?
Existen 3 variables claves que debemos tener en cuenta a la hora de seleccionar la tecnología que vamos a utilizar en nuestro análisis:
- Tamaño de los datos: en función del tamaño tendremos que utilizar una tecnología que nos permita tratamientos rápidos y eficaces.
- Formato de los orígenes de datos: los datos pueden venir de sistemas estructurados, semiestructurados o desestructurados. Debemos de garantizar que la tecnología que utilicemos sea capaz de traducir y tratar todos los orígenes que tengamos.
- Procesamiento que vamos a realizar: está, una vez más, ligado al planteamiento realizado, ya que la tecnología que empleamos deberá darnos la posibilidad de tratar los datos para lograr el objetivo.
Llegados a este punto, ¿Cómo podemos validar los datos?
En realidad, tendremos que responder a las 5 preguntas anteriores para poder validar los datos seleccionados para nuestro análisis.
Una buena práctica es comenzar gateando, antes de empezar a andar, y no intentar correr hasta que no tengamos el equilibrio suficiente para no caernos antes de llegar a la meta.
Así que podemos empezar por hacer pruebas sobre todos los datos que recibamos.
Si somos capaces de realizar cruces de datos podremos comprobar, entre otras cosas:
- Que conozco el por qué he seleccionado cada una de las fuentes.
- Que puedo investigar y rastrear todos los orígenes para conocer su consistencia.
- Que no se han realizado filtros en origen que no me permitan tratar el 100% de los datos.
- Que lo datos tienen suficiente información para analizar el objetivo planteado.
- Que la tecnología de la que dispongo me permite trabajar todos los orígenes.
- Que datos de diferentes fuentes nos dan los mismos resultados.
- Que puedo realizar pequeñas pruebas y sus resultados no son discordantes con el objetivo planteado.
Por poner un ejemplo:
Si trato de analizar la facturación de un proveedor para comprobar una determinada promoción en precio y tengo una extracción de mi sistema contable, una extracción de mi sistema de almacén, una extracción de mi sistema de pedidos, las facturas recibidas de mi proveedor en papel, una extracción del sistema contable de mi proveedor y el acuerdo de la promoción.
Voy a recorrer el camino inverso:
– Puedo analizar una factura física y la información de la misma refleja el descuento en precio.
– El importe total factura de todas las fuentes disponibles es el mismo y además tengo campos comunes en todas las fuentes que me permiten tener una trazabilidad completa desde el pedido al pago, lo que me permite, no sólo comprobar el descuento en factura, sino analizar:
* Que importe he pagado por esa factura.
* La factura está contabilizada y cobrada por mi proveedor por el mismo importe.
* Cuántas unidades recibí que luego se han facturado.
* El pedido que realicé para dicha factura y si he recibido todas las unidades pedidas.
* Las condiciones del contrato que justifican la aplicación del descuento en esa factura.
– Tengo la tecnología necesaria para convertir facturas físicas, tratar las bases de los distintos sistemas y formatos, introducir las condiciones del contrato, y poder relacionar todas ellas
– El contrato tiene perfectamente definidos los parámetros de la promoción (Fechas de referencia, importes involucrados, artículos incluidos, tipo de descuento aplicado, etc.) y dichos parámetros están reflejados tanto en mi sistema como en la factura del proveedor.
– Las extracciones de datos, y las facturas físicas incluyen todo el periodo de promoción.
– No he necesitado datos públicos, y el origen de los datos seleccionados son conocidos y confiables (propios o de mi proveedor).
– El objetivo del análisis era estudiar la correcta aplicación de una promoción en precio, para lo que he necesitado:
* Un acuerdo en el que se especificaban las condiciones de la promoción que, a su vez, dependía de las fechas de pedido y estaba limitado a un número de unidades en concreto.
* Mi sistema de pedidos para comprobar las fechas en las que se han realizado los pedidos, que se respetaban las condiciones de la promoción, y las unidades pedidas.
* Mi sistema de almacén para comprobar que todas las unidades pedidas se hayan recibido.
* Las facturas del proveedor para comprobar que se han aplicado los descuentos acordados a todas las unidades recibidas en promoción.
* Mi sistema contable para comprobar que se han contabilizado y pagado todas las facturas según la información de las mismas.
* El sistema contable de mi proveedor para hacer de contraste con los datos de mis sistemas.
Como conclusión, podemos decir que iniciar un análisis de datos sin haber validado la fiabilidad de los mismos nos asegura los siguientes resultados:
- Pérdidas de tiempo en la corrección de datos.
- Desviaciones frente al planteamiento del análisis.
- Alta posibilidad de falsos positivos.
- Falta de credibilidad en las conclusiones del análisis.
- Toma de decisiones incorrectas.
“Un objetivo, sin un plan, es solamente un deseo”
Antoine de Saint-Exupéry, aviador y escritor francés, autor de El principito
David Hernández – Socio ACFYD Análisis