Poniendo orden al comienzo: De la diversidad de datos al lenguaje común

Estoy a punto de iniciar un proyecto de auditoría de recuperación, aunque aún no tengo claro cómo empezar, cómo avanzar ni cómo concluirlo.  

Para empezar a darle forma al proyecto y organizar mis ideas, voy a listar las fases de la auditoría y avanzaré paso a paso, como surfeando de una cresta de ola a la siguiente, hasta llegar a la orilla. 

 

 

Extracción de datos: 

Una diferencia clave entre una auditoría de recuperación y una auditoría tradicional es que, en la primera, es necesario analizar la población completa, evitando el muestreo.

Considerando los objetivos de una auditoría de recuperación y siguiendo un enfoque inverso al principio de Pareto, no conviene recurrir a muestras cuando: 

  • Las incidencias son muy poco frecuentes o están muy dispersas. 
  • El objetivo es detectar absolutamente todos los casos, no solo estimar su frecuencia. 

Por ello, para llevar a cabo una auditoría exhaustiva, es imprescindible realizar una extracción previa de datos, que pueden clasificarse en: 

  • Datos estructurados: organizados en formatos predefinidos, fáciles de acceder y analizar, entre otros:
    • Extracciones en archivos planos (por ejemplo, CSV o TXT) generados por:
      • Sistemas contables
      • ERPs
      • Aplicaciones de gestión comercial o industrial
    • Bases de datos SQL
    • Hojas de cálculo tabulares
    • Registros financieros
    • Inventarios y sensores IoT estructurados
  • Datos semiestructurados:con cierta organización, pero sin un esquema rígido, entre otros:
    • Metadatos:
      • De correos electrónicos (remitente, destinatario, asunto, fecha)
      • De imágenes digitales (fecha, ubicación, dispositivo)
    • Archivos XML o JSON
    • Facturas electrónicas en formato estructurado (por ejemplo, Factura-e o XML)
    • Notificaciones automáticas
    • Registros de aplicaciones
  • Datos desestructurados:  sin formato predefinido, que requieren procesamiento avanzado, entre otros:
    • Hojas de cálculo no tabulares
    • Archivos PDF
    • Documentación física escaneada
    • Correos electrónicos en texto libre
    • Imágenes, vídeos, audios, chats
    • Transcripciones, páginas web
    • Datos IoT en bruto
    • Respuestas abiertas
    • Expedientes legales

 Tratamiento de datos: 

Tener una información completa y diversa no basta si no consigo ‘poner a hablar’ todos esos datos entre sí.  

Es por ello que contar con fuentes múltiples sin un marco común de referencia es como formar un equipo de trabajo cuyos miembros no comparten un idioma: la colaboración y el entendimiento se vuelven extremadamente difíciles. 

En este contexto, los pasos fundamentales son: 

  • Validar los datos: asegurar que la información sea fiable y completa, pues cualquier sesgo en los datos se traducirá en sesgos en los resultados. 
  • Unificar el lenguaje: ‘hablar el mismo idioma’ implica poder leer y procesar los datos con una herramienta común, lo que requiere transformar cada conjunto de datos desde su formato original al formato de análisis. 
  • Ordenar la información: no se puede iniciar un análisis sin antes organizar los datos. Uno de los errores más comunes es comenzar a analizar sin un orden claro en la información. 

Un gran volumen de datos puede convertirse en un problema si no logramos que sean fiables, uniformes y ordenados para su correcta interpretación. 

Ahora que he establecido las bases para disponer de datos fiables, uniformes y ordenados, el siguiente paso será adentrarme en el análisis y la interpretación de esa información.

Es en esa fase donde, dejando atrás la informática estricta, entra en juego el juicio experto, la creatividad y la estrategia para transformar datos en conocimiento útil.  

En un próximo texto, exploraré cómo dar sentido a los datos y convertirlos en decisiones efectivas dentro del proceso de auditoría de recuperación. 

 

David Hernández Romeo

Socio de ACFYD ANALISIS, S.L.

AHDA Analytics Insight