¿Cómo hacer una base de datos útil para el análisis estadístico?

El primer paso siempre es un buen diseño y elegir bien que variables se deben recoger.
Estas bases nos ahorrarán tiempo, evitarán errores y mejorarán la calidad del análisis.

Aquí te dejamos algunos consejos clave para diseñarla correctamente.

1. No pierdas información desde el principio

Evita resumir, transformar o agrupar datos demasiado pronto. Guarda toda la información original y detallada desde el inicio; siempre estarás a tiempo de simplificarla o categorizarla durante el análisis.

Por ejemplo, puede que te interese saber si un paciente tiene hipertensión ocular o no. Pero en lugar de registrar directamente una variable categórica como hipertensión: Sí/No, es preferible guardar la presión intraocular (PIO) como una variable numérica.

Luego, si lo deseas, puedes crear una nueva variable derivada llamada hipertensión donde 1 sea sí y 0 sea no.

Recuerda:

Categorizar está bien, pero nunca a costa de perder información original, si guardas una variable categorizada desde el inicio, no hay forma de volver a los datos numéricos originales.

Tabla con columnas tituladas 'PIO' y 'HTO', mostrando números y respuestas 'Sí' o 'No', y dos marcas de verificación verdes en la parte superior.
Lista con la opción marcada en rojo en la parte superior, seguida por varias respuestas de sí y no duplicadas.
Una lista de números acompañada de un cheque verde en la parte superior.

2. Usa fechas reales, no plazos relativos

Es mejor registrar fechas exactas (como 10/03/2023) asociadas a cada control. En lugar de PIO3m registra PIO3m y Fecha 3m.

Lo mismo ocurre con la edad: guarda la fecha de nacimiento, no solo la edad en años, es mucho más exacta y permitirá calcular la edad del paciente en cada punto del seguimiento. Si el reclutamiento dura años o tras años se decide externer el seguimiento la edad cambia. 

Curiosidad:

¿Qué edad media tienen 3 personas de 50, 55 y 60 años? Seguramente dirás que la media es 55.

Y está bien, pero no del todo exacto.

Piénsalo así: una persona que tiene 56 años está viviendo su año 57, y conservará la etiqueta de “56” hasta el día anterior a cumplir 57. Por lo tanto, su edad real en ese momento está entre 56,0001 y 56,9999. En promedio, serían 56,5 años.

La media de edad de 50, 55 y 65 años es probablemente más cercana a 55,5 años que a 55 años, aunque no podríamos saberlo sin sus fechas de nacimiento. Quizá tenga poca importancia a los 55 años, pero si se trabaja con edades menores medio año podría hacer una diferencia.  Esto no pasaría si usaras fechas de nacimiento.

Tabla de datos con columnas para Fecha_Ciru, Fecha_6m y PIO_6m, con varias filas de fechas y números.
Tabla que muestra diferentes edades y fechas de nacimiento, con un ícono de marca y una X en la parte superior.

3. Dicotomiza siempre que puedas

Cuando una variable puede convertirse en una respuesta sí/no, hazlo. Así evitarás dudas e interpretaciones múltiples. Por ejemplo:

  • En lugar de tener “sexo: hombre, mujer, varón, H, M, f, m…”, crea una variable llamada “mujer”, donde:

    • 1 = sí es mujer

    • 0 = no es mujer (es hombre)

Esto es claro, universal y no necesita leyenda.

Tabla comparativa con columnas tituladas 'HTO', filas con respuestas 'Sí' y 'No', y valores 0 o 1, con marcas de verificación y cruz para indicar resultados correctos e incorrectos.
Tabla de datos comparando diferentes términos relacionados con género y sexo, con marcas de verificación y cruces, en español latinoamericano.
Comparación de tablas que muestran datos sobre PIO, con correcciones en la segunda y tercera columnas para mejorar la organización y presentación, indicadores de error y aciertos con símbolos de X rojos y marcas de verificación verdes.

4. Nunca pongas texto en una casilla numérica

Una letra o palabra en una celda numérica rompe el análisis en cualquier programa estadístico. Si una variable es numérica no debe contener caracteres de tipo letra. Si necesitas hacer observaciones, no lo hagas dentro de la base: usa una hoja aparte, comentarios al margen o celdas adicionales con notas separadas.

6. ¿Números o texto?

Cuando una variable tiene categorías que no son universales, es preferible registrarla en formato texto claro y consistente, tal como se explicó en el punto anterior.

Por ejemplo, para el estado civil, en lugar de usar códigos numéricos como 1 = soltero, 2 = casado, 3 = divorciado, es más seguro y transparente escribir directamente: soltero, casado, divorciado.

Las leyendas externas pueden perderse, malinterpretarse o simplemente no estar disponibles para quien reciba la base de datos.

Por eso, una buena base debe ser autónoma y comprensible por sí misma, sin necesidad de claves adicionales.

¿Cuándo sí usar números?

Solo es recomendable codificar con números cuando se trate de escalas estandarizadas y universalmente reconocidas, como, por ejemplo:

  • Grados de causticación corneal

  • Celularidad en cámara anterior o cámara vítrea

  • Escala de Oxford para la sequedad ocular

En esos casos, se asume que los valores numéricos tienen un significado ampliamente conocido en el contexto clínico. Puedes incluir una leyenda de referencia si lo deseas, pero no es imprescindible.

Lista de estados civiles con error y corrección, destacando 'Viudo' en la columna derecha.

5. Si usas texto, sé consistente

Si vas a usar texto para variables categóricas (por ejemplo, estado civil: soltero, casado, divorciado…), escribe siempre igual. No mezcles “Soltero”, “soltero”, “SOLTERO” o “solteiro”. Elige una forma (por ejemplo, todo en minúsculas) y mantenla constante.

Tabla comparativa de estados civiles con columnas de descipción y leyendas, destacando una fila correcta con marca de verificación y otra incorrecta con marca de error.
Tabla de datos con columnas tituladas Oxford, Grado_Caustic, Maculop_Miopic y VH, que contiene valores numéricos del 0 al 4 en diferentes filas.

7. Usa el mismo separador decimal en toda la base

Es fundamental mantener consistencia en el uso de decimales. En inglés se utiliza el punto (.), mientras que en castellano es común usar la coma (,).

Lo importante no es cuál uses, sino que sea el mismo en toda la base de datos.

Mezclar comas y puntos puede causar errores al importar los datos a programas estadísticos, que podrían interpretar mal los valores o generar celdas vacías.

Tabla comparativa con dos columnas tituladas 'AV' y diferentes valores numéricos. La columna izquierda tiene una marca de error roja y la columna derecha tiene marcas de verificación verdes.

8. Evita signos y símbolos innecesarios en celdas numéricas

En oftalmología es habitual ver signos como + o º en variables numéricas, pero esto puede invalidar el formato numérico de la celda y provocar errores en el análisis.

  • La graduación miópica -1.25 es un número válido.

  • Sin embargo, +2.25 con signo positivo no lo es necesario: basta con 2.25.

  • Igualmente, si la variable se llama ángulo, no hace falta poner 180º. Es suficiente con 180, ya que el nombre de la variable ya indica que es un ángulo.

Matriz comparativa con columnas tituladas 'EquivEsferic' y 'Eje_astigm' que muestra valores numéricos de diferentes grados, algunos con signos positivos y negativos, y los ángulos en grados.

9.  Recoger la agudeza visual (AV): claridad y consistencia

La forma ideal de registrar AV sería en logMAR, pero sabemos que en la práctica clínica la escala decimal es más utilizada. Ambas son válidas si se mantienen consistencia y claridad.

Evita valores ambiguos como:

  • 0.6+ (por “ve algo más que 0.6”)

  • 0.6dif (por “ve 0.6 con dificultad”)

En ambos casos, registra simplemente 0.6.

 

Para niveles bajos de visión, utiliza campos de texto si es necesario, pero sé consistente con las abreviaciones. Por ejemplo:

  • CD → cuenta dedos

  • MM → movimiento de manos

  • PL → percepción luminosa

  • NPL → no percepción luminosa

No mezcles notaciones como pl, PL, Percepción, etc. Elige una convención y mantenla igual en toda la base de datos.

Tabla comparativa con datos y abreviaturas distintas, señalando errores con una marca roja y correcciones con marca verde.

10. ¿Un ojo o dos ojos? El eterno dilema

Este es un punto clave en investigación oftalmológica.

Lo ideal es trabajar con un solo ojo por paciente (N = número de pacientes).

Puedes hacerlo de forma aleatorizada, por ejemplo:

  • Aleatorización real

  • Según el día de nacimiento:

    • Día par → ojo derecho (OD)

    • Día impar → ojo izquierdo (OI)

Si decides recoger datos de ambos ojos (muchas veces conviene para ganar N), asegúrate de que cada variable indique claramente a qué ojo corresponde (PIO_OD, PIO_OI, AV_OD, AV_OI...).

Después, en el análisis podremos decidir si:

  • Trabajamos solo con un ojo (eliminar el otro)

  • Calculamos una media entre ambos ojos

  • Tratamos los ojos como unidades independientes y duplicamos la base de datos

Lo importante es que la estructura de la base permita esa flexibilidad desde el principio.

Tabla con las combinaciones de letras PIO y AV, en diferentes géneros y números, con marca de verificación en la parte superior