¿Cómo hacer una base de datos útil para el análisis estadístico?
El primer paso siempre es un buen diseño y elegir bien que variables se deben recoger.
Estas bases nos ahorrarán tiempo, evitarán errores y mejorarán la calidad del análisis.
Aquí te dejamos algunos consejos clave para diseñarla correctamente.
1. No pierdas información desde el principio
Evita resumir, transformar o agrupar datos demasiado pronto. Guarda toda la información original y detallada desde el inicio; siempre estarás a tiempo de simplificarla o categorizarla durante el análisis.
Por ejemplo, puede que te interese saber si un paciente tiene hipertensión ocular o no. Pero en lugar de registrar directamente una variable categórica como hipertensión: Sí/No, es preferible guardar la presión intraocular (PIO) como una variable numérica.
Luego, si lo deseas, puedes crear una nueva variable derivada llamada hipertensión donde 1 sea sí y 0 sea no.
Recuerda:
Categorizar está bien, pero nunca a costa de perder información original, si guardas una variable categorizada desde el inicio, no hay forma de volver a los datos numéricos originales.
2. Usa fechas reales, no plazos relativos
Es mejor registrar fechas exactas (como 10/03/2023) asociadas a cada control. En lugar de PIO3m registra PIO3m y Fecha 3m.
Lo mismo ocurre con la edad: guarda la fecha de nacimiento, no solo la edad en años, es mucho más exacta y permitirá calcular la edad del paciente en cada punto del seguimiento. Si el reclutamiento dura años o tras años se decide externer el seguimiento la edad cambia.
Curiosidad:
¿Qué edad media tienen 3 personas de 50, 55 y 60 años? Seguramente dirás que la media es 55.
Y está bien, pero no del todo exacto.
Piénsalo así: una persona que tiene 56 años está viviendo su año 57, y conservará la etiqueta de “56” hasta el día anterior a cumplir 57. Por lo tanto, su edad real en ese momento está entre 56,0001 y 56,9999. En promedio, serían 56,5 años.
La media de edad de 50, 55 y 65 años es probablemente más cercana a 55,5 años que a 55 años, aunque no podríamos saberlo sin sus fechas de nacimiento. Quizá tenga poca importancia a los 55 años, pero si se trabaja con edades menores medio año podría hacer una diferencia. Esto no pasaría si usaras fechas de nacimiento.
3. Dicotomiza siempre que puedas
Cuando una variable puede convertirse en una respuesta sí/no, hazlo. Así evitarás dudas e interpretaciones múltiples. Por ejemplo:
En lugar de tener “sexo: hombre, mujer, varón, H, M, f, m…”, crea una variable llamada “mujer”, donde:
1 = sí es mujer
0 = no es mujer (es hombre)
Esto es claro, universal y no necesita leyenda.
4. Nunca pongas texto en una casilla numérica
Una letra o palabra en una celda numérica rompe el análisis en cualquier programa estadístico. Si una variable es numérica no debe contener caracteres de tipo letra. Si necesitas hacer observaciones, no lo hagas dentro de la base: usa una hoja aparte, comentarios al margen o celdas adicionales con notas separadas.
6. ¿Números o texto?
Cuando una variable tiene categorías que no son universales, es preferible registrarla en formato texto claro y consistente, tal como se explicó en el punto anterior.
Por ejemplo, para el estado civil, en lugar de usar códigos numéricos como 1 = soltero, 2 = casado, 3 = divorciado, es más seguro y transparente escribir directamente: soltero, casado, divorciado.
Las leyendas externas pueden perderse, malinterpretarse o simplemente no estar disponibles para quien reciba la base de datos.
Por eso, una buena base debe ser autónoma y comprensible por sí misma, sin necesidad de claves adicionales.
¿Cuándo sí usar números?
Solo es recomendable codificar con números cuando se trate de escalas estandarizadas y universalmente reconocidas, como, por ejemplo:
Grados de causticación corneal
Celularidad en cámara anterior o cámara vítrea
Escala de Oxford para la sequedad ocular
En esos casos, se asume que los valores numéricos tienen un significado ampliamente conocido en el contexto clínico. Puedes incluir una leyenda de referencia si lo deseas, pero no es imprescindible.
5. Si usas texto, sé consistente
Si vas a usar texto para variables categóricas (por ejemplo, estado civil: soltero, casado, divorciado…), escribe siempre igual. No mezcles “Soltero”, “soltero”, “SOLTERO” o “solteiro”. Elige una forma (por ejemplo, todo en minúsculas) y mantenla constante.
7. Usa el mismo separador decimal en toda la base
Es fundamental mantener consistencia en el uso de decimales. En inglés se utiliza el punto (.), mientras que en castellano es común usar la coma (,).
Lo importante no es cuál uses, sino que sea el mismo en toda la base de datos.
Mezclar comas y puntos puede causar errores al importar los datos a programas estadísticos, que podrían interpretar mal los valores o generar celdas vacías.
8. Evita signos y símbolos innecesarios en celdas numéricas
En oftalmología es habitual ver signos como + o º en variables numéricas, pero esto puede invalidar el formato numérico de la celda y provocar errores en el análisis.
La graduación miópica -1.25 es un número válido.
Sin embargo, +2.25 con signo positivo no lo es necesario: basta con 2.25.
Igualmente, si la variable se llama ángulo, no hace falta poner 180º. Es suficiente con 180, ya que el nombre de la variable ya indica que es un ángulo.
9. Recoger la agudeza visual (AV): claridad y consistencia
La forma ideal de registrar AV sería en logMAR, pero sabemos que en la práctica clínica la escala decimal es más utilizada. Ambas son válidas si se mantienen consistencia y claridad.
Evita valores ambiguos como:
0.6+ (por “ve algo más que 0.6”)
0.6dif (por “ve 0.6 con dificultad”)
En ambos casos, registra simplemente 0.6.
Para niveles bajos de visión, utiliza campos de texto si es necesario, pero sé consistente con las abreviaciones. Por ejemplo:
CD → cuenta dedos
MM → movimiento de manos
PL → percepción luminosa
NPL → no percepción luminosa
No mezcles notaciones como pl, PL, Percepción, etc. Elige una convención y mantenla igual en toda la base de datos.
10. ¿Un ojo o dos ojos? El eterno dilema
Este es un punto clave en investigación oftalmológica.
Lo ideal es trabajar con un solo ojo por paciente (N = número de pacientes).
Puedes hacerlo de forma aleatorizada, por ejemplo:
Aleatorización real
Según el día de nacimiento:
Día par → ojo derecho (OD)
Día impar → ojo izquierdo (OI)
Si decides recoger datos de ambos ojos (muchas veces conviene para ganar N), asegúrate de que cada variable indique claramente a qué ojo corresponde (PIO_OD, PIO_OI, AV_OD, AV_OI...).
Después, en el análisis podremos decidir si:
Trabajamos solo con un ojo (eliminar el otro)
Calculamos una media entre ambos ojos
Tratamos los ojos como unidades independientes y duplicamos la base de datos
Lo importante es que la estructura de la base permita esa flexibilidad desde el principio.