7

Evaluación de la Sensibilidad y Especificidad de los Modelos GPT-3.5 Turbo para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas

Introducción

En la era de la información, la síntesis de evidencia es crucial para la toma de decisiones en medicina y salud pública. Sin embargo, el proceso manual de revisar miles de citas para determinar su elegibilidad es tedioso y consume tiempo. Este estudio investiga la capacidad del modelo GPT-3.5 Turbo para ayudar en este proceso, evaluando su sensibilidad y especificidad en comparación con revisores humanos.

Metodología

El estudio se realizó utilizando cinco revisiones sistemáticas diferentes, abarcando un total de 22,665 citas. Se diseñó un marco de trabajo de prompts genéricos para instruir al modelo GPT-3.5 Turbo a realizar la revisión de títulos y resúmenes. Se evaluaron dos reglas de decisión:

  1. Regla balanceada: Equilibrio entre sensibilidad y especificidad, similar al rol de un segundo revisor.
  2. Regla sensible: Optimización de la sensibilidad para reducir el número de citas que deben ser revisadas manualmente.

Resultados

Regla Balanceada:

  • La sensibilidad del modelo GPT-3.5 Turbo osciló entre 81.1% y 96.5%.
  • La especificidad varió entre 25.8% y 80.4%.
  • El modelo identificó 7 de 708 citas (1%) que los revisores humanos pasaron por alto y que deberían haber sido incluidas tras la revisión del texto completo.

Regla Sensible:

  • La sensibilidad osciló entre 94.6% y 99.8%.
  • La especificidad varió entre 2.2% y 46.6%.
  • La utilización de esta regla podría reducir el número de citas a revisar manualmente de 127 a 1851, con la posibilidad de omitir entre 0% y 3.8% de las citas que deberían ser incluidas tras la revisión del texto completo.

Desempeño en revisiones específicas:

  • La revisión sobre la eficacia de tratamientos ambulatorios para la variante Omicron de SARS-CoV-2 mostró una sensibilidad del 81.7% y especificidad del 80.4% bajo la regla balanceada.
  • En la revisión sobre tratamientos farmacológicos sistémicos para psoriasis en placa crónica, la sensibilidad alcanzó el 96.5% con una especificidad de 25.8%.

Discusión

Los modelos GPT-3.5 Turbo mostraron una sensibilidad comparable a los revisores humanos pero con una especificidad menor. Esto significa que, aunque el modelo es eficaz para identificar citas relevantes, también genera un número significativo de falsos positivos que deben ser reconciliados.

Limitaciones:

  • El estudio utilizó un conjunto limitado de revisiones sistemáticas, lo que puede no representar otros contextos o temas.
  • La retrospectiva del estudio y la variabilidad en el desarrollo de prompts afectan la consistencia de los resultados.

Conclusión

El modelo GPT-3.5 Turbo tiene el potencial de actuar como un segundo revisor, mejorando el flujo de trabajo de los revisores humanos al costo de reconciliar un mayor número de falsos positivos. Además, puede reducir el número de citas a revisar manualmente, aunque podría omitir algunas citas relevantes.

Referencias

  1. Tran, V.T., et al. (2024). Sensitivity and Specificity of Using GPT-3.5 Turbo Models for Title and Abstract Screening in Systematic Reviews. Annals of Internal Medicine, 177(6), 791-799.

Ver articulo completo

Tags: No tags

Leave A Comment

Your email address will not be published. Required fields are marked *