25.4 Evaluación por pares, métricas e incentivos

La evaluación por pares, las métricas y los incentivos constituyen pilares fundamentales en la historia universal de la ciencia. A lo largo de más de tres siglos, estos mecanismos han evolucionado desde procedimientos artesanales hasta sistemas globales altamente sofisticados, con efectos profundos en la forma de producir, difundir y valorar el conocimiento. A continuación se presenta un análisis histórico-extenso, ilustrado con fechas, datos, ejemplos y sucesos clave, para comprender cómo la ciencia ha ido articulando herramientas de control de calidad, medición de impacto y motivación de sus actores.

Orígenes históricos de la evaluación por pares

La evaluación por pares nació como respuesta a la necesidad de validar y filtrar contribuciones científicas en un contexto de crecimiento acelerado de la comunicación académica. Dos hitos tempranos marcan su génesis:

1665: Fundación de Philosophical Transactions de la Royal Society de Londres. Aunque en sus inicios las cartas y artículos eran revisados principalmente por el secretario (Henry Oldenburg), pronto se instauraron comités de miembros selectos para discutir y recomendar la publicación.
1731: Creación de Medical Essays and Observations de la Royal Society de Edimburgo, que instauró revisiones más sistemáticas por médicos con experiencia clínica y experimental.

En 1666, la Académie des Sciences de París también estableció un modelo de comités internos para evaluar manuscritos antes de su lectura pública y posible publicación en las memorias oficiales. A mediados del siglo XVIII, la norma se fue consolidando: cualquier trabajo científico debía superar el examen de expertos para garantizar su consistencia metodológica y originalidad.

El sistema wikipédico y la crítica temprana

Aunque el modelo de revisión por pares infundía rigor, pronto se señalaron limitaciones: demoras excesivas, sesgos personales o institucionales y falta de anonimato. A finales del siglo XIX, figuras como Sir Archibald Geikie (1835-1924) y Charles Babbage (1791-1871) propusieron reformar el sistema con mayor rotación de revisores y criterios más transparentes.

Evolución de las métricas científicas

El crecimiento exponencial de la literatura científica requirió el desarrollo de indicadores cuantitativos que permitieran comparar revistas, autores o áreas del conocimiento. Entre los hitos más destacados:

1830s: Charles Babbage sugiere la creación de índices de citas como «guía» de importancia científica, en su obra Reflections on the Decline of Science in England (1830).
1955: Fundada la Institute for Scientific Information (ISI) por Eugene Garfield, quien en 1961 lanzó el Science Citation Index, un pionero sistema de indización de citas cruzadas.
1975: Primer cálculo formal del Factor de Impacto para revistas, publicado en el Journal Citation Reports.
2005: Jorge E. Hirsch presenta el Índice h, métrica que equilibra productividad y citas recibidas por un investigador.
2010s: Emergencia de altmetrics (métricas alternativas) que incorporan datos de redes sociales, descargas, menciones en blogs y otros indicadores de atención inmediata.

Indicador	Año de creación	Creador	Objetivo
Índice de citas (Science Citation Index)	1961	Eugene Garfield	Mapear relaciones bibliográficas
Factor de Impacto	1975	ISI / Garfield	Medir promedio de citas por artículo
Índice h	2005	Jorge E. Hirsch	Valorar equilibrio productividad–impacto
Altmetrics	2010	Varias iniciativas	Capturar atención en medios digitales

Incentivos en la comunidad científica

Los incentivos moldean el comportamiento de investigadores, instituciones y editoriales. A lo largo de la historia, se han vehiculado a través de distintos mecanismos:

Reconocimiento social y académico: premios como el Nobel (1901), medallas de academias, cátedras honorarias.
Financiación de proyectos: programas competidos de organismos como el National Institutes of Health (NIH, EE. UU., 1946) o la National Science Foundation (NSF, 1950).
Criterios de promoción y tenure: en universidades anglosajonas, la permanencia (tenure) depende de publicaciones en revistas de alto factor de impacto y de un historial comprobado de citas.
Rankings institucionales: aparece en 2003 el Academic Ranking of World Universities (Shanghai), seguido de QS World University Rankings (2004) y THE (Times Higher Education, 2004). Las posiciones en estos listados condicionan captación de estudiantes, donaciones y colaboraciones.

La presión por publicar —el «publish or perish» acuñado en los años 60— se intensificó con la masificación de revistas científicas: en 1980 se estimaba un total de 250 000 artículos anuales para 2018, esa cifra superó los 2 000 000 de artículos por año, distribuidos en más de 33 000 revistas indexadas (Fuente: Scopus, 2019).

Casos y consecuencias del sistema actual

El dominio de las métricas y los incentivos ha generado efectos tanto positivos como negativos:

Reproducibilidad y crisis de confianza: estudios de 2016 revelan que solo el 39 % de los trabajos preclínicos en biomedicina eran reproducibles. Esta crisis motivó iniciativas como Open Science Framework (2012) y la declaración de DORA (2012), que abogan por evaluar la calidad sin depender exclusivamente del factor de impacto.
Retractions y fraude: el número de retractions indexadas por Retraction Watch pasó de 40 en 2001 a más de 800 en 2018. Casos célebres incluyen la manipulación de datos por Jan Hendrik Schön (Bell Labs, 2002) y los estudios cuestionados del investigador de IBM, Woo Suk Hwang (2005).
Efectos perversaos: el sesgo de publicación («publication bias»), la fragmentación del contenido en «salami slicing» y la tendencia a priorizar resultados positivos cuestionan la integridad del conocimiento generado.
Matthew Effect: descrito por Robert K. Merton en 1968, señala que los científicos ya notorios acumulan mayor atención y recursos, mientras los noveles luchan por destacar, independientemente de la calidad de su trabajo.

Iniciativas recientes y perspectivas futuras

Frente a las críticas, surgen propuestas y modelos alternativos:

Revisión por pares abierta: plataformas como Frontiers y F1000Research implementan revisiones públicas, con nombres y comentarios accesibles.
Metricas multidimensionales: proyectos como Eigenfactor (2007) o Altmetric.com buscan medir influencia a través de redes de citas, menciones y actividad en medios sociales.
Políticas de acceso abierto: en 2018 la Comisión Europea lanza Plan S, que exige que todos los resultados de investigación financiada con fondos públicos sean accesibles libremente desde 2021.
Declaración de San Francisco sobre evaluación de la investigación (DORA): más de 2 000 instituciones han firmado este acuerdo (desde 2012) para dejar de usar el factor de impacto de revistas como proxy de calidad de artículos individuales o investigadores.

Desafíos pendientes

La comunidad científica enfrenta retos relevantes:

Equilibrar rapidez de publicación con rigurosidad en la revisión.
Evitar la homogeneización del conocimiento impulsada por rankings y métricas.
Diseñar incentivos centrados en la calidad, la reproducibilidad y el impacto social.
Promover la diversidad epistémica frente a la concentración en áreas «de moda».

En definitiva, la historia de la evaluación por pares, las métricas y los incentivos es un relato de avances, perfeccionamientos y tensiones. Desde los comités de la Royal Society hasta las plataformas digitales de revisión abierta, la ciencia busca constantemente equilibrar controles de calidad, reconocimiento justo y motivaciones que impulsen el conocimiento en beneficio de la sociedad.

Profundizando sobre el punto 25.4 Evaluación por pares, métricas e incentivos

Libros recomendados para ampliar conocimiento sobre este tema: