Por: Matías Petersen Doctor en Economía Política por el King’s College de Londres
Para muchos, hace tiempo que los transformadores generativos preentrenados, o ‘GPTs’, nos están pisando los talones en partidas de ajedrez, diagnósticos clínicos, o algunas pruebas estandarizadas. Lo anterior ha llevado a algunos a sostener que el papel de la teoría en ciencias sociales será cada vez menos relevante, dado que la capacidad predictiva de la inteligencia artificial se volverá superior a la de muchos modelos actualmente empleados en economía y ciencia política.
La versión más extrema de este argumento fue articulada el año 2008 por Chris Anderson, entonces editor jefe de Wired. A juicio de Anderson los petabytes nos permiten afirmar que «la correlación es suficiente», por lo que «podemos dejar de buscar modelos» y «analizar los datos sin hipótesis», dejando que los algoritmos encuentren patrones predictivos allí donde la ciencia no puede hacerlo. Esta conjetura descansa en al menos dos supuestos.
El primero dice relación con el papel de la teoría en la investigación científica. Para concluir como hace Anderson, debemos estar dispuestos a aceptar que el principal papel de la teoría es predecir. Sin embargo, una fracción no despreciable de la investigación empírica contemporánea busca estimar efectos causales para explicar eventos pasados, como cuando evaluamos la efectividad de una determinada política social.
Aún en aquellas áreas de la investigación contemporánea que parecen estar menos cargadas de teoría, esta última puede ser crucial. Tómese como ejemplo el caso de los ‘ensayos controlados aleatorizados’ (RCTs) en economía y ciencia política. El carácter aparentemente ‘ateórico’ de esta metodología la vuelve atractiva para muchos, pero dicha ventaja es al mismo tiempo una debilidad. Como han sugerido Nancy Cartwright y Angus Deaton, que los RCTs impliquen pocos compromisos teóricos puede ser una desventaja importante a la hora de intentar replicar resultados en otros contextos sociales. No son pocos los casos en los que las causas que configuran un fenómeno varían significativamente de un lugar a otro, como han remarcado una gran variedad de economistas, desde John Stuart Mill hasta David Hendry. Comprender qué factores causales dan cuenta de un fenómeno, y cómo estos se configuran entre sí, es imposible sin marcos teóricos robustos.
El segundo supuesto en el que descasan predicciones como la de Anderson se relaciona con nuestro modo de entender en qué sentido entrenar un GPT es análogo a cómo los seres humanos desarrollamos el lenguaje. Según esta visión, la manera en la que un ser humano aprende una lengua no sería distinta, cualitativamente, del modo en que son entrenados los ‘modelos de lenguaje grande’ (o LLMs), de los cuales los GPTs son un caso emblemático. ¿Es razonable esta analogía?
Una línea argumental que desafía dicho supuesto es que parece haber diferencias sustantivas entre el aprendizaje de una lengua y el entrenamiento de un GPT. Cuando un niño aprende una lengua lo hace tomando como ‘insumo’ una versión muy elemental, por no decir pobre, de esta. Un GPT, en cambio, aprende con los mejores textos disponibles en el mundo: las obras de Shakespeare, las entradas de Wikipedia, y millones de artículos académicos. Adicionalmente, el tiempo que tomaría a un niño estar expuesto a la cantidad de datos que son empleados para entrenar un GPT es cercana a 2 millones de años. Así, un niño aprende significativamente más rápido y con ‘insumos’ sumamente básicos. Estos dos factores, tiempo de aprendizaje y calidad de los ‘inputs’ empleados, parecen revelar que estamos antes dos procesos muy diversos.
Ahora bien, que los supuestos en los que se basa la idea de una potencial irrelevancia de la teoría en ciencias sociales sean discutibles no impide que los GPTs se vuelvan cada vez más relevantes en la investigación empírica. Sin embargo, no podemos olvidar que dichos supuestos implican compromisos teóricos importantes. Estos pueden ser sumamente atendibles, pero es razonable afirmar que su plausibilidad no se dirime fácilmente con más datos, sino con más y mejor teoría.