El 11 de febrero se entregarán los Premios Goya 2023 en su edición número 37. Hemos evaluado con un modelo de machine learning qué probabilidades de ganar tiene cada una de las 5 nominadas a Mejor Película.
1. Objetivo
El objetivo de este artículo es pronosticar qué probabilidades de ganar tiene cada película nominada en la categoría de Mejor Película 2023. Una explicación más detallada sobre el procedimiento la puedes ver en el artículo publicado para el año 2019. Casi todo permanece igual aunque ha habido pequeños ajustes que se comentarán más adelante.
2. Procedimiento
Un modelo predictivo necesita datos. Para recopilar esos datos hemos utilizado scraping. Los datos empiezan con la primera edición de los Premios Goya en 1987 y terminan en el último año del que se conocen los ganadores: 2022.
El tipo de dato recolectado trata de cubrir diferentes aspectos que pueden estar conectados con la elección del ganador: valoraciones de los críticos, votos otorgados por el público, los premios o nominaciones logrados por la película en otros certámenes, etc. Por tanto, se han incluido variables cuantitativas y cualitativas.
El código (Python) para construir el modelo está en github.
3. Variables relevantes (todas las ediciones)
A diferencia de años anteriores, esta vez hemos ajustado un modelo global, desde 1987 hasta 2022. En los artículos de 2019 y 2021 se utilizó un «modelo 2000», es decir, solo películas nominadas a los Premios Goyas desde al año 2000 (incluido).
En el ajuste del modelo hemos encontrado que las variables con mayor impacto sobre el ganador son:

Aunque se han utilizado más variables, solo éstas han aportado información útil:
- El número de votos recibidos.
- Si la película ha ganado los Premios Forqué.
- El número de críticas (comentarios) que ha recibido la película.
- La puntuación media obtenida de los votantes de la web de la que se ha sacado la información (FilmAffinity).
- El número de nominaciones a los Goya que ha recibido.
- Si la película ha ganado los Premios CEC (Círculo de Escritores Cinematográficos).
- Si el género de la película aparece con un frecuencia «media-baja» en los Premios Goya.
- Si la película ha estado nominada en los Premios Forqué.
- Si la película ha estado nominada en los Premios Feroz de Comedia.
4. Aciertos y fallos del modelo (todas las ediciones)
El número total de películas es 145, de las cuales 138 han sido clasificadas correctamente (gana/no gana), y 7 han sido clasificadas erróneamente (todos los errores son «falsos positivos»).
Gráfica del rendimiento del modelo sobre todos los datos desde 1987 a 2022 (ROC, AUROC):

5. Probabilidad de ganar de las nominadas
Las 5 películas nominadas al Premio Goya a la Mejor Película tienen las siguientes probabilidades de ganar, en orden descendente:

Parece que AS BESTAS es la indiscutible favorita para ganar el Goya. Habrá que esperar hasta el próximo sábado, 11 de febrero.
Veremos…
Si tienes dudas, has visto algún error o quieres comentar cualquier cosa ahora es el momento. Deja comentario.