El 2 de febrero se entregarán los Premios Goya 2019. Será la edición número 33 y muchos estarán pendientes de quién se lleva el premio a la mejor película. Hasta que se abran los sobres la emoción seguirá, mientras puedes consultar qué dicen los datos sobre las nominadas.
Objetivo
El objetivo de este artículo es pronosticar qué probabilidades tiene cada película nominada de ganar el Goya en la categoría de Mejor Película 2019. Solo se pronosticará esta categoría con un modelo en miniatura, pero sería fácil extenderlo al resto de categorías principales.
Procedimiento
Para alcanzar esta meta hemos seguido una serie de pasos. Hemos recopilado datos de la web de páginas especializadas en cine, hemos creado una base de datos con todas las películas que han llegado a la fase final de los Goya, cada una caracterizada por un conjunto de variables, y a través de un modelo hemos obtenido la probabilidad que tienen de ganar el Goya.
Pasamos directamente a los resultados. Si te interesa la metodología consulta las notas que hemos dejado al final del post. Puedes dejar un comentario con las dudas que tengas sobre el procedimiento seguido.
A destacar
1-Géneros (desde 1987)
Los géneros más habituales de las películas nominadas. En el gráfico siguiente se muestra el género y el número de títulos. Hay que tener en cuenta que hay películas que son clasificadas dentro de varios géneros, de modo que el número total de géneros es mayor al número total de películas nominadas (125 desde el año 1987).

El drama es el género más frecuente. La comedia, el thriller, el romance y la intriga forman el grupo seguidor. Un tercer grupo se podría establecer con el género fantástico, el terror, la acción y las aventuras. El último grupo lo componen géneros muy residuales.
En las pruebas realizadas el género no tiene influencia sobre la probabilidad de ganar el Goya y, por tanto, esta variable ha sido eliminada.
2-Variables importantes (desde 2000)
Si queremos adivinar cuáles son los títulos que más probabilidades tienen de ganar el Goya (esta vez solo con datos desde el año 2000 hasta ahora) debemos fijarnos en las siguientes variables:

De las variables utilizadas solo estas 6 resultan relevantes. De mayor a menor importancia:
- Si la película ha ganado los Premios Forqué.
- El número de nominaciones a los Goya que ha recibido.
- La puntuación media obtenida de los votantes de la web de la que se ha sacado la información (FilmAffinity).
- El número de votos recibidos.
- El número de críticas (comentarios) que ha recibido la película.
- Si la película ha ganado los Premios CEC (Círculo de Escritores Cinematográficos).
Una variable importante, pero que ha quedado fuera por falta de datos, es si la película ha ganado los Premios Feroz. El problema es que estos galardones solo se entregan desde el 2014 y el modelo carece de datos suficientes para estimar su importancia.
3-Aciertos y fallos del modelo (desde 2000)
El número de películas clasificadas correctamente (gana/no gana) es 77. Y el número de películas clasificadas erróneamente es 4. Recordamos que estos datos van solo desde el 2000 al 2018, ambos incluidos.
4-«And the Goya goes to…»
Decir quién va a ganar es menos informativo que establecer las probabilidades de llevarse el Goya. Así que mejor mostraremos las probabilidades de cada nominada…
Y ahora sí. El Goya es para…

La gran ventaja de Campeones sobre el resto de participantes parece excesiva, especialmente después de que El reino haya ganado el Premio Feroz a la mejor película dramática… los números piensan algo diferente.
Aquí los datos utilizados para cada film:

Pronóstico y pronósticos
Siempre que se hacen pronósticos conviene mirar a los profesionales. Y esos son… las casas de apuestas. Hemos visitado dos: Sportium y Betfair. Utilizaremos la primera.

Para poder comparar sus datos con los nuestros pasamos las cuotas a probabilidades. En el siguiente gráfico se puede ver la enorme divergencia entre lo pronosticado por el modelo y el vaticinio de la casa de apuestas en los dos títulos favoritos.

Sin conocer los votos que se llevará cada película nominada no podremos saber cómo de lejos o de cerca hemos estado de la verdadera probabilidad.
Y hasta aquí nuestro pronóstico. En una próxima entrada compararemos todas las películas de los Premios Goya y estableceremos un ranking.
Si tienes dudas o has detectado errores, si quieres comentar o aportar alguna idea, este es el momento. Deja tu comentario.
O bien, completa nuestra encuesta.
[polldaddy poll=10226134]
Notas sobre el procedimiento y el modelo
A continuación se muestran algunos datos:
- Se han recopilado datos de los Premios Goya, Feroz y Forqué (vía FilmAffinity) y CEC. También fue necesario corregir algunos datos «manualmente».
- La programación se ha hecho en Python. Algún gráfico y tabla también vienen de Excel.
- El código está disponible en Github aquí.
- El modelo utilizado ha sido GradientBoosting de la librería de machine learning Scikit-learn.
- Se han descartado otros dos modelos: regresión logística y random forest, ya que daban peor rendimiento. Misma librería.
- El modelo se ajustó inicialmente sobre todos los datos (desde 1987), pero había variables (los premios) que eran muy relevantes que solo se empezaban a conceder en fechas recientes (la excepción es CEC). Por eso, hubo que centrarse solo en los datos a partir del año 2000 intentando lograr datos más homogéneos y significativos.
- Las variables cuantitativas son introducidas en el modelo en términos relativos. Por ejemplo, no se utiliza el número de votos sino el número de votos como porcentaje sobre el total de votos que tuvieron las películas que se presentaron a la misma edición. Esto refleja el hecho de que las películas antiguas reciben menos votos, críticas, etc., que las más recientes, provocando que las comparaciones en términos absolutos no sean tan útiles.
- Gráfica del rendimiento del modelo sobre todos los datos desde el año 2000 (ROC, AUROC):

Seguiremos por aquí…