Hemos hecho un pequeño experimento para averiguar quién acierta más pronosticando los resultados de los partidos de fútbol de la jornada 34 (temporada 2015/2016.) Comparamos los pronósticos de Sportsmetrica, consultoría especializada en analizar datos del deporte, las casas de apuestas y el mercado. Empezamos…
Sportsmetrica
Cada jornada Sportsmetrica facilita impactantes gráficos y datos relevantes sobre la liga de fútbol española. Esta semana pasada (jornada 34) publicaron las probabilidades de cada resultado para los partidos de Primera División:
Las casas de apuestas
Las casas de apuestas deportivas como Bet365, WilliamHill, Paf, Suertia, 888sport, Sportium, Bwin, InterWetten, etc. ofrecen la posibilidad de apostar por determinados eventos deportivos. Estas empresas actúan como contraparte del apostador. Todos los clientes apuestan contra la casa de apuestas, por tanto, las ganancias y las pérdidas las asume exclusivamente ella. Las casas de apuestas ganan dinero moviendo las cuotas (pagos) que ofrecen a sus clientes de tal forma que el dinero fluya hacia donde hay escasez de cobertura y se aleje de los eventos en los que ya se ha colocado demasiado. Por ejemplo, si hay mucho dinero apostado a que gana el FC Barcelona, esta cuota baja y suben las cuotas de empate y derrota. Así estabiliza los márgenes de beneficio en cada resultado: el negocio de las casas de apuestas no es acertar, es mantener el margen (overround) ante cada posible desenlace.
Cada casa de apuestas establece sus cuotas en función de sus apostantes (y de una cuota base de salida), de modo que aquellas van a fluctuar según quiénes sean sus clientes . Para obtener un visión equilibrada de las casas de apuestas y no comparar una a una todas ellas hemos establecido un «consenso» o promedio. Esta idea está extraída de varios trabajos, como por ejemplo este:
–Modelling Consensus and (Dis)agreement in Rating Processes (Doctoral thesis) – Leitner.
Hay que recordar que las casas de apuestas no ofrecen probabilidades sino cuotas, así que tenemos que convertir estas cuotas en probabilidades. Para lo cual hay que calcular el inverso de cada cuota y normalizar por la suma (hay cientos de sitios web que explican el procedimiento). Utilizaremos la página Odds Portal para obtener las cuotas de las diferentes plataformas, tanto casas de apuestas como de intercambio (ver más abajo).
El mercado
El mercado de apuestas deportivas tiene la apariencia externa de una casa de apuestas pero no es lo mismo. El ejemplo prototípico de un mercado de este tipo es Betfair en su versión Exchange, es decir, de intercambio. A diferencia de las casas de apuestas aquí la contraparte de cada operación es otro jugador. Betfair se limita a crear el mercado (gestionar pagos y cobros, generar certidumbre, lograr que oferta y demanda se encuentren, etc.) y cobrar un comisión sobre los beneficios de los ganadores. Por sus características estos sitios tienen la ventaja de no tener techos de apuesta o limitaciones: siempre que haya dinero a favor o en contra de un suceso habrá mercado. Las casas de apuestas, o Sportsbook, sí suelen poner límites muy bajos al dinero que se puede apostar para evitar una eventual ruina.
Hemos utilizado dos Exchange: Betfair y Matchbook. Estos mercados tienen un precio de oferta y otro de demanda (lay y back) por lo que se crea una horquilla o pequeña diferencia (spread) entre ambos, aun cuando representan lo mismo. Dicho de otra forma, puedes apostar a que «sucede A» («no sucede B») o a que «no sucede A» («sucede B»). En el caso que nos ocupa hemos utilizado el punto medio de dicha horquilla.
Información y mercados eficientes
La idea subyacente de este pequeño ejercicio es jugar con dos ideas: la de los mercados eficientes de Eugene Fama (y aquí), que nos dice que el mercado incorpora toda la información disponible y no hay forma de obtener beneficios extraordinarios; y la de los mercados como agregadores de información, lo cual incluye a individuos no expertos, como refleja la anécdota de Galton y el buey (y desarrollada como sabiduría de los grupos). Sobre esto último también se puede consultar el capítulo 2 de Nunca te fíes de un economista que no dude.
La idea es muy sencilla: si el mercado funciona eficientemente y es capaz de agregar información suficientemente dispersa y variopinta, no habrá mejor predictor de las probabilidades de ganar/empatar/perder un partido que las cuotas que se fijan en Exchange.
Cómo medir cuán acertado es un pronóstico
Lógicamente, un pronóstico se mide por comparación con el resultado real. El fútbol tiene 3 posibles resultados pero con la peculiaridad de que están ordenados. Esto quiere decir que si pronosticamos un empate (X) y el resultado es una victoria del equipo visitante (2) habremos fallado, pero menos que si hubiéramos pronosticado una victoria del equipo de casa (1). Para tener en cuenta estas situaciones utilizaremos el RPS (Rank Probability Score) que permite evitar problemas en los que incurren otras medidas de error como el Brier Score. Finalmente, Cuanto mayor sea el RPS, peor (más error hubo en el pronóstico); cuanto menor sea, mejor (menos error se cometió).
Nota importante: Una última aclaración ante de mostrar los resultados. Esto no es un «estudio» que demuestre nada: sólo se utilizan 10 partidos (una jornada de liga) y por tanto es imposible extraer conclusiones con una muestra tan minúscula. Lo único que podemos decir es quién cometió menos errores de pronóstico esta jornada, nada más. Se necesitaría trabajar con cientos de partidos para empezar a obtener alguna conclusión.
Si te interesa saber más sobre qué pronosticador es más fiable (casas de apuestas o intercambio) y qué aplicaciones se pueden desarrollar, puedes consultar este paper:
-Inter-Market Arbitrage in Betting – Franck, Verbeek, Nüesch.
Probabilidades, errores y ajuste
En esta tabla están las probabilidades pronosticadas para cada resultado en cada partido:
Las probabilidades de Sportsmetrica han sido normalizadas para que sumen 1, por eso no coinciden los últimos decimales con la captura mostrada al principio de esta entrada. Es una variación mínima y se debe al número de decimales mostrados originalmente.
Si miramos la fila «Total» vemos que Sportsmetrica comete más error que los demás (1,95473), le sigue el consenso de las casas de apuestas (Sportsbook) con 1,80911 y finalmente las 2 plataformas de Exchange, Betfair (1,78925) y Matchbook (1,78393) que resulta la ganadora en esta mini-comparativa.
También podemos calcular el Índice de Adecuación para ver cuánto mejoran estos pronósticos a un modelo de predicción naïve. Este modelo sería uno que asignara igual probabilidad a todos los sucesos, es decir, que sería como tirar una moneda no trucada para ver qué resulta en cada partido. En tal caso, la victoria, la derrota y el empate tienen la misma probabilidad: 33%.
Sportsmetrica mejora el modelo naïve en un 20,03%, las Sportsbook en 25,99%, Betfair en 26,80% y Matchbook en 27,02%. Como vemos, el resultado de los partidos no parece ser una pura lotería (volver a leer Nota importante -arriba-).
Aquí vemos el error total de cada pronosticador incluyendo el modelo naïve (recuerda que «más» es «peor»):
Y a continuación el Índice de Adecuación (IA) tomando como referencia el modelo naïve (por tanto este no aparece en el gráfico). Hemos cambiado los colores, fíjate en la leyenda. Recuerda, el IA nos dice en cuánto mejora un modelo al modelo base (naïve), así que más es mejor:
Y ahora el IA respecto a Sportsmetrica (cambian los colores, fíjate en la leyenda):
En este último gráfico destaca la mejora relativa que ofrecen los pronósticos basados en la información que genera el mercado (Betfair y Matchbook).
La información y el error
Una última cosa que podemos analizar es la relación entre el tamaño del mercado y el error. Las casas de apuestas ofrecen las cantidades que se negocian en cada momento para cada uno de los resultados posibles. Estas son cantidades disponibles, es decir, pendientes de casar (encontrar su oferta o demanda), y no representan los puntos de equilibrio (intercambios realmente efectuados). Sin embargo, vamos a utilizar las cantidades que hay disponibles en cada mercado (en cada partido de fútbol) en el momento en que se recogieron los datos como una aproximación al tamaño del mercado: a mayor volumen de apuestas, mercado más grande. La idea es la siguiente: cuanto mayor sea el mercado mayor volumen de información ha recogido. Dicho de otra forma, a mayor volumen de apuestas, menor error debe cometer ya que ha absorbido más información.
Utilizamos el dinero que hay disponible en cada mercado (sumamos todo el dinero pendiente de casar en todos los eventos ya sean back o lay) como variable explicativa y el error RPS como variable dependiente. Los datos son de Matchbook que es la que había obtenido mejor IA:
La ecuación de regresión es la que realiza automáticamente Excel. Es una ecuación potencial. La exponencial mejoraba ligeramente el R² pero nos hemos decidido por esta «intuitivamente» por su forma. El ajuste lineal daba un R² de 0,32.
¿Hay relación entre el tamaño del mercado y el error? Uno estaría tentado a responder afirmativamente si no fuera por… Nota importante (arriba). ¿Y tú qué crees?
Es el momento en que debes opinar. ¿Piensas que es suerte o el mercado supera en su capacidad de pronóstico a cualquier otro rival? ¿Apostaste algo de dinero esta semana? ¿Cómo te ha ido? ¿No se te ocurre alguna estrategia para intentar hacer dinero si lo que se cuenta aquí se cumple de forma generalizada? A nosotros sí, aunque esa ya es otra historia…
Pingback: Predicción en fútbol a partir de los goles marcados: la distribución de Poisson (I) | La economía en juguetes
Interesante tu blog y tus artículos. ¿Cómo se podrian mejorar las cuotas de valoración de un partido a partir de unas dadas de partidas, tipo matchbook?
Gracias por el comentario, jose.
Desde el punto de vista de la teoría de los mercados eficientes la información del mercado no se puede mejorar (sobre esto hay diferentes niveles de «fortaleza», como se comenta en algún enlace del artículo).
Los mercados funcionan generando información a través de lo que aportan sus muchos participantes, información variada y descentralizada, lo que hace bajar el error.
Por tanto, la respuesta corta (teórica) es que no se puede. No merece la pena hacer un modelo: siempre serás igualado (al menos) por el mercado puesto que la información del modelo también quedará incorporada al mercado desde el momento que se haga pública, es decir, se apueste según las predicciones del modelo.
Desde un punto de vista práctico, sin embargo, los mercados no son eficientes (los de apuestas tampoco).
Una forma de tratar de mejorar el mercado es utilizar una media de bookmakers (como también se cuenta en el artículo -hay un enlace a la tesis doctoral donde se explica el procedimiento-). De esa forma, con una media de los bookmakers, se lograría reunir información más diversa que la que puede recoger una sola casa de apuestas. El problema es cómo ponderar las cuotas de las distintas casas de apuestas: ¿damos a todas el mismo peso? ¿A las exchange más peso? Y sobre todo, ¿por qué hacemos eso?
Una segunda forma relacionada con la anterior sería centrarse en la casa de apuestas que recoge más y mejor información. Hay estudios que demuestran que Betfair es superior a la mayor (si no todas) las casas de apuestas en el sentido de cometer menos error (se suele utilizar una medida logarítmica para medir esto). Sin embargo, si lo que se busca es hacer dinero tenemos otro problema: las medidas de error no están perfectamente correlacionadas con el rendimiento, es decir, puedes tener que Betfair es la que genera menos error pero no la que genera mayor rentabilidad apostando. ¿Por? Seguramente tiene que ver con la gestión de caja y la frecuencia de resultados (se necesitaría un volumen de muestra bastante grande para obtener conclusiones fiables).
Una tercera forma es estudiar los márgenes de las casas de apuestas, el overround. Si te fijas, las probabilidades que ofrecen las casas de apuestas no suman 100%. La diferencia es el margen de beneficios que se quedan las bookies. Para hacer dinero debes obtener una rentabilidad superior a ese margen. Según el método que utilices para eliminar el overround la probabilidad de cada resultado puede variar y alejarse o acercarse a una estimación mejor. En general, es mejor eliminar el overround con método logarítmico, en proporción a las cuotas o en proporción al ratio de cuotas; la eliminación por igual en todos los resultados da peores resultados. Nuevamente, esto tiene que ver con cómo funciona el mercado (cómo buscan beneficio) las casas de apuestas y en cómo se genera la información: digamos que las casas de apuestas «distorsionan» la información que les llega para elevar los beneficios. Para esto las bookies tienen muchas estrategias.
Finamente, al parecer, menores overround y menores limitaciones en la cantidad a apostar atraen más clientes, de modo que tales casas de apuestas generan más y mejor información y la distorsionan menos (menor overround). Pinnacle es una de estas casas; Marathon puede ser otra. Sobre esto hay un artículo de acceso libre muy interesante:
http://www.football-data.co.uk/blog/wisdom_of_the_crowd.php
Bueno, cómo ves hay mucho donde investigar.
El enlace de
la tesis«Inter-Market Arbitrage…» no es accesible, ¿es correcto?Para apuestas combinadas de múltiples partidos, ¿cómo actuarias?
De la tres posibles formas de atacar, cual ves mejor
Gracias
Gracias por avisar. Creo que te refieres al enlace de «Inter-Market Arbitrage…». El de la tesis funciona perfectamente. Creo que ya está solucionado. Dime si sigues teniendo algún problema.
Las apuestas combinadas solo funcionan en la misma casa de apuestas, es decir, te ves limitado a la hora de seleccionar cuotas puesto que debes seleccionar todos los resultados de un mismo bookmaker. Aumentan los pagos pero disminuyen las probabilidades de ganar. Si se pudieran elegir cuotas de diferentes casas sería excelente. Así que, en resumen, «no actuaría» en ese mercado.
Por último, si pretendes superar al mercado en cuanto a generar mejor información a partir de algún modelo estadístico lo primero que debes tener en cuenta es que es un mercado como otro cualquiera así que antes de que puedas medir realmente tu modelo te toparás con los problemas de mercados no eficientes: falta de liquidez, costes de transacción elevados que impiden el rendimiento, problemas con la oferta (algunas casas de apuestas declaran «void» cuando les parece, expulsión de ganadores), etc. De modo que siempre hay que partir de conocer el mercado (cómo funciona) para tratar de sacar partido. Por tanto, del análisis del overround y de la gestión de caja. Tengo pensado publicar algo sobre eso en un futuro (seguramente no muy lejano).
Saludos.
Gracias Daniel.
Llevas razón, era el otro. Quedo a la espera de tus nuevos artículos.Son de enorme interés
Hola Daniel.
Desde la perspectiva de cometer menor error a la hora de valorar las true odds, en tu opinión que es mejor o mejor dicho mas verdadera entre casas, una cuota más alta o una cuota más baja?
Cual de ellas crees que es mas representativa de la verdadera probabilidad de que se produzca ese suceso?
Gracias
La mejor estimación no tiene necesariamente que estar relacionada con una cuota más alta o más baja. Algunos consideran que tomar la cuota más alta por evento (1, X, 2) y luego eliminar el overround es el mejor método. En esta página tienen un paper sobre la utilización de 4 casas de apuestas (Pinnacle, William Hill, etc.) para obtener la mayor cuota, eliminar el overround y luego estimar la probabilidad con un modelo logístico. Te recomiendo leer el paper, es muy interesante y sencillo.
En mi opinión, no tiene tanto que ver con elegir las cuotas mayores o menores sino la casa de apuesta. Como he dicho en otro comentario las casas de apuestas están interesadas en hacer beneficios no en acertar, y para ello utilizan estrategias para atraer clientes: premios, ofertas, bonos por depósito, cuotas estrella para determinados partidos (esto lo hace mucho Interwetten con una política realmente lamentable de trato al cliente), etc. Por tanto, lo mejor es fijarse en una bookie que distorsione poco las cuotas, es decir, tenga bajo overround. En este otro enlace puedes consultar un comparador de cuotas y los márgenes de muchas casas de apuestas.
Espero haberte aclarado algo.
Gracias.
El paper que pones es interesantisimo pero no es de aplicación inmediata. No acabo de comprender como se puede implementar el delta de corrección de probabilidad que expone para cada posible probabilidad 1×2 sin corregir. No sé si tienes algún ejemplo de ello.
No entiendo a qué te refieres con el «delta de corrección». Si puedes ser más específico…
Gracias Daniel.
En el paper que me indicas, dice o eso interpreto que las probabilidades reales se obtienen sumándoles, con su signo, un delta de corrección obtenido por una regresión logistica una vez que se conocen los resultados habidos realmente. Yo quisiera implementar eso pero no lo acabo de entender cómo hacerlo
Ok. Ya entendí. Lo que se hace es una regresión logística. Las variables explicativas (X) son las cuotas (previamente transformadas en probabilidades) y una variable extra más que es el favorito (probabilidad de ganar del favorito según la cuotas). La variable respuesta (Y) es el resultado. Se hace una regresión logística para obtener las probabilidades de cada resultado. Dado que no estamos en tenis (gana jugador A, gana jugador B) no podemos hacer una regresión logística «simple» y hay que utilizar el modelo multinomial (más de 2 respuestas posibles: 1-X-2). Finalmente, se traslada el resultado de la multinomial a probabilidades.
Este modelo se basa en la idea de un libro según la cual en la Premier se subestiman las probabilidades de empate.
Espero haberte aclarado la duda.
Saludos.
Gracias. Ahora si.
Pingback: Premios Goya 2019. Predicciones | La economía en juguetes