Debut de Latinoamericanos en MLB

Mis artículos anteriores en el blog se basaron principalmente en análisis/visualizaciones utilizando la poderosa herramienta Tableau Public. Sin embargo, recientemente he estado estudiando un poco la herramienta R para hacer el mismo tipo de análisis.

Me parece que R no es muy atrayente al início porque su interfaz es menos amigable que la de Tableau (básicamente debemos programar todo lo que hacemos), pero después de unas lecciones importantes en internet , comprobé que es una poderosa herramienta y que es cuestión de tiempo comprender la parte abstracta del programa, para después explorarla y utilizar todo su poder.

En esta oportunidad, despúes de unos cuantos meses sin publicar artículos, quise publicar mi primer análisis utilizando R, intentando responder las siguientes interrogantes:

  • ¿Cuál es la edad promedio en la cual los jugadores latinoamericanos debutan en la MLB?,
  • ¿Cuál es el país latinoamericano en el que sus jugadores llegan más temprano a la MLB?

Para comenzar necesitaba el número de jugadores que han pasado por la MLB para cada uno de los países latinoamericanos.

En www.baseball-reference.com esta información está disponible fácilmente cuando buscamos en esta página y filtramos por todos los años disponibles (1850 o antes, hasta 2016):

20160521_Total_de_Jugadores_en_MLB

Parte del resultado de esa búsqueda está en la imagen anterior. De allí podemos observar que después de los Estados Unidos, de los 6 países con más jugadores en la historia de la MLB, 5 son latinoamericanos: República Dominicana, Venezuela, Puerto Rico, Cuba y México.
Panamá, está por debajo de Japón con 55 jugadores. Y luego seguían más abajo en la tabla Colombia con 19 y Curaçao con 14 jugadores.

Decidí entonces determinar la edad a la cual cada uno de los jugadores de estos 6 países (incluyendo panamá) debutaron en las mayores. Esta información también se encuentra disponible en la página de cada jugador en Baseball-Reference, pero sería muy tedioso buscarlas una a una.
Sin embargo, como en la página de cada uno de estos 5 países existe la fecha de nacimiento de cada jugador así como la fecha de su debut, se puede calcular/estimar la edad a la cual cada jugador tuvo su primer juego en la mayores.

Para esto, utilicé el “R Package” XML el cual permite obtener información desde páginas web directamente en R. Después de haber instalado ese aplicativo, lo cargué en el ambiente de trabajo junto con otros más que también necesitaré para las visualizaciones.

## Loading needed R packages ####
 library(XML)
 library(ggplot2)
 library(dplyr)
 library(lubridate)
 library(plotly)
 Sys.setlocale("LC_TIME","English")

Los URLs de las páginas web con información de los jugadores de los primeiros 6 países Latinoamericanos se guardan en variables de texto para utilizarlas posteriormente:
NOTA: todos los comentarios y gráficos en el código R fueron escritos en inglés una vez que serán compartidos posteriormente en Github.

# Web page scrapping with Latin American players (Top 8) ####

url_cont = c("Venezuela", "D-R-", "P-R-", "Cuba", "Mexico", "Panama", "Colombia", "Curacao")

i = 1
for (pais in url_cont) {
     url_cont[i] = paste("http://www.baseball-reference.com/bio/", pais, "_born.shtml", sep = "")
     i = i + 1
}
cont_abb = c("ven", "rd", "pr", "cub", "mex", "pan", "col", "cur")

Y es aquí dónde vino mi primer Aha! del poder que tenemos haciendo análisis con R. Con la ayuda de este artículo en fue muy fácil recoger toda esa información para cada país y convertirlas en tablas para mi posterior análisis, de la siguiente forma:

# Create several a List of the data-frames based on the Web Pages, and define the type of colum data ####
i = 1
for (link in url_cont) {
                        assign(paste("Table_", cont_abb[i],sep = ""), value = readHTMLTable(url_cont[[i]]
                        ,stringAsFactors = FALSE
                        ,colClasses=c("integer","character",rep("integer",17)
                        ,rep("numeric", 4),"factor","factor"
                        , "character", "character")
                                                                                            )
                        )
 i = i + 1
}

Luego asigné las tablas que me interesaban de cada país a un Data Frame, que es la principal forma de guardar datos en R.

## Assign First table of the Web Page of each country to a DF, which includes the target info ####
ven_batting = Table_ven[[1]]
rd_batting = Table_rd[[1]]
pr_batting = Table_pr[[1]]
cub_batting = Table_cub[[1]]
mex_batting = Table_mex[[1]]
pan_batting = Table_pan[[1]]
col_batting = Table_col[[1]]
cur_batting = Table_cur[[1]]

Después de hacer una série de correcciones a los datos

## Add name of country to each of the Data Frames ####
ven_batting$Country = "Venezuela"
rd_batting$Country = "Dominican Republic"
pr_batting$Country = "Puerto Rico"
cub_batting$Country = "Cuba"
mex_batting$Country = "Mexico"
pan_batting$Country = "Panama"
col_batting$Country = "Colombia"
cur_batting$Country = "Curacao"

## Perform some data correction into tables ####
names(rd_batting)[2] = "Name"
names(pr_batting)[2] = "Name"

## Create a unique Data Frame with all the 5 countries ####
batting = rbind(ven_batting, rd_batting, pr_batting, cub_batting, mex_batting, pan_batting, col_batting, cur_batting)

summary(batting)

# Change the type of some variables into the Data Frame ####
names(batting)[28] = "Countries"
batting$Countries = factor(batting$Countries, levels = c("Dominican Republic", "Venezuela", "Puerto Rico", "Cuba", "Mexico", "Panama", "Colombia", "Curacao"))
batting$Name = as.character(batting$Name)
batting$Birthplace = as.character(batting$Birthplace)
batting$Pos = as.character(batting$Pos)
batting$Birthdate = mdy(batting$Birthdate)
batting$Debut = mdy(batting$Debut)
names(batting)[names(batting) == "2B"] <- "X2B"
names(batting)[names(batting) == "3B"] <- "X3B"

compilé las tablas entre países, para calcular la edad estimada de los jugadores (en años) y asignar ese valor a una nueva variable de la Data Frame compilada:

batting$AgeAtDebut = as.integer(batting$Debut - batting$Birthdate)/365

 

Teniendo la tabla compilada es posible responder a ambas preguntas al inicio del artículo:

Con ayuda de un comando en R, es posible obtener esas respuestas en dos sencillas lineas de código:

  • ¿Cuál es la edad promedio en la cual los jugadores latinoamericanos debutan en la MLB?:
## Calculate the median Age At Debut of all Latin American Players ####
mean(batting$AgeAtDebut)

[1] 24.14762

Por lo tanto, 24 años es la edad promedio de los jugadores latinoamericanos (de estos 8 países) en su debut.

  • ¿Cuál es el país latinoamericano en el que sus jugadores llegan más temprano a la MLB?
## Calculate the median Age At Debut of Players by Country ####
sort(tapply(batting$AgeAtDebut, batting$Countries, mean), decreasing = FALSE)

Curacao Colombia Puerto Rico Dominican Republic Venezuela
 22.38415 23.64513 23.71233 23.89046 23.94509
 Mexico Panama Cuba
 24.51980 24.55856 25.61477

De los países analizados, Curaçao es el que tiene jugadores que han debutado, en promedio, con menor edad, a pesar de que sea un país con un número mucho menor de jugadores Grandes Ligas que los primeros 5 Latinoamericanos. Cuba, por su parte, es el país con jugadores que llegan a la MLB con más edad, lo que no es sorprendente debido a las restricciones que tenían sus jugadores para llegar a jugar en la MLB.

Por otra parte, aprovechando el potencial visual del aplicativo ggplot2, teniendo la edad de cada jugador así como la fecha de su debut, se puede graficar una scatter plot cada uno de los pares “Año del primer juego en MLB” y “Edad del jugador” para cada país.

# Create an scatter plot with all the players by countries analyzed
p_country = ggplot(data=batting, aes(x=Debut, y=AgeAtDebut)) +
            geom_point(data=batting, alpha=0.2, size=2.5) +
            geom_smooth(data=batting, aes(color=Countries), se=FALSE, size=1.5) +
            ggtitle("Age of Latin American MLB Players at their debut")+
            theme_bw()+
            xlab("Year of Debut") + ylab("Age at debut") +
            geom_text(data=subset(batting, AgeAtDebut > 40 | AgeAtDebut < 18), aes(Debut, AgeAtDebut, label = paste(Name, ",", format(AgeAtDebut, digits = 2, nsmall = 1))), hjust=0.1, vjust=1)+
            facet_wrap(~ Countries, ncol=4)
p_country

Age of Latin American Players

En el gráfico anterior se pueden ver algunos puntos interesantes:

  1. Dominicana, Venezuela, Puerto Rico, México y Panamá tienen concentrado el debut de sus jugadores más o menos desde la segunda mitad del siglo XX hasta hoy.
  2. Cuba por su parte tiene el debut de sus jugadores más dispersos, incluso desde el siglo IX, considerando el debut del jugador Steve Bellan.
  3. República Dominicana, Venezuela y Puerto Rico tienen una tendencia reciente en el aumento de la edad promedio de sus jugadores. Cuba por su parte ha mantenido constante la edad promedio de sus jugadores en los últimos años.
  4. México prácticamente tiene una tendencia constantes desde que debutara Mel Almada en 1933.
  5. Diomedes Olivo de República Dominicana es el jugador Latinoamericano que ha debutado con más edad, con más de 41 años.
  6. Por su parte, el Cubano Merito Acosta ha sido hasta ahora el latinoamericano, de los países analizados, que ha debutado con menor edad en la MLB, con un poco más de 17 años.

Considerando los 8 países, la edad promedio de los jugadores viene ligeramente en tendencia creciente desde 1979, tal y como lo muestra la gráfica siguiente:

# Create an scatter plot with all the players of countries analyzed
p_all = ggplot(data=batting, aes(x=Debut, y=AgeAtDebut)) +
        geom_point(data=batting, alpha=0.5, size=2.5) +
        geom_smooth(size=1.5) +
        ggtitle("Age of Latin American MLB Players at their debut")+
        theme_bw()+
        geom_text(data=subset(batting, AgeAtDebut > 40 | AgeAtDebut < 18), aes(Debut, AgeAtDebut, label = Name), hjust=0.1, vjust=1)+
        xlab("Year of Debut") + ylab("Age at debut")
p_all

p_all

En el transcurso del análisis, surgió otra interrogante:

  • ¿Cómo es la relación o tendencia de temporadas en MLB en función de la edad de los jugadores en su debut?

El siguiente código permite obtener una grafica para responder esa pregunta.

# Create a scatter plot of Years vs. Age At debut
p_years = ggplot(data=batting, aes(x=AgeAtDebut, y=Yrs))+
          geom_point(data=batting, alpha=0.1, size=2) +
          geom_smooth(data=batting, aes(color=Countries), size=1.5, se= FALSE) +
          ggtitle("Seasons in MLB vs. Age of player at their debut")+
          xlab("Age at debut") + ylab("Career Years") +
          geom_text(data=subset(batting, Yrs > 22), aes(AgeAtDebut, Yrs, label = Name), hjust=0.1, vjust=1) +
          theme_bw()+
          facet_wrap(~ Countries, ncol=4)
p_years

p_years

Del gráfico anterior se pueden resaltar vários puntos interesantes:

  1. La mayoría de los países tienen una tendencia decreciente o negativa del número de temporadas de un jugador en la MLB a medida que debuten con más edad. Esto es lo que esperaba una vez que si un jugador debuta con más edad, independientemente de su desempeño, tendrá menos capacidad física útil para mantenerse por más años en la MLB.
  2. Cuba es el país que tiene una tendencia diferente a los otros (a pesar de que Curaçao también tenga una curva diferente, no la consideré en este análise por causa del poco número de jugadores comparado con los primeros cinco países). En este caso, de la gráfica de Cuba se puede inferir que los jugadores que debutaron a temprana edad (menos de 20 años) tuvieron pocas temporadas en juego. Los que debutaron entre 2 y 25 años fueron los que tuvieron en promedio el mayor número de temporadas. Y debido a algunos “outliers”, los jugadores que debutaron con más de 25 años, parece que, en promedio, han tenido una tendencia constante en el número de temporadas en MLB.
  3. Los tres latinoamericanos con más temporadas en MLB son: Omar Vizquel con 24 temporadas, y Julio Franco y Tany Pérez con 23 temporadas cada uno.

En resumen, la edad promedio a la que debutan los jugadores latinos es de apoximadamente 24 años, siendo Curaçao el país con jugadores debutando más jovenes (a pesar de ser el país con menos jugadores de los 8 analizados) y Cuba con jugadores más edad.

Con relación a la aplicación R, se muestra como en pocas líneas se puede obtener información directamente desde páginas web, convertirlas en Data Frames y hacer cualquier tipo de análisis y gráficos para responder perguntas simples o complejas. Todo el código aqui expuesto puede ser copiado en una consola de R y obtener los mismos resultados de este artículo, incusive con datos más actualizados a medida que las páginas web vayan siendo modificadas.

Deja tus comentarios en el blog.

Saludos.

Daniel.

 

2014 – El primer año de Gráficos y Métricas

The WordPress.com stats helper monkeys prepared a 2014 annual report for this blog.

Here’s an excerpt:

A San Francisco cable car holds 60 people. This blog was viewed about 330 times in 2014. If it were a cable car, it would take about 6 trips to carry that many people.

Click here to see the complete report.

Mapa de transacciones en la MLB después de la temporada regular 2014

Image

Desde el 13 de octubre de 2014 ha habido una gran cantidad de transacciones de jugadores en la MLB. Un total de 236 jugadores han actualizado su estatus contractual, ya sea con sus propios equipos (extensiones de contrato) o con nuevas organizaciones (por cambios o porque eran agentes libres).

Si bien es cierto que todos los años es común este tipo de movimientos después de la temporada regular, este año me parece que han habido muchas transacciones en muy poco tiempo. En los últimos días del mes de Diciembre han sido varios los cambios que han ocurrido, y todavía hoy queda uno que otro jugador en la agencia libre así como equipos buscando terminar de ajustar sus piezas para la campaña del 2015.

Es por ese motivo que quise analizar los movimientos concretizados, hasta el día 20 de Diciembre, e identificar cuales equipos estaban más activos en estas transacciones, así como los movimientos de jugadores entre cada uno de los equipos.

Antes de avanzar con el análisis necesitaba de la materia prima, los datos de las transacciones. Después de una búsqueda en internet (no muy productiva) de una base de datos que pudiese entregar esta información ya tabulada, terminé utilizando la página que me sugirió el amigo Tomás com esta información en su forma bruta (raw data) directamente en la MLB, la cual tuve que pasar para un archivo de Excel antes de comenzar el análisis.

En la página que recomendó Tomás, escogí la información a través del siguiente filtro.

Filtro Lista de Transacciones

La lista de los jugadores resultado del filtro anterior puede ser consultada aquí.

La pregunta específica que quiero responder es ¿Cuáles son los equipos con mayor y menor actividad en las transacciones de jugadores después de la temporada regular 2104, y cómo ha sido esa “migración” de jugadores entre cada uno de los equipos?.

Para determinar la actividad de los equipos, hice el siguiente gráfico en Tableau.

Sheet 1

 

    Se puede observar en el gráfico que los Azulejos de Toronto y los Atléticos de Oakland son los dos equipos con más movimientos, mientras que los Mets de Nueva York, Gigantes de San Francisco, y Nacionales de Washington son los equipos que menos han modificado sus rosters en este período. Durante ese período, los equipos estuvieron más activos en el mes de Diciembre, habiendo un máximo de transacciones el dia de la culminación de las reuniones invernales en San Diego, el dia 11.  

Transacciones 2014

 

A pesar de las imágenes anteriores, todavía no se puede identificar entre qué equipos han “migrado” la mayoría de estos jugadores; por eso, decidí hacer nuevamente una búsqueda en Internet de alguna herramienta de visualización que me permitiese representar tanto la actividad de los equipos en las transacciones, así como representar los movimientos (o migraciones) de los jugadores entre los equipos.

En esta oportunidad, la búsqueda fue mucho más fácil, después de acordarme de unas infografías que vi hace algún tiempo en The New York Times, descubriendo la página de la herramienta Circos. Esta herramienta, a pesar de ser utilizada para originalmente para representar visualmente análisis en el área de la Genómica, también se utiliza para visualizaciones en cualquier otra rama, incluyendo, por ejemplo, migraciones … justamente lo que necesitaba para responder a la última parte de mi pregunta…

Después de unas horas de lectura, ensayo y error, pude representar la súper interesante gráfica siguiente, en la cual se aprecia tanto la actividad de los equipos (número de transacciones) como la “migración” de los jugadores, en el período analizado.

Mapa de Migraciones MLB 20142014_2015 MLB_OffSeason_HotStove Migration_citation

La visualización contiene a los 30 equipos de MLB ordenados alrededor del circulo, comenzando (a cero grados o 12 horas) con los equipos de la Liga Americana y después continuando con los de la Liga Nacional. Dentro de cada liga, los equipos están ordenados por división: Este, Centro y Oeste; y dentro de cada división están ordenados en función de como terminaron la temporada regular 2014 en la tabla de posiciones de cada división.

Existen dos segmentos adicionales que representan aquellos casos dónde los jugadores o no pertenecían a ningún equipo antes de la transacción (llamado “NO”) o fueron a un equipo fuera de la MLB (llamado “JAP” por Japón).

La imagen nos muestra que interesante han estado las negociaciones después de la  temporada, donde los equipos han buscado mejorar sus posibilidades de llegar a los playoffs. Pocos equipos dejaron sus nóminas com en la temporada pasada.

La siguiente imagen explica un poco qué significan cada uno de las partes del gráfico, para mejor entendimiento del lector.

Ejemplo

Espero que se deleiten con esta visualización.

Sus comentarios siempre serán bienvenidos en el blog o a través del twitter (@gmbeisbol).

Les deseo una Feliz Navidad y un muy venturoso Año Nuevo 2015.

 

 

 

Altuve, rumbo a ser el Venezolano con más Hits en una temporada

José Altuve empató ayer, 19 de Septiembre de 2014, la marca de más imparables en una temporada para un Venezolano en la MLB, la cual comparte al día de hoy con Magglio Ordóñez (216 Hits).

Faltándole solamente 7 juegos para finalizar la temporada, es seguro que, el de Maracay, se convertirá en el Venezolano con más Hits en una temporada de grandes ligas, teniendo la oportunidad de extender ese nuevo récord mucho más lejos que el que Magglio Ordoñez había dejado hace 7 años (el 30 de Septiembre del 2007).

Lo de Altuve este año es motivante. Solamente 4 Venezolanos podido batear más de 200 Hits en una sola campaña: César Tovar (204 Hits en 1971), Magglio Ordóñez (216 Hits en 2007), Miguel Cabrera (205 Hits en 2012) y el propio Altuve.

Los próximos gráficos muestran como Altuve ha conseguido más imparables, en menos juegos que sus 4 coterráneos en las temporadas dónde pasaron de los 200 Hits.

Temporada de Venezolanos con más de 200 Hits en MLB

Temporada de Venezolanos con más de 200 Hits en MLB

 

Hits durante la temporada

Hits acumulados a partir del juego 130

El siguiente gráfico compara los Hits acumulados de Altuve durante la temporada 2014, con los Hits acumulados de los otros tres Venezolanos en sus respectivas temporadas.

Diferencia de Hits acumulados de José Altuve, con los Hits conectados por Tovar, Ordóñez y Cabrera

Diferencia de Hits acumulados de José Altuve, con los Hits conectados por Tovar, Ordóñez y Cabrera

 

El gráfico muestra claramente como a partir de la segunda mitad de la temporada 2014, Altuve siempre ha tenido más Hits que cualquiera de los otros en sus respectivas temporadas de 200 Hits.

Es interesante la comparación con César Tóvar, una vez que en los primeiros 40 juegos este tuvo más juegos acumulados de los que tuvo Altuve esta temporada, pero a partir de allí, Altuve ligó más imparables que Tovar e inclusive le llegó a sacar más ventaja.

Por otra parte, Altuve ha conseguido sus imparables en menos turnos de los que necesitaron César Tovar y Miguel Cabrera, y por ende mejor promedio de bateo. En ese renglón solamente lo supera Magglio Ordóñez.

Promedio de Bateo de Venezolanos en temporadas con más de 200 Hits

Promedio de Bateo de Venezolanos en temporadas con más de 200 Hits

 

Esperemos que Altuve rompa el récord esta misma noche contra los Marineros de Seattle en Houston.

Dejen sus comentarios en el blog, o a través de @gmbeisbol.

Mattingly y su infield en extra inning contra San Diego

Acostumbro a ver los resúmenes de los juegos de la MLB y las noticias para estar al tanto de lo que pasa en la mejor pelota de mundo.

Sin embargo, hay tanta información que obviamente es imposible estar enterado de todo. Pero gracias al amigo José, después que publicara una noticia en el mural de nuestro equipo de béisbol, fue que me enteré de la estrategia de Don Mattingly (Manager de los Dodgers) de colocar un infield con 5 jugadores (cuatro de ellos entre primera y segunda base) en la parte baja del 12º inning contra los Padres de San Diego, el 29 de Agosto del 2014.

Después de ver el video de la jugada que publicó José, me pregunté hasta que punto Don Mattingly estaría tan seguro, de que si la pelota llegaba a ser bateada por Seth Smith (bateador de los Padres en esa jugada), la misma tendría más probabilidades de ir por ese lado del campo, evitando así que lo dejaran en el terreno (una vez que las bases estaban llenas).

Por lo tanto, me propuse analizar el décimo segundo inning de ese juego para intentar inferir lo que llevaría a Mattingly a tomar esa decisión de colocar un cuadro tan poco usual.

Inning 12:

Con el juego empatado a 2 carreras, el pitcher que comienza a lanzar ese inning por los Dodgers (último lanzador que Mattingly tenía en el bullpen) es el derecho Kevin Correia.

El primer bateador de los Padres al que enfrenta es al zurdo Alexi Amarista, quien al primer lanzamiento le batea un sencillo al jardín izquierdo, siendo la potencial carrera de dejar en el terreno a los Dodgers.

El segundo bateador es el zurdo Jake Goebbert, quien batea un fly al jardín central/derecho, también al primer lanzamiento. Amarista se mantiene en primera base.

El tercer bateador del inning es el ambidextro Yangervis Solarte quien, bateando a la zurda, recibe boleto con cuatro lanzamientos fuera de la zona.

Con corredores en primera (Solarte) y en segunda base (Amarista), toma el turno al bate el ambidextro Abraham Almonte que también se para en el plato a batear a la zurda. Antes de ese turno, Almonte tenía un average de 1.000 contra Correia, con 2 sencillos, 1 doble, y un boleto. La imagen siguiente (obtenida desde baseballsavant) muestra el histórico de enfrentamientos entre Correia y Almonte.

Kevin Correia vs Abraham Almonte

Enfrentamientos Kevin Correia vs Abraham Almonte

El primer lanzamiento de Correia es una bola contra el piso que Almonte la deja pasar. Hasta ese momento el cuadro de los Dodgers se mantenía normal para la situación, jugando para doble play.

Infield jugando para doble play

Infield jugando para doble play, en cuenta de 1-0

El segundo es un lanzamiento quebrado contra el suelo, que hizo abanicar a Almonte, pero a su vez, no puedo ser controlado por el receptor A.J Ellis, permitiendo que los corredores avanzaran una base. El lanzamiento fue oficialmente decretado wild pitch.

A partir de este momento, con corredores en segunda (Solarte) y en tercera (Amarista) y cuenta de 1-1, Mattingly decide cerrar el cuadro y traer al jardinero central Andre Ethier para cubrir la primera base, mientras que Adrián González jugaría entre el primera base y el segunda base.

Infield vs Almonte, con corredores en 2B y 3B

Infield vs Almonte, con corredores en 2B y 3B

Generalmente, al jugar cuadro adentro se pretende que cualquier rolling por el cuadro permita sacar out en el home al corredor de tercera base, evitando la carrera.

Esta estrategia del manager de los Dodgers parece estar de acuerdo para cubrir las zonas donde Almonte le batea con más frecuencia (rojas) a los derechos, tal y como se puede observar en la imagen siguiente, obtenida de baseballsavant.

Spray Chart Heat Map - A. Almonte vs lanzadores derechos

Spray Chart (Heat Map) – A. Almonte vs lanzadores derechos

Almonte acabaría por recibir boleto para llenar las almohadillas.

Con las bases llenas, le tocaba el turno al quinto bateador del inning, el zurdo Seth Smith; y es a partir de este momento cuando Mattingly decide colocar a 4 de sus infilders a jugar entre la primera y segunda base, haciendo como una especie de pared en esa zona del cuadro. Es esta la jugada que llama más la atención y es la que quise analizar con más detalle.

Infield vs Seth Smith, con las bases llenas

Infield vs Seth Smith, con las bases llenas

Lo curioso es que con esta disposición del cuadro, existía una zona libre en el infield, que cualquier batazo, sin necesidad de tener mucha fuerza, permitiría que el corredor de tercera anotase y, por ende, en esta situación, se acabase el partido.

Zona libre entre el tercera base y la segunda base

Zona libre entre el tercera base y la segunda base

Por lo tanto, presumo que Mattingly sabia que la probabilidad de que el roletazo saliese por el lado derecho del campo era muy alta, y permitiese forzar el out en el home y mantener el juego vivo.

Seth Smith tenía 8 hits en 23 turnos de por vida contra Correia, para un average de .348. La imagen siguiente muestra también una ligera tendencia de batazos hacia la parte derecha del campo de Smith contra Correia, aunque muchos de ellos siendo hacia el jardín derecho.

Enfrentamientos Correia vs Smith

Enfrentamientos Kevin Correia vs Seth Smith

Para complementar los datos de los turnos contra Correia con una muestra de batazos mayor, decidí adicionar también el Spray Chart de Seth Smith contra los pitchers derechos.

Spray Chart (Heat map) Seth Smith

Spray Chart (Heat map) Seth Smith vs lanzadores derechos

En ella se identifica que la mayor parte de los batazos de Smith, contra los derechos, han sido hacia la parte derecha infield (zona roja), la misma zona que Mattingly mandó a cubrir a su infield de cuatro jugadores, entre primera y segunda.

Sin embargo, creo que no Mattingly no se debió basar solamente en esa información, sino quizás también en el histórico de los tipos de lanzamientos que resultaron en batazos hacia esa zona del campo, tanto desde el punto de vista del lanzador, como del bateador.

Para ello, intenté investigar cuales tipos de lanzamiento, según el histórico del pitchF/X de Kevin Correia habían producido más rollings hacia esa zona del campo, así como cuales tipos de lanzamientos a los que Seth Smith había bateado más roletazos entre primera base y segunda base.

Estas informaciones no pretenden correlacionar el tipo de lanzamiento que produciría el resultado que Mattingly pensaba tenía más probabilidades de ocurrir, sino simplemente ver lo que había pasado en esos casos anteriormente, y así tener una referencia con lo que finalmente sucedió en ese turno.

Para este análisis, me basé en la información disponibilizada por Baseballsavant.com, la cual es la misma disponibilizada por el sistema pitchF/X de MLBAM. Es importante indicar que esta información de los lanzamientos (disponibilizada por pitchF/X) es clasificada automáticamente por un algoritmo en tiempo real, las cual en algunos casos podrá tener algún margen de error con relación al tipo de lanzamientos. Sitios como Brooksbaseball analizan esta información diferidamente y reclasifican los pitcheos en función de comparaciones realizadas con otras fuentes (videos, trayectórias anteriores, etc.), pero el análisis en este artículo se basa solamente en la de Baseballsavant.

  1. Información relacionada con el Lanzador (Kevin Correia):

Según este sitio, antes del juego del 29 de Agosto, habían han sido rastreados 17.757 lanzamientos de Kevin Correia con el pitchF/X. Por lo que a través de un query a esa base de datos, extraje los lanzamientos que produjeron roletazos entre primera y segunda base, obteniendo un total de 619 lanzamientos (3.5028% de los 17.757).

Lanzamientos de K. Correia que produjeron rollings por 1B y 2B

Lanzamientos de K. Correia que produjeron rollings por 1B y 2B

 

De esos 619 lanzamientos, el 29,1% fueron sliders. Le siguieron los cambios de velocidad con 22% de los mismos.

 

 

 

Zonas donde cayeron los 612 lanzamientos de Correia

Zonas donde cayeron los 619 lanzamientos de Correia, que produjeron roletazos entre 1B y 2B

 

Observando la localización de los 619 lanzamientos, el 18,09% de ellos (zona con mayor porcentaje) cayó abajo y afuera (desde el punto de vista de bateadores zurdos).

 

 

 

 

 

Por lo tanto, desde el punto de vista de Correia, el slider y el cambio, abajo y afuera han sido los tipos de lanzamiento (con mayor porcentaje) que han producido más roletazos entre primera y segunda. Resalto que esta información es meramente histórica, y no podemos decir que está correlacionada con este resultado.

  1. Información relacionada con el Bateador (Seth Smith):

Desde el punto de vista del bateador, según baseballsavant habían sido rastreados 11.051 lanzamientos a Seth Smith. A través de este query a esa base de datos, se obtienen 478 lanzamientos (4.3254%) que produjeron batazos por la zona en análisis.

Lanzamientos a los que  Seth Smith bateó roletazos por 1B y 2B

Lanzamientos a los que Seth Smith bateó roletazos por 1B y 2B

De los 478 lanzamientos, el 23% correspondió a rectas de 4 costuras (mayor porcentaje). Entretanto el cambio de velocidad se posicionan como el segundo tipo de lanzamiento, con 17,8%.

Zonas Smith

Zonas donde cayeron los 478 lanzamientos que Smith bateó roletazos entre 1B y 2B

La zonas donde cayeron los 478 lanzamientos a los que Smith bateó rollings entre 1B y 2B, indican que la zona con mayor porcetaje (27,6%) se concentra en lanzamientos abajo y afuera.

Por lo tanto históricamente, han sido rectas y cambios, afuera y abajo, el mayor porcentaje de lanzamientos que Smith ha bateado para la parte derecha del infield.

Ahora, revisemos lo que realmente ocurrió en ese turno del 29 de Agosto de 2014, entre ambos jugadores, según el pitchF/X.

Kevin Correia trabajó a Smith con sliders. El primero de ellos estuvo en la zona y fue cantado strike.

Zone CorreiaVsSmith - GB (0-0)Zone CorreiaVsSmith - GB 0-0

 

 

 

El segundo de ellos estuvo también en la zona, pero un poco más abajo, al cuál Smith le hizo swing, produciendo un rolling por la posición habitual del segunda base.

Zone CorreiaVsSmith - GBZone CorreiaVsSmith - GB 0-1

 

 

 

Choper Seth Smith to 2B Gordon

Rolling de Smith por el 2B Gordon

Afortunadamente, para Don Mattingly, el infield que había definido le resultó para evitar la carrera de los Padres de ganar el encuentro en ese turno, en las piernas de Alexi Amarista, con un out forzado en el home; gracias a una gran jugada del receptor Ellis que recibió un piconazo en el tiro del segunda base, pero sin poder completar una doble matanza en primera que pudiese haber terminado el inning.

Para Mattingly, este infield poco usual parece haber estado en el momento correcto …

Recepción de Ellis - Force out2

Amarista forzado en el home

Con el inning ahora en 2 outs y las bases llenas, Mattingly restablece su defensiva para jugar normalmente al enfrentarse a Yasmani Grandal, y así buscar el out en cualquier base.

Contra los derechos, Grandal tenía una distribución un poco más abierta que la de Smith, por lo que con 2 outs era lo más normal.

Grandal, Yasmani_HeatMapVs Right

Spray Chart (Heat map) Yasmani Grandal vs lanzadores derechos

 

 

 

 

 

 

 

 

 

Después de estar en cuenta de 0-2, Grandal llegó a alcanzar la cuenta máxima de 3-2, y en el séptimo lanzamiento del turno, bateó un roletazo entre el primera y el segunda base, que pasó de hit hacia el jardín central, permitiendo que Yangervis Solarte anotase la carrera de dejar en el terreno a Los Dodgers.

Swing Grandal

Hit de Grandal al séptimo lanzamiento

 

Hit Grandal_2

Trayectoria del batazo de Grandal, que pasa donde Adrián González le estuvo cubriendo a Smith

Desafortunadamente para Los Dodgers y para Mattingly, el rolling de Grandal pasó justamente por donde Adrián González estuvo cubriéndole a Seth Smith en el turno anterior … por lo que el batazo de Grandal también parece haber venido en el momento cierto, convirtiéndose en el héroe del partido…

Este tipo de situaciones son las que hacen al Béisbol un juego interesante y no muy rápido de entender por aquellos que no crecen viendo este deporte.

Dejen sus comentarios en el blog, o a través de @gmbeisbol.

Saludos.

Un análisis a los debuts de los Venezolanos en las Grandes Ligas

En Venezuela, el Béisbol es nuestro pasatiempo nacional, donde cada día más y más niños entrenan desde muy pequeños para intentar alcanzar el sueño de ser un Grandes Ligas.
Este artículo muestra un análisis de los debuts de Venezolanos en la Major League Baseball.

Los datos utilizados en este análisis fueron obtenidos desde varias fuentes: Wikipedia, MLB y Baseball Reference, mientras que el análisis de los datos se realizó con Tableau Public.

Inicialmente se analizaron los Estados dónde nacieron los 314 jugadores. Vale la pena destacar que a pesar de que la lista considera a Aurelio Monteagudo (nacido en Cuba), los dos gráficos siguientes lo excluyen a él de la lista, considerando solamente los nativos de Venezuela.

Estados Venezolanos dónde han nacido los Grandes Ligas

Estados Venezolanos dónde han nacido los Grandes Ligas

Más de la mitad de los peloteros que han debutado oficialmente, provienen de apenas 4 Estados (o Distritos): Distrito Capital (49 jugadores), Carabobo (42), Zulia (41) y Aragua (35). Solamente 5 Estados (Amazonas, Apure, Barinas, Delta Amacuro y Trujillo) no han tenido protagonistas en la mayores.

El siguiente mapa muestra esa distribución geográficamente.

Estados (Mapa)

Distribución geográficas de los Estados nativos de los Big Leaguers Venezolanos

Por otra parte, también analicé la distribución de los equipos donde los peloteros Venezolanos han debutado.

Equipos donde han debutado los Venezolanos

Equipos donde han debutado peloteros Venezolanos

El gráfico anterior identifica inclusive los equipos que ya dejaron de existir (con barras rojas).

Curiosamente, el equipo dónde más han iniciado su carrera de Grandes Ligas los peloteros Venezolanos son los Canadienses Azulejos de Toronto, con 18 debuts en total.

En la otra cara de la moneda, hay un equipo existente actualmente, donde a pesar de ya tener casi una década (después de cambiar su nombre en el 2005), solamente ha visto debutar a un Venezolano: Alexi Amarista en el año 2011 con los Los Angelinos de Los Ángeles de Anaheim.

El próximo mapa presenta la distribución geográfica de todos los debuts por los clubes de béisbol

Por Equipos_Mapa

. Sede de los equipos donde han debutado Venezolanos

Habiendo analizado el Estado origen de los peloteros así como los equipos donde han debutado, analicé los debuts por años.

Número de debuts por año

Número de debuts por año

Este gráfico excluye los años donde no debutaron jugadores Venezolanos, desde 1939. En el mismo se identifica fácilmente cual ha sido el máximo número de jugadores que han debutado en una misma  temporada, 18, que ha ocurrido dos veces, en el 2006 y 2008.

Ahora, incluyendo todos los años desde 1939, se puede identificar la mayor diferencia de tiempo entre debuts consecutivos, casi 6 años, la cual ocurrió en la década de los años 40, entre el debut de Jesús Ramos (#2) en 1944 y el debut de Alfonso Carrasquel (#3) en 1950.

Debut por años, desde 1939

Debut por años, desde 1939

En el gráfico también se puede observar que el último año en el cual no debutó ningún Venezolano en la Gran Carpa fue en 1986, hace ya casi 30 años.

Analizando estos datos desde un punto de vista acumulativo, se puede ver claramente la evolución exponencial en los últimos años (curva azul) así como la tendencia de la misma (curva roja).

Evolución de los debuts de Venezolanos en la MLB

Evolución de los debuts de Venezolanos en la MLB

Un dato interesante es que el más del 60% de los peloteros que han vestido por primera vez la camiseta de un equipo profesional de Grandes Ligas lo han hecho en este siglo.

Desde el punto de vista de posiciones de estos jugadores, los Lanzadores y Campo Cortos representan más del 55% del total. El gráfico de barras siguiente también representa los jugadores que fueron considerados activos en este análisis (barras verdes), una vez que habían participado durante la temporada 2014 de la MLB.

Jugadores por posición

Jugadores Venezolanos por posición

Analizando también la distribución de los debuts por sus fechas de acontecimiento, se observa que casi el 50% de los mismos se han producido al inicio o al final de la temporada de Grandes Ligas, en los meses de Abril y Septiembre.

Debut de Venezolanos por meses

Debut de los Venezolanos por meses del año / temporada MLB

Considerando que este artículo está siendo publicado en Agosto del 2014, y en lo que va de año han debutado 12 peloteros, el gráfico anterior nos permite inferir que hay altas probabilidades de que la lista de este año se extienda a un total de peloteros cercano al de los años 2006 y 2008, o que llegue a ser el mejor año hasta ahora, si llegasen a debutar al menos 7 peloteros más desde esta fecha. Espero que así sea!!!

Por último, para los lectores que aún desean curiosear un poco más con estos datos, disponibilicé en Tableau Public una infografía interactiva con parte del análisis y algunos gráficos de este artículo. La infografía es súper interesante, ya que permite hacer varios filtros para continuar a responder otras preguntas, como por ejemplo:

  • Cuales son los jugadores (lista) que han debutado en la MLB por lugar de nacimiento (Estado Venezolano), o
  • Cuales son los jugadores que han debutado por equipos en la MLB, o
  • Número de peloteros que han debutado por tipo de posición, y si este ha jugado en el 2014, o
  • Peloteros que debutaron entre las décadas de los 80 y 90, provenientes de un estado y un equipo en particular,
  • Entre otras…

Espero que lo disfruten.

No se olviden de dejar sus comentarios a través del Twitter o al final del artículo.