Reporte Tecnico sobre Predicción de la accidentalidad en Medellín
Pamela Escobar Palacio1, Juan Jose Monsalve Patino2, José Julián Aguirre Ramírez3, Santiago Mejia Carmona4,
1 Estudiante de Ingeniería Administrativa, Universidad Nacional de Colombia, sede Medellín.
paescobarp@unal.edu.co
2 Estudiante de Ingeniería Industrial, Universidad Nacional de Colombia, sede Medellín.
jumonsalvep@unal.edu.co
3 Estudiante de Ingeniería Industrial, Universidad Nacional de Colombia, sede Medellín.
joaguirrer@unal.edu.co
4 Estudiante de ingeniería de sistemas, Universidad Nacional de Colombia, sede Medellin.
sanmejiacar@unal.edu.co
Índice
1. Introducción
2. Objetivos
3. Problema
4. Metodología de solución
5. Análisis descriptivo
6. Modelos y desempeño
7. Resultados
8. Aprendizaje
9. Bibliografia
10. Repositorio:https://github.com/PamelaEscobarPalacio/Prediccion_accidentes_Medellin
11. Aplicación web:http://ec2-3-239-236-41.compute-1.amazonaws.com:8000/
12. Video publicitario: https://youtu.be/xqlW4EjXJhE?si=MSO6VV_S1u0cYMkG
1. Introducción
Este informe se centra en ofrecer un análisis de la incidencia de accidentes en la ciudad desde el año 2014 hasta 2020, reportados que se encuentra en http://medata.gov.co/dataset/incidentes-viales que publica la Alcaldía de Medellín en el portal MeData https://www.http://medata.gov.co/. Un aspecto crucial de este análisis es la evaluación del rendimiento del modelo de predicción aplicado entre los años 2021 y 2024, esto permitirá una comprensión más precisa de la evolución de la seguridad vial en Medellín.
2. Objetivos
Objetivos general
Predecir la cantidad de accidentes en la ciudad de Medellín entre los años 2021 y 2024.
Objetivos específicos
Pronosticar la accidentalidad en Medellín teniendo en cuenta la fecha y la clase del accidente a nivel semanal, mensual, diario, teniendo en cuenta fechas especiales como quincenas, festivos, navidad y Halloween y fines de semana.
Explicar el modelo utilizado para realizar la predicción de accidentes.
Agrupar cada barrio de la ciudad de Medellín en 6 grupos y explicar las características individuales de cada barrio y las del grupo a las que pertenece cada barrio.
3. Problema
Durante las últimas décadas, la región ha experimentado un notable aumento en la incidencia de accidentes de tráfico en la ciudad de Medellín [1]. Este incremento se ha atribuido a diversos factores, entre los que se destacan la complejidad del sistema de transporte, el continuo crecimiento de la población y la expansión de la urbanización. Estos desafíos han provocado preocupantes problemas de movilidad, que han sido agravados por el aumento sustancial de vehículos en la región, en particular, los de motorización.
Para alcanzar los objetivos mencionados anteriormente, se ha procedido a la segmentación de los datos, utilizando una variedad de variables y datos como por ejemplo la navidad, días festivos, Halloween y fines de semana; y se han realizado agrupamientos que se consideraron más apropiados. Este enfoque integral proporcionará una visión más completa y útil de la dinámica de los accidentes en la ciudad, desglosada por comunas y barrios, y contribuirá a una toma de decisiones más informada en materia de seguridad vial en Medellín.
4. Metodología de solución
Inicialmente se realiza la limpieza del dataframe debido a que este presenta datos con diferencias ortográficas que lo llevan a estar repetidos, datos nulos o falta de información que pueden llevar a errores en procedimientos futuros, igualmente se introducen las fechas con festivos desde 2014 hasta 2020. Lo cual da un total final de 242.008 datos, con los cuales se realiza un modelo predictivo, basados en técnicas de aprendizaje estadístico, para obtener la predicción de accidentes en Medellín según el tipo de accidente choque, debido a que la mayoría de accidentes viales son de este tipo, esta razón puede brindar una mejor predicción y ser una herramienta útil para la secretaría de movilidad, ya que a partir de esto puede saber en qué fechas específicas es más alto el índice de accidentes y crear estrategias para prevenir este tipo de accidentes.
Ademas, se incluyen las siguientes variables que son fechas especiales de cada año con el fin de realizar un mejor modelamiento para la predicción de accidentes tipo choque entre 2021 y 2024:
- Navidad: incluye los días 24 y 25 de diciembre
- Halloween: día de disfraces el 31 de octubre
- Festivos: cuenta con los días festivos celebrados en Colombia
- Fines de semana: incluye los sábados y domingos.
- Día de padres y día de madres
Al experimentar con la construcción del modelo se determina que no es significativa la variable de día de padres y madres para el modelo al evaluar la significancia de la misma. Portal motivo se determina que es mejor no incluirla.
Se incluye una clusterización por los barrios de Medellín, vemos que el dataframe presenta datos solo de 313 barrios, sin embargo según la alcaldía de Medellín existen 5 Corregimientos, 249 Barrios, 52 Veredas (rurales oficiales) y 20 Áreas Institucionales (urbanos), lo cual suma un total de 326 [2], lo cual nos lleva a suponer que no hay datos de 13 barrios, por ende están clasificados sin información.
Específicamente cada barrio se clasifica en uno de seis grupos con el fin de identificar la cantidad de muertes causadas por choques en cada barrio y las características del grupo al que pertenecen, como por ejemplo el diseño de la vía donde más ocurren accidentes y la cantidad de accidentes tipo choque.
Se selecciona el conjunto de entrenamiento entre los años 2014 y 2019, y el conjunto de prueba solo con los datos de 2019, debido a que si se evalúa con los datos de 2020 no se obtiene una predicción correcta, ya que los datos presentes en el año 2020 presentan una particularidad y es que fue el año donde inició la pandemia y habían mayores restricciones para las personas salir [3]. Por tal motivo, incluir el año 2020 podría generar una incorrecta predicción.
Se utilizó el modelo de regresión Poisson generalizado (GLM, por sus siglas en inglés) al conjunto de datos de accidentes tipo choque en Medellín. En particular, el modelo se ajusta a los datos de entrenamiento utilizando una regresión Poisson. Por otro lado, el criterio de éxito del modelo predictivo es el error cuadrático medio de la predicción, los cuales nos muestran que el modelo está bien entrenado para realizar la predicción para accidentes tipo Choque entre los periodos de tiempo 2021 y 2024
En este caso usamos Z-Score ya que Utilizar el Z-Score es una técnica común para identificar outliers en un conjunto de datos. El Z-Score es una medida estadística que indica cuántas desviaciones estándar un valor específico se encuentra por encima o por debajo de la media de la distribución [4].
En el clustering, se realiza un análisis de silueta para evaluar la calidad de la agrupación de datos utilizando el algoritmo K-Means en un rango de números de clusters (n clusters) del 2 al 14.
La aplicación que se utilizó para realizar la predicción y el agrupamiento es Google colab y para realizar
la aplicación se utilizó la extencion de python de html.
5. Análisis descriptivo
A continuación se presentan cada una de las variables presentes en el data frame y sus definiciones para el problema.
Tabla 1. Descripción de variables
Resumen de variables categóricas: a continuación se presenta un resumen de cada una de las variables categóricas del problema
Tipo accidente: se ve que la mayoría de datos presentan accidente de tipo Choque con 164.389, luego le sigue Atropello con 22.948 y le sigue Caída Ocupante con 20.713 datos en este tipo de accidente:
Tabla 2. Cantidad de accidentes por tipo de accidente.
Diseño de la vía, se ve que la mayoría de datos presentan accidentes en el diseño tramo de vía con 168.649 datos, luego se encuentra Intersección con 40.868 datos y le sigue Lote o Predio con 22.307 accidentes en este diseño de vía:
Tabla 3. Cantidad de accidentes por diseño de la vía.
Gravedad accidente, se ve que la mayoría de accidentes presentan heridos con una cantidad de 131.558, luego se encuentra accidentes con Solo daños y una cantidad de 109216, finalmente le sigue accidentes Con muertos con un total de 1.234:
Tabla 4. Cantidad de cada tipo de gravedad del accidente.
Variable año, la mayoría de accidentes ocurrieron en el año 2016 con 43.456 accidentes, luego 2015 y le sigue 2017. De último tenemos 2020 con 10073 lo cual se puede deber a que la base de datos no abarca todo el año completo y también debido a la pandemia hay menos carros en circulación en las calles y por tal motivo menor probabilidad de accidentes:
Tabla 5. Cantidad de accidentes cada año.
Mes, vemos que la mayoría de accidentes ocurren en el mes de agosto con un total de 24.077 accidentes, el siguiente mes con más accidentes es septiembre con 22.392 y luego julio con una cantidad de 22.346 accidentes:
Tabla 6. Cantidad de accidentes mensual.
Comuna, están las comunas 10, 2, 1, 15, 14, 11, 7, 6, 4, 9, 5, 80, 13, 8, 16, 3, 12, 70, 60, 90, 50. La comuna con mayor accidentes es la comuna 10 La Candelaria y le sigue la comuna 11 Laureles Estadio, luego está la comuna 5 Castilla con 23.206 accidentes:
Tabla 7. Cantidad de accidentes en cada comuna.
Barrio, presenta 313 barrios, el que presenta mayor cantidad de accidentes es La Candelaria con 5.897 accidentes, luego Campo amor con 5.135 y finalmente está el Perpetuo Socorro con 5.060. Por otro lado está el Corregimiento de San Sebastián de Palmitas, el cual tiene la menor cantidad de accidentes.
Tabla 8. Cantidad de accidentes por barrio.
Tipo de accidente o cantidad de accidentes por año, En el siguiente gráfico se logra ver la cantidad de accidentes que hay por cada tipo de accidente en los años 2014, 2015, 2016, 2017, 2018, 2019, 2020 respectivamente.
Figura 1. Cantidad de accidentes por cada clase de accidente.
Efectos de la pandemia.
Antes de explicar la siguiente sección de modelos y desempeño, se desea profundizar un poco más sobre cual es el efecto que tiene la pandemia sobre los accidentes en Medellín. De la figura 1, que presenta la cantidad de accidentes según el tipo de accidentes de cada año, es notable la gran diferencia que existe según la cantidad de accidentes que ocurrieron en el 2020 con respecto a los demás años anteriores. Esto clarifica la idea de que al incluir el año 2020 en algún modelo de predicción, este no ayudaría a entender muy bien el comportamiento histórico, por ende no seria muy útil para la predicción. Incluir el año 2020 en el modelo de predicción de accidentes en Medellín podría resultar contraproducente debido a las circunstancias excepcionales que caracterizaron ese periodo. El año 2020 estuvo marcado por la pandemia de COVID-19, que llevó a medidas de confinamiento, restricciones de movilidad y cambios significativos en los patrones de comportamiento de la población. Estos factores extraordinarios afectaron drásticamente la cantidad y la naturaleza de los accidentes de tráfico, creando una brecha significativa en la información histórica sobre la cual se basan los modelos predictivos.
La anomalía de ese año podría distorsionar la capacidad del modelo para anticipar de manera precisa los riesgos de seguridad vial en condiciones normales, haciendo que la inclusión de datos del 2020 en estos modelos carezca de utilidad para proyectar de manera efectiva los patrones futuros de accidentes en Medellín.
6. Modelos y desempeño
El modelo tiene como objetivo presentar la predicción de la cantidad de accidentes que ocurrirán a nivel mensual, semanal y diario en la ciudad de Medellín, teniendo en cuenta las quincenas, días festivos, y cantidad de accidentes históricamente con el tipo de accidente Choque.
Se selecciona el conjunto de entrenamiento entre los años 2014 y 2018, y el conjunto de prueba solo con los datos de 2019, debido a que si se evalúa con los datos de 2020 no se obtiene una predicción correcta, ya que los datos presentes en el año 2020 presentan una particularidad y es que fue el año donde inició la pandemia y habían mayores restricciones para las personas salir. Por tal motivo, incluir el año 2020 podría generar una incorrecta predicción. Se incluyen las variables día festivo, quincena, navidad, halloween, dia de padres y madres fin de semana y cantidad de accidentes (y). Dell summary del modelo se puede concluir que tiene 5 grados de libertad, tiene un R2= 0.6987, el cual indica que el modelo de regresión lineal ha logrado explicar una gran proporción de la variabilidad en los datos. En general, sugiere un buen ajuste del modelo a los datos, donde una proporción significativa de la variabilidad se ha tenido en cuenta en el modelo.
Al experimentar con el modelo es evidente que la variable madfres y padres no es significativa para el modelo por lo tanto se procede a no incluirla, despues de realizar este paso, obtenemos los siguientes resultados.
Tabla 9. Summary modelo de regresión lineal generalizado
En la tabla 10, se presenta el intercepto, el cual es la variable objetivo y las demás variables que se mencionaron anteriormente, identificamos que el p-valor asociado a la prueba de hipótesis.
Tabla 10. Intercepto y coeficientes
coef |
std err |
z |
P>|z| |
[0.025 |
0.975] |
|
Intercept |
|
|
|
|
|
|
Halloween [T.1] |
|
|
|
|
|
|
fin_de_semana
[T.1] |
|
|
|
|
|
|
navidad
[T.1] |
|
|
|
|
|
|
dia_especial
[T.1] |
-0.0915 |
|
|
|
|
|
quincena
[T.1] |
|
|
|
|
|
|
Criterio de éxito, El criterio de éxito del modelo predictivo será el error cuadrático medio de la predicción, los cuales nos muestran a continuación que el modelo está bien entrenado para realizar la predicción de accidentes tipo Choque en los periodos de tiempo entre 2021 y 2024. Recuerda que no se realizó predicción para el año 2020 debido a que fue un año particularmente atípico y el histórico de 2014 al 2019 se comportan muy diferentes a este. Esta variación nos demuestra que el modelo presenta un buen entrenamiento.
MSE de entrenamiento:271.40912172556773
MSE de evaluación:291.3655496072441
7. Resultados
Se puede decir que como resultado de una serie con cambios de nivel y pendiente nula, de varianza aproximadamente constante además de arrojar una tendencia constante donde hay indicios de presencia de un patrón periódico siendo los menores valores pronosticados para los días 24, 25 de diciembre y el primero de enero.
Figura 2. Predicción de accidentes tipo choque diarios
Figura 3. Predicción de choques semanalmente
En la segmentación por meses, se evidencia que Marzo tiene el mayor número de accidentes registrados, seguido de agosto y octubre, y el mes con menos cantidad de accidentes registrados es febrero.
Figura 4. Predicción de choques mensualmente
Agrupación de barrios
Ahora realizamos un nuevo data frame que sólo contiene las siguientes variables para realizarles clusterización a cada uno de los barrios:
Cantidad de muertes
Cantidad de choques
Cantidad de accidentes según el diseño de la vía
Creamos una matriz de correlación entre el total de las variables seleccionadas, ya que muestra cómo las variables se relacionan entre sí. Las correlaciones positivas indican una relación directa entre las variables, mientras que las correlaciones negativas indican una relación inversa. Esta información puede ser útil al elegir qué variables considerar al realizar la clusterización y para darle una buena interpretación a los resultados.
Figura 5. Matriz de correlación
Definimos una cantidad de 6 grupos ya que el score asignado respectivamente es al menos mayor a 0,5 el cual sirve de base para seleccionar la cantidad de clusters.
Figura 6. Puntuación de silueta promedio de todos los valores.
Guardamos los datos de cada cluster y esta es la caracterización de ellos:
Cluster 0: Es el grupo de barrios con menos accidentes viales.
Características:
Número de muertos: 1
Número de choques: 133
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía
El segundo tipo de vía que presentó mayor cantidad de accidentes es en intersecciones y en tramo de vía
Los tipos de vía con menos accidentes son ciclorruta, pasos elevados, inferior y a nivel, puentes, pontón y vía peatonal.
Estrategias: Este grupo se compone de barrios con calles estrechas y pendientes, por tal motivo se propone lo siguiente:
Crear una campaña con inteligencia artificial que sea llamativa para los conductores, motivando la responsabilidad vial y el buen control de accidentes que se le puede brindar a los barrios en pro de la conciencia vial. .
Establecer cámaras de foto-multas y de velocidad en las intersecciones y en los tramos de vías con mayor cantidad de choques, permitiendo a los conductores saber de su cercanía a estas mismas y poder manejar más conscientes.
Cluster 1: Es el tercer grupo de barrios con más accidentes viales.
Características:
Número de muertos: 11
Número de choques: 1,749
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía con 1.563 accidentes
El segundo tipo de vía que presentó mayor cantidad de accidentes es en intersecciones y en Lote o Predio
Los tipos de vía con menos accidentes son vía peatonal, túnel y pontón
Estrategias:
Este grupo se compone de áreas instituciones, laborales y sociales, por eso se propone lo siguiente:
Crear campañas de concientización para los estudiantes de universidades, trabajadores y en empresas del sector, con publicidad creativa y con gran alcance en redes sociales, dando a conocer las consecuencias de conducir trasnochado, tomado o distraído.
Crear uno o varios robots de realidad virtual que se establezcan en los parqueaderos de lugares públicos, universidades y empresas para que brinden estrategias de prevención de choques y permita la interacción con la misma.
Cluster 2: Es el tercer grupo de barrios con menos accidentes viales.
Características:
Número de muertos: 7
Número de choques: 881
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía
El segundo tipo de vía que presentó mayor cantidad de accidentes es en intersecciones y luego Lote o Predio
Los tipos de vías con menos accidentes son vía peatonal, paso a nivel, túnel y pontón.
Estrategias:
Este grupo se caracteriza por tener más espacios deportivos y parques, por eso, se propone lo siguiente:
Implementar más señalizaciones y luces tanto de día y de noche que resalten y sean visibles para los conductores.
En los parques y espacios deportivos poner robots que hagan un recorrido en un pequeño vehículo con el fin de llamar la atención de las personas y que estos incentiven conducir sin afanes y conscientes.
Cluster 3: Es el grupo de barrios con mayor cantidad de accidentes viales.
Características:
Número de muertos: 21
Número de choques: 3,774
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía con 3,617
El segundo tipo de vía que presentó mayor cantidad de accidentes es en intersecciones
Los tipos de vía con menos accidentes son túnel y pontón
Estrategias:
Los barrios de este grupo se caracterizan por tener plazas muy importantes para la ciudad como por ejemplo la plaza de botero, la iglesia del perpetuo socorro, sitios turísticos y por talleres y bodegas, por lo tanto ser muy concurridos tanto por habitantes de la cuidad como turistas, por ello se proponen las siguientes estrategias para disminuir la gran cantidad de accidentes que ocurren en estos barrios.
Por medio de la secretaría de movilidad y la alcaldía, brindar la posibilidad de tener acceso a sistemas avanzados de detección de colisiones que puedan advertir a los conductores de situaciones de peligro de choque, como sensores de proximidad y sistemas de frenado automático. Esta medida aplica para personas con vehículos en estos barrios como para la ciudad en general.
Prestar mayor atención a la cantidad de accidentes que han ocurrido en estos barrios y asignar más agentes de tránsito para que ayuden a establecer un orden en la vía.
Ubicar estratégicamente grúas, que están disponibles en los tramos de vía con mayor accidentalidad para brindar una pronta atención al conductor y el vehículo, logrando reducir la congestión cuando ocurre un choque y posibles accidentes que pueden ocurrir en cadena.
Cluster 4: Es el segundo grupo de barrios con mayor cantidad de accidentes viales.
Características:
Número de muertos:21
Número de choques: 2,655
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía
Los tipos de vía con menos accidentes son vía peatonal y pontón
Estrategias:
Los barrios pertenecientes a este grupo se caracterizan por ser residenciales y comerciales por ello se propone lo siguiente:
Ubicar estratégicamente grúas, que están disponibles en los tramos de vía con mayor accidentalidad para brindar una pronta atención al conductor y el vehículo, logrando reducir la congestión cuando ocurre un choque y posibles accidentes que pueden ocurrir en cadena.
Trabajar en conjunto con la industria automotriz para incorporar tecnologías de seguridad avanzadas en los vehículos y promover la fabricación de vehículos más seguros.
Compartir en las unidades y cerca a los hogares, información de cómo prevenir accidentes.
Cluster 5: Es el segundo grupo de barrios con menos cantidad de accidentes viales.
Características:
Número de muertos: 4
Número de choques: 511
El tipo de vía que presentó mayor cantidad de accidentes es en Tramo de vía e intersecciones
Los tipos de vía con menos accidentes son Paso Elevado, Paso Inferior, Paso a Nivel, Pontón, Puente, Tramo de vía Túnel y Vía peatonal.
Estrategias:
Este grupo en particular se caracteriza por tener un gran cantidad de barrios académicos, específicamente escolares, también con vías con integración al metro, tranvía y metroplus, por ello se propone lo siguiente:
Ubicar agentes de tránsito en las principales intersecciones con el fin de que ayuden a la movilización y control de las vías.
Trabajar de la mano con la secretaría de movilidad de Medellín para mejorar las señalizaciones en intersecciones y en los tramos de vía en los sectores académicos.
Crear uno o varios robots de realidad virtual que se establezcan en los parqueaderos de lugares públicos de universidades para que brinden estrategias de prevención de choques y permita la interacción con la misma.
8. Aprendizaje y uso
La experiencia de identificar los datos más relevantes en el diseño de un modelo de predicción es gratificante, ya que se enfrenta a un problema complejo que requiere la capacidad de abordar desafíos y encontrar soluciones efectivas. En este proceso, se adquiere una comprensión profunda de los factores que inciden en la seguridad vial en la ciudad. Además, se logra la identificación de patrones temporales, como la variación en incidentes a lo largo de las fechas como fines de semana, festivos, navidad y festividades cmo dia del padre y dia de la madre, lo que sugiere momentos críticos en términos de seguridad. Los datos recopilados y el modelo de predicción resultante son herramientas sumamente útiles para respaldar la toma de decisiones en políticas públicas, contribuyendo a la planificación de recursos y la prevención de accidentes al proporcionar evidencia objetiva sobre la seguridad vial.
9. Bibliografía
[1] Secretaría de Medellín, S. de S. (2020). Análisis de Situación de Salud de las Emergencias y Desastres.https://www.medellin.gov.co/irj/go/km/docs/pccdesign/medellin/Temas/Salud_0/IndicadoresEstadisticas/Shared%20Content/ASIS/Archivos%20descargables/08_ASIS_Emergencias%20y%20desastres_Final.pdf
[2] Datos generales de Medellín que debes conocer. (2021, octubre 21). Alcaldía de Medellín. https://www.medellin.gov.co/es/conoce-algunos-datos-generales-de-la-ciudad/
[3]Medellín registra 45 víctimas fatales menos por incidentes de tránsito durante 2020. (2020, diciembre 20). Alcaldía de Medellín. https://www.medellin.gov.co/es/sala-de-prensa/noticias/medellin-registra-45-victimas-fatales-menos-por-incidentes-de-transito-durante-2020/
[4] ¿Qué es un Z-Score? — Matemática y Estadística —. (2020, mayo 3). DATA SCIENCE. https://datascience.eu/es/matematica-y-estadistica/que-es-un-z-score/
Comentarios
Publicar un comentario