c19-117-n-data-bi

Project: Vehicle Insurance Claim

Project Summary

El proyecto se centra en la detección de fraude en seguros de vehículos, utilizando un conjunto de datos real proporcionado por Oracle, proveniente de una aseguradora en Estados Unidos. El fraude en seguros de vehículos incluye prácticas como la presentación de reclamos falsos o exagerados relacionados con daños materiales o lesiones personales tras un accidente.

link de acceso a presentacion en tableu

https://public.tableau.com/app/profile/juan.felipe116/viz/ProjectVehicleInsuraceClaimNoCountry/Story1?publish=yes

link de acceso de entorno colab

https://colab.research.google.com/drive/1xPsdH56G_hoi9MMGB2pSl6rKMC69PhzC#scrollTo=0CFH-bWL5_6V

Definición del problema de negocio

Main Goal

El objetivo principal del proyecto es desarrollar y evaluar métodos de detección de fraude en reclamos de seguros de vehículos utilizando técnicas de ciencia de datos. La intención es identificar patrones fraudulentos en los datos proporcionados por una aseguradora de Estados Unidos para reducir las pérdidas financieras causadas por reclamos falsos o exagerados.

Question to be Resolved

El problema a resolver es la identificación de reclamos fraudulentos en seguros de vehículos. El fraude en seguros de vehículos es una práctica común que implica la presentación de reclamos falsos o exagerados por daños a la propiedad o lesiones personales tras un accidente. Este tipo de fraude puede incluir accidentes simulados, el uso de pasajeros fantasma y reclamos exagerados por lesiones personales.

Habilidades y Herramientas Necesarias

Lenguajes de Programación: Python para análisis de datos y machine learning.
Bibliotecas y Frameworks: Pandas, NumPy, Scikit-Learn, Matplotlib, Seaborn para el análisis y visualización de datos.
Herramientas de Visualización: Tableau, u otras herramientas de visualización de datos.
Bases de Datos: SQL para la consulta y manipulación de datos.
Conocimientos de Estadística: Fundamentos de estadística y probabilidad.
Comunicación: Habilidades para comunicar resultados complejos de manera clara y concisa tanto a audiencias técnicas como no técnicas.

Entregables Específicos del Proyecto

✅Informes de Análisis Exploratorio de Datos (EDA) Documento 1
✅Modelos de Machine Learning entrenados y evaluados Documento 2
✅Métricas de Evaluación y Matrices de Confusión Documento 3
✅Reportes de Importancia de Características y SHAP Values Documento 4
✅Documentación Detallada del Proceso Documento 5 / ipnyb
✅Informes y Presentaciones Ejecutivas/ Dashboard

Context

El proyecto utiliza un conjunto de datos real proporcionado por Oracle, originario de una aseguradora en Estados Unidos. Estos datos han sido liberados con fines educativos y contienen información relevante para la detección de fraude en seguros de vehículos. El contexto del estudio implica entender las prácticas comunes de fraude y aplicar técnicas de análisis de datos y algoritmos de machine learning para identificar patrones que indiquen posibles actividades fraudulentas.

Objetivos y métricas de desempeño

Goal

Success Criteria

Mejorar la Precisión en la Detección de Fraude

Uno de los objetivos principales del proyecto es mejorar la precisión en la detección de reclamos de seguros fraudulentos. Identificar correctamente los reclamos fraudulentos ayudará a la compañía de seguros a minimizar las pérdidas financieras y garantizar que los reclamantes legítimos sean compensados adecuadamente.

Precisión: La proporción de reclamos fraudulentos correctamente identificados sobre el total de reclamos identificados como fraudulentos. Una alta precisión indica una baja tasa de falsos positivos.
Recall (Sensibilidad): La proporción de reclamos fraudulentos correctamente identificados sobre el total de reclamos realmente fraudulentos. Un alto recall indica una baja tasa de falsos negativos.
F1 Score: La media armónica de precisión y recall, proporcionando una métrica única que equilibra tanto los falsos positivos como los falsos negativos.

Identificar las Características Más Relevantes para la Detección de Fraude

Otro objetivo es identificar y comprender las características más importantes que contribuyen a la detección de fraude. Esto no solo ayuda a mejorar la precisión del modelo, sino que también proporciona información valiosa a los analistas de fraude sobre los factores que más influyen en la identificación de actividades fraudulentas.

Importancia de las Características: Evaluar la importancia de las características utilizando técnicas como el análisis de importancia de características de los modelos de árboles (por ejemplo, Random Forest) o métodos de eliminación secuencial.
SHAP Values (Shapley Additive Explanations): Utilizar SHAP values para obtener una comprensión detallada del impacto de cada característica en las predicciones del modelo.
Reducción de la Dimensionalidad: Evaluar la precisión del modelo después de reducir el número de características utilizando técnicas como PCA (Análisis de Componentes Principales) o selección de características, para verificar que el modelo se mantenga preciso con un conjunto de características más pequeño y relevante.

Constraints

Timeline

El proyecto debe completarse en 3 semanas.

Budget

El presupuesto total es de $ 0 US

Stakeholders

Manage Closely (High Interest, High Power)
- Pablo Roblesh,Pablo López S16-11-N-Python-React (TL), Facility Manager

Requerimientos Funcionales

Requerimientos Funcionales Específicos para un Analista de Datos

Ingesta y Preprocesamiento de Datos
- Carga de Datos: Utilizar herramientas y técnicas para cargar y leer el conjunto de datos proporcionado.
- Limpieza de Datos: Aplicar métodos para eliminar o imputar valores faltantes, corregir errores y manejar datos duplicados.
- Transformación de Datos: Convertir variables categóricas a numéricas, normalizar y escalar características según sea necesario.
Análisis Exploratorio de Datos (EDA)
- Visualización de Datos: Crear gráficos y visualizaciones para entender la distribución de los datos, relaciones entre variables y detectar posibles patrones de fraude.
- Estadísticas Descriptivas: Calcular estadísticas descriptivas básicas (media, mediana, desviación estándar, etc.) para resumir las características de los datos.
Modelado y Entrenamiento
- Selección de Características: Identificar y seleccionar las características más relevantes para la detección de fraude.
- Entrenamiento del Modelo: Implementar y entrenar algoritmos de machine learning (e.g., árboles de decisión, regresión logística) para identificar el fraude.
- Validación Cruzada: Utilizar técnicas de validación cruzada para evaluar la robustez del modelo.
- Optimización de Hiperparámetros: Ajustar los hiperparámetros de los modelos para mejorar el rendimiento.
Evaluación del Modelo
- Métricas de Evaluación: Calcular y reportar métricas clave como precisión, recall, F1 score y AUC-ROC para evaluar la efectividad del modelo.
- Confusion Matrix: Generar matrices de confusión para analizar el rendimiento del modelo en términos de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.
Interpretabilidad y Explicabilidad del Modelo
- SHAP Values: Implementar explicaciones de SHAP para interpretar el impacto de cada característica en las predicciones del modelo.
- Reportes de Importancia de Características: Generar reportes que indiquen las características más importantes y su contribución a la detección de fraude.
Documentación y Comunicación
- Documentación del Proceso: Mantener una documentación detallada del proceso de análisis, desde la ingesta de datos hasta la evaluación del modelo.
- Informes y Presentaciones: Preparar informes y presentaciones que resuman los hallazgos del análisis y los resultados del modelo.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
Project Vehicle Insurace Claim NoCountry -2.pptx.pdf		Project Vehicle Insurace Claim NoCountry -2.pptx.pdf
README.md		README.md
Vehicle Insurance Claim Respuestal del Negocio.pdf		Vehicle Insurance Claim Respuestal del Negocio.pdf
c19_117_n_data_bi_Project_Vehicle_Insurance_Claim (1).ipynb		c19_117_n_data_bi_Project_Vehicle_Insurance_Claim (1).ipynb
fraud_oracle.csv		fraud_oracle.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

c19-117-n-data-bi

Project: Vehicle Insurance Claim

Project Summary

link de acceso a presentacion en tableu

link de acceso de entorno colab

Definición del problema de negocio

Main Goal

Question to be Resolved

Habilidades y Herramientas Necesarias

Entregables Específicos del Proyecto

Context

Objetivos y métricas de desempeño

Goal

Success Criteria

Constraints

Timeline

Budget

Stakeholders

Requerimientos Funcionales

Requerimientos Funcionales Específicos para un Analista de Datos

About

Uh oh!

Releases

Packages

Languages

No-Country-simulation/c19-117-n-data-bi

Folders and files

Latest commit

History

Repository files navigation

c19-117-n-data-bi

Project: Vehicle Insurance Claim

Project Summary

link de acceso a presentacion en tableu

link de acceso de entorno colab

Definición del problema de negocio

Main Goal

Question to be Resolved

Habilidades y Herramientas Necesarias

Entregables Específicos del Proyecto

Context

Objetivos y métricas de desempeño

Goal

Success Criteria

Constraints

Timeline

Budget

Stakeholders

Requerimientos Funcionales

Requerimientos Funcionales Específicos para un Analista de Datos

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages