Skip to content

LucaTraversa17/ProyectoFinalHenry

Repository files navigation

Helumaro

Consultoría Gastronómica de Alto Lujo

ETL Process

Indice

  1. Proyecto
    1. Alcance
    2. Desarrollo
      1. ETL de los datasets
      2. EDA de la información
      3. Conexión a la nube
      4. Implementación del dashboard
  2. Diagrama de Gant
  3. KPIs
  4. Tecnologías utilizadas
    1. Pipeline
  5. ¿Quiénes somos?

Proyecto

Hemos sido contratados por un conglomerado gastronómico que se especializa en restaurantes de alto lujo para clientes con alto poder adquisitivo. Nos han solicitado una investigación del mercado estadounidense para determinar la mejor ubicación para abrir una serie de establecimientos nuevos.

Alcance

De acuerdo a nuestra investigación, que puede observarse en el siguiente link, del mercado de los estados de Estados Unidos, hemos concluido que el estado con más oportunidades para el desarrollo de un emprendimiento gastronómico es el estado de Massachusetts. Luego de nuestro análisis observamos que se trata de un estado con alto poder adquisitivo y con poca oferta gastronómica de lujo. image

Desarrollo

A continuación presentamos los distintos paso que llevamos a cabo en el proyecto.

ETL de los datasets

El proyecto se nutrió de tres fuentes distintas de información. La primeras dos consistieron en un análisis del mercado de gastronomía de alto lujo por estado y su respectiva composición socioeconómica. Para ello se utilizó la información del gobierno de los Estados Unidos y de la base de datos de la guía Michelin. Finalmente, la tercera fuente de datos proviene de las plataformas de Google Maps y Yelp en donde observamos el comportamiento de los consumidores del estado de Massachusetts.

Para mayor información al respecto, consultar el siguiente link.

EDA de la información

El EDA de la información se orientó en extraer información valiosa para la construcción del sistema de recomendación y el cumplimiento de los KPIs propuestos.

El mismo se llevó a cabo con Python y sus respectivas librerías y puede ser consultado en el siguiente link.

Conexión a la nube

Debido a la gran cantidad de información que debimos utilizar, tuvimos que almacenar los datos en la nube de Google. Hemos seleccionado a esta empresa por las facilidades que otorga a la hora de conectar los datos así como la estabilidad de las conexiones.

En el siguiente link encontrarán una carpeta con videos que muestran el proceso de automatización y carga incremental en la nube.

Implementación del dashboard

Se ha desarrollado un dashboard en PowerBI donde se pueden consultar los KPIs pero también diferentes métricas que permiten observar la distribución de las distintas variables. Entendemos que un análisis exhaustivo de la información es vital para la correcta toma de decisiones de negocio.

El dashboard está disponible en el siguiente link.

Desarrollo del sistema de recomendación y de Machine Learning

Se implementó un análisis de sentimiento a través de un modelo de procesamiento de lenguaje natural de las reseñas. Este modelo se utiliza para estudiar las reseñas y cómo impactarán en el desarrollo del negocio. Finalmente implementamos un modelo de regresión lineal y otro de random forest para predecir la viabilidad y rentabilidad de un negocio por categoría, ciudades y estrellas.

Toda la información puede consultarse en el siguiente link

Diagrama de Gant

image

KPIs

  1. Tasa de crecimiento de reseñas:
  • Descripción: Incremento porcentual en el número de reseñas por año.
  • Propósito: Medir el nivel de interacción y popularidad a lo largo del tiempo.
  • Objetivo: incremento de 10% de reseñas anualmente.
  1. Sentimiento promedio de reseñas:
  • Descripción: Sentimiento promedio de las reseñas utilizando análisis de sentimientos (positivo, negativo, neutral).
  • Propósito: Evaluar la percepción general de los clientes sobre los servicios.
  • Objetivo: Mejora del 5% de reseñas positivas semestralmente.
  1. Incremento de los ingresos:
  • Descripción: crecimiento de los ingresos netos por aumento de ventas o por mejora de márgenes de ganancia.
  • Propósito: medir el crecimiento del negocio.
  • Objetivo: crecimiento del 3% semestral.

Tecnologías utilizadas

Python Matplotlib Canva Pandas Seaborn Scikit-Learn
Python Matplotlib Canva Pandas Seaborn Scikit-Learn
Google Storage Power BI Streamlit Google Colab AirFlow BigQuery
Google Storage Power BI Streamlit Colab AirFlow BigQuery

Pipeline

image

¿Quiénes somos?

  1. Machine Learning Specialist: Edgar Arriaga y Ezequiel Quintana
  2. Data Engineer: Rodrigo Lopez
  3. Data Scientist: Luca Traversa
  4. Data Analist: Mateo Bernal

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 5