Skip to content

VNU-UET Data Processing Course Final Project (NYC TLC Taxi Trips 2020)

Notifications You must be signed in to change notification settings

amebett1/2526-LTXLDL-Project-AIT2006-3-1.2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

59 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

2526-LTXLDL-Project-AIT2006-3-1.2

Lập trình xử lý dữ liệu (Học kỳ 1, 2025–2026)

Báo cáo Bài tập lớn: NYC TLC Taxi Trips (Năm 2020)

README này cung cấp hướng dẫn để cài đặt môi trường và chạy lại các file Jupyter Notebooks xử lý dữ liệu cho dự án của Nhóm 1.2.

Thông tin nhóm

  • Nhóm: 1.2
  • Mã lớp: AIT2006-3
  • Năm dữ liệu: 2020
  • Thành viên:
    • Đồng Minh Đức
    • Nguyễn Việt Đức
    • Đàm Quang Tiến

Cấu trúc thư mục

├── raw/              # Chứa dữ liệu thô
│   └── taxi_zones/   # Tệp dữ liệu chứa thông tin về các khu vực taxi
├── processed/        # Chứa 12 tệp dữ liệu đã xử lý,các bảng KPI
├── figures/          # Đầu ra: Biểu đồ
├── reports/          # Đầu ra: Báo cáo PDF và tóm tắt QA
├── src/              # Mã nguồn (Jupyter Notebooks)
│   ├── 01_Data_Pipeline.ipynb       
│   ├── 02_KPI_Analysis.ipynb        
│   └── 03_Advanced_Analysis.ipynb  
│   └── 04_Forecast_2021.ipynb  
├── README.md         # Hướng dẫn cài đặt và chạy lại
└── requirements.txt  # Thư viện Python

Hướng dẫn cài đặt và chạy lại

Bước 1: Lấy mã nguồn dự án

Cách 1: Sao chép bằng Git (khuyến nghị)

  1. Mở Terminal hoặc Command Prompt/PowerShell.
  2. Di chuyển đến thư mục muốn lưu dự án bằng cd.
  3. Chạy lệnh sau để sao chép kho mã nguồn:
git clone https://github.com/amebett1/2526-LTXLDL-Project-AIT2006-3-1.2.git
  1. Di chuyển vào thư mục dự án:
cd 2526-LTXLDL-Project-AIT2006-3-1.2

Cách 2: Tải mã nguồn dạng ZIP (tùy chọn)

  1. Truy cập kho mã nguồn tại: https://github.com/amebett1/2526-LTXLDL-Project-AIT2006-3-1.2
  2. Giải nén file ZIP vừa tải về
  3. Mở thư mục dự án đã giải nén để sử dụng.

Lưu ý:

  • Cần cài đặt Git nếu sử dụng Cách 1 (tải tại: https://git-scm.com/).
  • Cách 1 được khuyến nghị vì giúp dễ dàng cập nhật mã nguồn khi có thay đổi.

Bước 2: Cài đặt môi trường và thư viện Python

  1. Cài đặt Python

    Dự án sử dụng Python phiên bản 3.10 trở lên.
    Có thể tải Python tại: https://www.python.org/downloads/

  2. Cài đặt các thư viện cần thiết

    Mở Terminal (hoặc Command Prompt / PowerShell) tại thư mục gốc của dự án và chạy lệnh:

    pip install -r requirements.txt

Khuyến nghị:

  • Nên sử dụng môi trường ảo (ví dụ: Miniconda/Conda hay venv) để tránh xung đột thư viện với các dự án Python khác.

Bước 3: Chạy Pipeline

Toàn bộ quy trình làm sạch (Mục 1 & 2) nằm trong một Notebook.

  • Tệp Notebook: src/01_Data_Pipeline.ipynb
  • Cách chạy: Mở và chọn "Run All".
  • Mục đích: Giúp xác minh rằng code này có thể tái lập 12 tệp processed giống hệt như 12 tệp đã được nộp.

Bước 4: Tính toán KPI & Trực quan hoá

Notebook này tổng hợp dữ liệu theo thời gian/khu vực (Mục 3) và vẽ các biểu đồ phân tích (Mục 4).

  • Tệp Notebook: src/02_KPI_Analysis.ipynb
  • Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).
  • Mục đích:
    • Tạo ra các bảng KPI và lưu vào thư mục processed/.
    • Xuất các biểu đồ trực quan hoá và lưu vào thư mục figures/ để phục vụ báo cáo.

Bước 5: Phân tích nâng cao

Các notebook này thực hiện các phân tích nâng cao (Mục 7) trong đó có mục chỉ số chuẩn hóa nâng cao, phát hiện bất thường và dự báo nhu cầu.

  • Tệp Notebook: src/03_Advanced_Analysis.ipynb

  • Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).

  • Mục đích:

    • Tái lập các hình ảnh trực quan hóa về xu hướng/mùa vụ, xác minh thuật toán phát hiện điểm bất thường (Top cao/thấp nhất).
    • Tạo ra một tập dữ liệu "sạch" và tin cậy hơn.
    • Kết quả được lưu vào thư mục processed/,biểu đồ trực quan hoá được lưu vào thư mục figures/ để phục vụ báo cáo.
  • Tệp Notebook: src/04_Forecast_2021.ipynb

  • Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).

  • Mục đích: Việc xây dựng một mô hình dự báo chính xác không chỉ giúp kiểm chứng tính ổn định của thị trường mà còn hỗ trợ việc điều phối xe hợp lý trong các dịp lễ tết đầu năm, biểu đồ trực quan hoá được lưu vào thư mục figures/ để phục vụ báo cáo.

About

VNU-UET Data Processing Course Final Project (NYC TLC Taxi Trips 2020)

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 3

  •  
  •  
  •