README này cung cấp hướng dẫn để cài đặt môi trường và chạy lại các file Jupyter Notebooks xử lý dữ liệu cho dự án của Nhóm 1.2.
- Nhóm: 1.2
- Mã lớp: AIT2006-3
- Năm dữ liệu: 2020
- Thành viên:
- Đồng Minh Đức
- Nguyễn Việt Đức
- Đàm Quang Tiến
├── raw/ # Chứa dữ liệu thô
│ └── taxi_zones/ # Tệp dữ liệu chứa thông tin về các khu vực taxi
├── processed/ # Chứa 12 tệp dữ liệu đã xử lý,các bảng KPI
├── figures/ # Đầu ra: Biểu đồ
├── reports/ # Đầu ra: Báo cáo PDF và tóm tắt QA
├── src/ # Mã nguồn (Jupyter Notebooks)
│ ├── 01_Data_Pipeline.ipynb
│ ├── 02_KPI_Analysis.ipynb
│ └── 03_Advanced_Analysis.ipynb
│ └── 04_Forecast_2021.ipynb
├── README.md # Hướng dẫn cài đặt và chạy lại
└── requirements.txt # Thư viện Python
- Mở Terminal hoặc Command Prompt/PowerShell.
- Di chuyển đến thư mục muốn lưu dự án bằng
cd. - Chạy lệnh sau để sao chép kho mã nguồn:
git clone https://github.com/amebett1/2526-LTXLDL-Project-AIT2006-3-1.2.git- Di chuyển vào thư mục dự án:
cd 2526-LTXLDL-Project-AIT2006-3-1.2- Truy cập kho mã nguồn tại: https://github.com/amebett1/2526-LTXLDL-Project-AIT2006-3-1.2
- Giải nén file ZIP vừa tải về
- Mở thư mục dự án đã giải nén để sử dụng.
Lưu ý:
- Cần cài đặt Git nếu sử dụng Cách 1 (tải tại: https://git-scm.com/).
- Cách 1 được khuyến nghị vì giúp dễ dàng cập nhật mã nguồn khi có thay đổi.
-
Cài đặt Python
Dự án sử dụng Python phiên bản 3.10 trở lên.
Có thể tải Python tại: https://www.python.org/downloads/ -
Cài đặt các thư viện cần thiết
Mở Terminal (hoặc Command Prompt / PowerShell) tại thư mục gốc của dự án và chạy lệnh:
pip install -r requirements.txt
Khuyến nghị:
- Nên sử dụng môi trường ảo (ví dụ: Miniconda/Conda hay venv) để tránh xung đột thư viện với các dự án Python khác.
Toàn bộ quy trình làm sạch (Mục 1 & 2) nằm trong một Notebook.
- Tệp Notebook:
src/01_Data_Pipeline.ipynb - Cách chạy: Mở và chọn "Run All".
- Mục đích: Giúp xác minh rằng code này có thể tái lập 12 tệp
processedgiống hệt như 12 tệp đã được nộp.
Notebook này tổng hợp dữ liệu theo thời gian/khu vực (Mục 3) và vẽ các biểu đồ phân tích (Mục 4).
- Tệp Notebook:
src/02_KPI_Analysis.ipynb - Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).
- Mục đích:
- Tạo ra các bảng KPI và lưu vào thư mục
processed/. - Xuất các biểu đồ trực quan hoá và lưu vào thư mục
figures/để phục vụ báo cáo.
- Tạo ra các bảng KPI và lưu vào thư mục
Các notebook này thực hiện các phân tích nâng cao (Mục 7) trong đó có mục chỉ số chuẩn hóa nâng cao, phát hiện bất thường và dự báo nhu cầu.
-
Tệp Notebook:
src/03_Advanced_Analysis.ipynb -
Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).
-
Mục đích:
- Tái lập các hình ảnh trực quan hóa về xu hướng/mùa vụ, xác minh thuật toán phát hiện điểm bất thường (Top cao/thấp nhất).
- Tạo ra một tập dữ liệu "sạch" và tin cậy hơn.
- Kết quả được lưu vào thư mục
processed/,biểu đồ trực quan hoá được lưu vào thư mụcfigures/để phục vụ báo cáo.
-
Tệp Notebook:
src/04_Forecast_2021.ipynb -
Cách chạy: Mở và chọn "Run All" (Chạy tất cả các cell).
-
Mục đích: Việc xây dựng một mô hình dự báo chính xác không chỉ giúp kiểm chứng tính ổn định của thị trường mà còn hỗ trợ việc điều phối xe hợp lý trong các dịp lễ tết đầu năm, biểu đồ trực quan hoá được lưu vào thư mục
figures/để phục vụ báo cáo.