作業 2：從傳統到現代 — 文本處理方法實作與比較

課程名稱： 自然語言處理導論
課程助教： 陳戎新
作者： 411385019 吳沛諭
日期： 2025 年 11 月
使用語言： Python
環境： Jupyter Notebook (.ipynb)

學習目標

在生成式 AI（Generative AI）蓬勃發展的今天，許多人能熟練使用 ChatGPT 等工具，但對其背後的文本處理原理不甚了解。本作業旨在透過實作與比較兩種不同的文本分析方法，幫助學生理解從傳統 NLP 方法到現代 AI 模型的技術演進。

主要目標：

親手實作傳統 NLP 方法（如 TF-IDF），理解數學基礎與流程。
使用現代 AI 工具（如 OpenAI API）完成相同任務。
比較兩種方法的結果與差異。
建立對 NLP 技術脈絡的整體認識。

實驗內容

Part A：傳統方法實作 (50%)

A-1：TF-IDF 文本相似度計算 (20%)

手動實作 TF-IDF 算法。
使用 scikit-learn 內建方法進行驗證。
計算文本相似度（Cosine Similarity）。
視覺化相似度矩陣（可使用 seaborn heatmap）。

A-2：斷詞與停用詞處理 (15%)

使用 jieba 進行中文分詞。
使用 stopwordsiso 移除停用詞。
比較分詞前後的 TF-IDF 向量差異。

A-3：結果視覺化與分析 (15%)

利用 matplotlib 或 seaborn 視覺化關鍵字權重分佈。
撰寫分析文字，說明哪些詞對相似度的影響最大。

Part B：AI 方法實作 (50%)

B-1：使用 OpenAI API 進行語意分析

利用生成式模型進行文本摘要與語意相似度分析。
與 TF-IDF 結果比較其差異與優劣。

B-2：性能與表現比較

討論兩種方法在「準確度、可解釋性、可擴展性」等層面的差異。
分析現代 AI 方法的優勢與限制。

執行環境設定

請先安裝以下套件：

pip install numpy pandas matplotlib seaborn scikit-learn jieba stopwordsiso openai tqdm

點擊全部執行即可得到輸出結果

結果與討論

5.1 傳統方法成果

TF-IDF 熱圖清楚顯示文本間的相似度。
分詞與停用詞處理顯著提升結果精確度。
可明確觀察各詞彙對文本相似度的貢獻。

5.2 AI 方法成果

模型能識別語義關聯，輸出更貼近人類理解。
能自動摘要、歸納主題，超越字面分析。
但生成結果具有隨機性，且可重現性不高。

5.3 綜合比較

傳統 NLP 方法注重「結構化、可解釋性」，
而現代 AI 模型強調「語意、泛化能力」。
兩者並非取代關係，而是互補並存。

六、心得與反思

透過這次作業，我更深刻理解：

傳統方法的價值：它們揭示了 NLP 的數學邏輯與資訊理論基礎。

AI 模型的力量：能處理更高層次的語意關聯，讓文本分析更貼近人類思考。

然而，也必須注意：

AI 模型雖強大，但若不理解底層邏輯，將無法評估其可靠性。

傳統 NLP 方法仍是理解語言處理技術的重要根基。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Assignment_2_template_411385019 (2).ipynb		Assignment_2_template_411385019 (2).ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

作業 2：從傳統到現代 — 文本處理方法實作與比較

學習目標

主要目標：

實驗內容

Part A：傳統方法實作 (50%)

A-1：TF-IDF 文本相似度計算 (20%)

A-2：斷詞與停用詞處理 (15%)

A-3：結果視覺化與分析 (15%)

Part B：AI 方法實作 (50%)

B-1：使用 OpenAI API 進行語意分析

B-2：性能與表現比較

執行環境設定

結果與討論

六、心得與反思

About

Uh oh!

Releases

Packages

Languages

p-yuu/Lab-2

Folders and files

Latest commit

History

Repository files navigation

作業 2：從傳統到現代 — 文本處理方法實作與比較

學習目標

主要目標：

實驗內容

Part A：傳統方法實作 (50%)

A-1：TF-IDF 文本相似度計算 (20%)

A-2：斷詞與停用詞處理 (15%)

A-3：結果視覺化與分析 (15%)

Part B：AI 方法實作 (50%)

B-1：使用 OpenAI API 進行語意分析

B-2：性能與表現比較

執行環境設定

結果與討論

六、心得與反思

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages