課程名稱: 自然語言處理導論
課程助教: 陳戎新
作者: 411385019 吳沛諭
日期: 2025 年 11 月
使用語言: Python
環境: Jupyter Notebook (.ipynb)
在生成式 AI(Generative AI)蓬勃發展的今天,許多人能熟練使用 ChatGPT 等工具, 但對其背後的文本處理原理不甚了解。本作業旨在透過實作與比較兩種不同的文本分析方法, 幫助學生理解從傳統 NLP 方法到現代 AI 模型的技術演進。
- 親手實作傳統 NLP 方法(如 TF-IDF),理解數學基礎與流程。
- 使用現代 AI 工具(如 OpenAI API)完成相同任務。
- 比較兩種方法的結果與差異。
- 建立對 NLP 技術脈絡的整體認識。
- 手動實作 TF-IDF 算法。
- 使用
scikit-learn內建方法進行驗證。 - 計算文本相似度(Cosine Similarity)。
- 視覺化相似度矩陣(可使用 seaborn heatmap)。
- 使用
jieba進行中文分詞。 - 使用
stopwordsiso移除停用詞。 - 比較分詞前後的 TF-IDF 向量差異。
- 利用
matplotlib或seaborn視覺化關鍵字權重分佈。 - 撰寫分析文字,說明哪些詞對相似度的影響最大。
- 利用生成式模型進行文本摘要與語意相似度分析。
- 與 TF-IDF 結果比較其差異與優劣。
- 討論兩種方法在「準確度、可解釋性、可擴展性」等層面的差異。
- 分析現代 AI 方法的優勢與限制。
請先安裝以下套件:
pip install numpy pandas matplotlib seaborn scikit-learn jieba stopwordsiso openai tqdm點擊全部執行即可得到輸出結果
5.1 傳統方法成果
-
TF-IDF 熱圖清楚顯示文本間的相似度。
-
分詞與停用詞處理顯著提升結果精確度。
-
可明確觀察各詞彙對文本相似度的貢獻。
5.2 AI 方法成果
-
模型能識別語義關聯,輸出更貼近人類理解。
-
能自動摘要、歸納主題,超越字面分析。
-
但生成結果具有隨機性,且可重現性不高。
5.3 綜合比較
- 傳統 NLP 方法注重「結構化、可解釋性」,
- 而現代 AI 模型強調「語意、泛化能力」。
- 兩者並非取代關係,而是互補並存。
透過這次作業,我更深刻理解:
傳統方法的價值:它們揭示了 NLP 的數學邏輯與資訊理論基礎。
AI 模型的力量:能處理更高層次的語意關聯,讓文本分析更貼近人類思考。
然而,也必須注意:
AI 模型雖強大,但若不理解底層邏輯,將無法評估其可靠性。
傳統 NLP 方法仍是理解語言處理技術的重要根基。