Skip to content

p-yuu/Lab-2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

作業 2:從傳統到現代 — 文本處理方法實作與比較

課程名稱: 自然語言處理導論
課程助教: 陳戎新
作者: 411385019 吳沛諭
日期: 2025 年 11 月
使用語言: Python
環境: Jupyter Notebook (.ipynb)


學習目標

在生成式 AI(Generative AI)蓬勃發展的今天,許多人能熟練使用 ChatGPT 等工具, 但對其背後的文本處理原理不甚了解。本作業旨在透過實作與比較兩種不同的文本分析方法, 幫助學生理解從傳統 NLP 方法到現代 AI 模型的技術演進。

主要目標:

  1. 親手實作傳統 NLP 方法(如 TF-IDF),理解數學基礎與流程。
  2. 使用現代 AI 工具(如 OpenAI API)完成相同任務。
  3. 比較兩種方法的結果與差異。
  4. 建立對 NLP 技術脈絡的整體認識。

實驗內容

Part A:傳統方法實作 (50%)

A-1:TF-IDF 文本相似度計算 (20%)

  • 手動實作 TF-IDF 算法。
  • 使用 scikit-learn 內建方法進行驗證。
  • 計算文本相似度(Cosine Similarity)。
  • 視覺化相似度矩陣(可使用 seaborn heatmap)。

A-2:斷詞與停用詞處理 (15%)

  • 使用 jieba 進行中文分詞。
  • 使用 stopwordsiso 移除停用詞。
  • 比較分詞前後的 TF-IDF 向量差異。

A-3:結果視覺化與分析 (15%)

  • 利用 matplotlibseaborn 視覺化關鍵字權重分佈。
  • 撰寫分析文字,說明哪些詞對相似度的影響最大。

Part B:AI 方法實作 (50%)

B-1:使用 OpenAI API 進行語意分析

  • 利用生成式模型進行文本摘要與語意相似度分析。
  • 與 TF-IDF 結果比較其差異與優劣。

B-2:性能與表現比較

  • 討論兩種方法在「準確度、可解釋性、可擴展性」等層面的差異。
  • 分析現代 AI 方法的優勢與限制。

執行環境設定

請先安裝以下套件:

pip install numpy pandas matplotlib seaborn scikit-learn jieba stopwordsiso openai tqdm

點擊全部執行即可得到輸出結果

結果與討論

5.1 傳統方法成果

  • TF-IDF 熱圖清楚顯示文本間的相似度。

  • 分詞與停用詞處理顯著提升結果精確度。

  • 可明確觀察各詞彙對文本相似度的貢獻。

5.2 AI 方法成果

  • 模型能識別語義關聯,輸出更貼近人類理解。

  • 能自動摘要、歸納主題,超越字面分析。

  • 但生成結果具有隨機性,且可重現性不高。

5.3 綜合比較

  • 傳統 NLP 方法注重「結構化、可解釋性」,
  • 而現代 AI 模型強調「語意、泛化能力」。
  • 兩者並非取代關係,而是互補並存。

六、心得與反思

透過這次作業,我更深刻理解:

傳統方法的價值:它們揭示了 NLP 的數學邏輯與資訊理論基礎。

AI 模型的力量:能處理更高層次的語意關聯,讓文本分析更貼近人類思考。

然而,也必須注意:

AI 模型雖強大,但若不理解底層邏輯,將無法評估其可靠性。

傳統 NLP 方法仍是理解語言處理技術的重要根基。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published