模組一:生成式與代理式 AI 基礎

根據提供的課程資料彙整之教材章節。 Where “Editorial additions” appear, they are clearly labeled.

生成式 AI 基礎 聊天機器人 → 推理 → 代理程式 Token 與成本權衡 多模態 (文字 • 音訊 • 圖像) 包含參考資料

提及的工具與平台

Logos are loaded from a lightweight icon CDN. If any are blocked by your network, the text labels will still display.

OpenAI logo OpenAI
Anthropic logo Anthropic
Adobe logo Adobe
Microsoft logo Microsoft
ElevenLabs logo ElevenLabs
Google logo Google

學習目標與關鍵術語

模組目標 (節錄自課程指南):

  • 了解生成式 AI 的演進與版圖
  • 熟悉 AI 模型的術語與分類
  • 辨識不同 AI 功能 (如聊天機器人、推理和多媒體) 的策略價值

關鍵術語 (來自本模組內容):

ELIZA;規則式聊天機器人;關鍵字檢測;自然語言處理 (NLP);機器學習 (ML); 對話代理;Transformer;大型語言模型 (LLM);生成式 AI;推理模型;思維鏈 (Chain-of-thought) 提示; 幻覺 (Hallucination);Tokens;延遲 (Latency);上下文長度 (Context length);ASR;TTS;NLU;語音生物識別;GAN;擴散模型 (Diffusion model);自注意力機制 (Self-attention); 多模態模型 (Multimodal models);微調 (Fine-tuning);DreamBooth;LoRA;APIs;合規性 (GDPR/CCPA/HIPAA/LGPD)。

如何閱讀本章節

本模組專為需要「工作流暢度」的領導者編寫——具備足夠的深度來做出負責任的策略決策、提出更好的問題,並在不成為專家的情況下評估權衡。

1. 生成式 AI 基礎 (orientation)

and links those capabilities to organizational performance and digital transformation. The later sections unpack how we arrived here (chatbots), what makes AI expensive (cost drivers), and how new modalities (audio and images) reshape workflows.

Editorial addition (organization)

The Course Guide lists “生成式 AI 基礎” as Section 1 of Module 1. The provided Module 1 text begins with chatbot evolution and then expands into cost, multimedia, and advanced tools. This short orientation connects the given content to the official outline.

2. AI 聊天機器人:過去、現在與未來

2.1 從 ELIZA 到現代生成式聊天機器人

自 MIT 教授 Joseph Weizenbaum 於 1966 年開發出世界上第一個聊天機器人 ELIZA 以來,聊天機器人的能力已有了顯著演進。 早期的系統是基於規則的:它們檢測關鍵字並返回預先編寫好的回應。這些系統缺乏 NLP 能力,且在範圍和輸出方面都受到限制 (Murphy, 2023)。

ELIZA conversation screenshot
Figure 2.1. A sample ELIZA-style conversation (historical screenshot). Source: Wikimedia Commons link embedded.
Figure 2.2. Evolution of chatbot capabilities (concept map)
1966: ELIZA 模式匹配 預設腳本回應 規則式聊天機器人 關鍵字觸發 常見問題 / 支援流程 2010 年代早期:對話式代理 ML 改善語言處理 Siri, Alexa, Watson 2010 年代晚期:Transformers & LLMs 生成式回應 更自然且具擴展性 現在:推理 + 代理式 AI 多步驟問題解決 更高的自主性
本圖表為本教材章節原創圖表 (無外部來源)。

2.2 對話式代理與生成式轉型

在 2010 年代早期,機器學習 (ML) 的進步催生了新一代的聊天機器人——對話式代理 (conversational agents)—— 它們能更好地理解自然語言,並能完成更複雜的任務 (Murphy, 2023)。範例包括 IBM Watson、Siri 和 Alexa。 2010 年代晚期的發展——基於 Transformer 的神經網路和大型語言模型 (LLMs)——為生成式 AI 聊天機器人鋪平了道路,使其能夠處理更大的查詢量,並提供更個人化、聽起來更自然的回應 (Marr, 2024)。

IBM Watson prototype photo
Figure 2.3. IBM Watson prototype (photo). Source: Wikimedia Commons link embedded.

2.3 推理模型、思維鏈 (Chain-of-thought) 與局限性

推理模型 (例如 OpenAI 的 o3 和 o4 模型) 代表了一個較新的里程碑。這些模型經過訓練,可以花更多時間處理查詢,「深入思考」問題後再做出回應,就像人類分析師一樣 (Williams, 2025)。 它們在需要複雜推理的領域 (如科學、程式編碼和數學) 表現出顯著的進步 (Paul & Tong, 2024)。

定義 — 思維鏈 (Chain-of-thought) 提示

思維鏈提示旨在提高 LLMs 執行複雜推理的能力。它涉及產生中間自然語言推理步驟,從而得出最終答案,模擬類似人類的思考過程。

範例 (來自模組內容):對於「市場 A 與市場 B」的比較,啟用思維鏈的模型會分別分析各項因素——市場規模、競爭、監管環境——然後再建議方向。

風險提示 — 幻覺 (Hallucination)

模組內容指出,幻覺仍然是 LLMs 固有風險:模型可能會產生並非基於訓練數據或已知模式的輸出,從而產生虛假或不準確的說法。模組還引用了 OpenAI 的一項研究,指出 o4-mini 在某些指標上的幻覺比早期的 ChatGPT 模型更多。

2.4 代理式 AI (銜接模組二)

與主要對提示做出反應的傳統聊天機器人不同,代理式 AI 可以自主且主動地採取行動,適應上下文,並在人為干預最小的情況下於複雜環境中執行目標 (Coshow et al., 2025)。 根據 MIT 的 Abel Sanchez 博士的說法,AI 代理本質上是一個可能涉及人類的工作流程。

說明性使用案例 (來自模組內容):

  • 自動化客戶體驗
  • 建立並發布廣告活動內容
  • 提供主動銷售情報並建議下一步行動 (例如:追加銷售)
  • 啟用能自主監控、報告和採取行動的安全系統
  • 自動化供應鏈與規劃
策略應用:轉型客戶體驗

模組中主張,面向客戶的聊天機器人現在能處理更多查詢,且具備更高的準確性和細微差別,並能根據客戶數據和過往互動提供日益個人化的回應 (Marr, 2024)。它還建議 AI 客戶體驗代理可讓組織在提升參與度的同時,將大部分的客戶互動自動化 (Coshow et al., 2025)。

案例研究 — Klarna (內容由原文提供)

2024 年,Klarna 採用了由 OpenAI 提供技術支持的 AI 客戶服務助手。據報導,該聊天機器人在首月處理的工作量相當於 700 名全職代理。重複查詢減少了 25%,平均服務時間從人類代理的 11 分鐘降至 2 分鐘。

案例研究 — Octopus Energy (內容由原文提供)

Octopus Energy 將 ChatGPT 整合到其客戶服務頻道並指定其負責處理查詢。據該公司稱,該系統能處理 250 人的工作量,且獲得的平均客戶滿意度評分高於人類代理。

3. 優化成本的模型與效能權衡

隨著組織大規模部署 AI,成本和效能成為策略限制。選擇最強大的模型在經濟上可能難以持續,而僅優先考慮低成本則可能限制系統效用。本節解釋了成本的驅動因素,以及如何在實際部署中思考權衡。

類比 (來自模組內容)

高級麵包車適合送孩子上學,但如果你必須送全鎮的每個孩子上學,那就太荒謬了。在大規模情況下,你會選擇巴士、自行車隊或步行小組。同樣地,「最佳」AI 並不總是最強大的模型——而是與限制下的任務最契合的模型。

Figure 3.1. What creates cost in AI systems (stack view)
1) Equipment (Compute Infrastructure) GPUs, servers, cloud costs, memory + processing requirements 2) System (Model choice + Tokens) Usage-based pricing: input tokens + output tokens 3) Energy (Electricity & Environmental cost) Data center power draw scales with volume and latency requirements
Original diagram created for this chapter (no external source).

3.1 Tokens and usage-based cost

模組將 Tokens 視為 LLM 使用的主要成本驅動因素。Tokens 是文字單位 (通常約 3–4 個字元)。 輸入和輸出均以 Tokens 衡量並據此定價 (OpenAI, 2023,如模組內容所述)。

補充說明 (數學檢查)

模組提供了一個互動範例,其中有 500 個輸入 Tokens 和 1,000 個輸出 Tokens。 以輸入每 1k $0.03 且輸出每 1k $0.06 的費率計算。 確切成本為:(0.5 × $0.03) + (1.0 × $0.06) = $0.015 + $0.06 = 每次互動 $0.075。 這僅修正了算術;策略上的重點 (大規模下的成本複合效益) 保持不變。

Figure 3.2. Token accounting (input + output)
Your prompt Input tokens (priced per 1k) Model inference Compute + time + context handling Model response Output tokens (priced per 1k)
Original diagram created for this chapter (no external source).
Network/server hardware photo
圖 3.3. 基礎設施也是成本的一部分 (伺服器、網路、數據中心)。已嵌入相片連結。

3.2 效能權衡:明智選擇

模組將部署框架描述為跨以下各項的權衡:

  • 準確性 vs. 成本 — 高端模型可能更準確,但成本昂貴得多。
  • 速度 vs. 效能 — 較大的模型可能較慢;對於即時互動,延遲至關重要。
  • 上下文長度 vs. 效率 — 較長的上下文可能有幫助,但並不總是必需的;有些模型能有效率地處理長的內容。
決策檢查清單 (來自模組內容)
  • 所需的最低準確度等級為何?
  • 模型會有多頻繁地被使用 (使用量)?
  • 我們能否針對特定任務使用快取 (Caching) 或較便宜的模型?
  • 即時效能是否重要?
  • 模型是否需要長的上下文,還是提示可以更簡短?

4. 探索多媒體與語言互動模型

音訊與語言互動聽起來可能很簡單,但它們需要複雜的技術架構。本節區分核心組件 (ASR, TTS, NLU, 語音生物識別)、各行各業常見的組合,以及營運成本動向 (如即時限制與自定義需求)。

4.1 核心定義 (音訊)

技術定義常用用途
ASR (自動語音辨識)將口語轉化為文字轉錄、字幕、指令處理
TTS (文字轉語音)將文字轉化為聽起來自然的語音語音助理、旁白、新聞閱讀器
NLU (自然語言理解)從語言中判斷意圖與上下文語音客服、對話式代理
語音生物識別使用獨特的語音特徵進行身分驗證金融科技、醫療保健、高安全性環境
Figure 4.1. A typical voice-agent pipeline
Audio in (user speech) ASR speech → text NLU intent + context TTS text → speech Optional layer throughout: voice biometrics (authentication) + analytics (sentiment / QA / monitoring)
Original diagram created for this chapter (no external source).
Studio microphone photo
圖 4.2. 語音互動模型取決於捕捉 (輸入) 與高品質合成 (輸出)。已嵌入相片連結。

4.2 各跨部門技術組合

部門使用案例典型組合 (內容由原文提供)
醫療保健聽寫、轉錄、醫病互動Whisper + NLP 層 (需符合 HIPAA 合規性) (Paubox, 2025)
零售基於語音的客戶服務亭TTS + ASR + 聊天機器人 NLU (PYMNTS, 2024)
教育語言學習、無障礙設施、課程TTS (多語言) + 語音評分 (Wood et al., 2018)
金融呼叫中心自動化、情緒分析ASR + NLU + 分析評分 (Grace, 2025)
汽車車內語音助理邊緣優化的 ASR + 嵌入式 NLU (EE Times, 2025)

4.3 後勤與成本動向

  • 即時 vs. 批次處理: 即時系統 (通常延遲低於 1 秒) 的成本通常高於批次處理 (GeeksforGeeks, 2024)。
  • 自定義: 品牌語音以及跨口音/方言的強大理解能力可能需要顯著的訓練與投資 (Dialzara, 2024)。
  • 語言支援: 高資源語言擁有豐富的模型生態系統;低資源語言可能需要專門的訓練與成本。
  • 數據隱私與合規性: 監管義務可能包括 GDPR, CCPA, HIPAA 和 LGPD;違反行為可能造成財務與名譽風險。

4.4 隱私風險領域與緩解措施 (內容由原文提供)

風險範例緩解措施
未經同意的錄音在未通知的情況下錄製使用者語音明確的同意提示與音效指示
數據保留無限期儲存音訊嚴格的保留政策;允許刪除
生物識別濫用在未明確同意的情況下使用聲紋要求對語音生物識別進行選擇性加入 (Opt-in)
第三方洩漏將使用者數據不安全地發送到雲端 APIs強大的合約 (DPAs) 或內部部署儲存
跨境傳輸針對歐盟使用者使用美國伺服器遵守國際傳輸協議 (SCCs, DPF)

5. 生成式 AI 工具的進階應用

本節將焦點從廣泛的技術類別轉向實用的工具集:影像生成、音訊生成、文字生成與影片生成。 本節也解釋了為什麼混合架構 (GANs + 擴散模型 + Transformers) 在實際產品中很常見,以及為什麼代理式 AI 被定位為下一波浪潮。

5.1 生成式 AI 工具箱 (使用案例)

能力使用案例 (內容由原文提供)
影像生成廣告視覺效果;產品模型;概念藝術;演示插圖;資訊圖表
音訊生成語音代理/IVR;無障礙設施;語言學習;音本/播客敘述
文字生成郵件草擬;聊天機器人腳本/FAQs;報告與摘要;說明文件與 SOPs;SEO 內容
影片生成短形式廣告;說明影片;課程影片;概念預告片與分鏡圖

5.2 影像生成:商業領域 (內容由原文提供)

  • 廣告與行銷: 針對 A/B 測試進行快速創意生產;跨人口統計數據的自定義視覺效果 (DataFeedWatch, 2025)
  • 娛樂: 概念藝術、角色設計、背景製作;更快速的原型開發
  • 零售與電子商務: 產品模型;虛擬試穿;視覺陳列
  • 建築與設計: 快速 3D 草圖與設計變體
  • 醫療保健: 影像增強與合成訓練數據
  • 教育: 自定義插圖與視覺解釋

5.3 Underlying technologies: GANs, diffusion, transformers

圖 5.1. 影像生成的三大基石 (概念比較)
GANs 對抗式訓練 • 生成器產出「偽造品」 • 鑑別器進行檢測 • 快速且擬真的輸出 • 風險:模式崩塌 (Mode collapse) (多樣性變窄) 擴散模型 (Diffusion models) 從噪聲中進行去噪 • 從隨機噪聲開始 • 逐步進行完善 • 訓練穩定且具多樣性 • 怪癖:局部錯誤 (例如:手部/手指) Transformers 自注意力機制 (Self-attention) • 全局上下文處理 • 強大的連貫性/控制力 • 透過並行化進行擴展 • LLMs 的核心骨幹 及多模態系統
本圖表為本章節原創圖表 (無外部來源)。

模組強調,這些系統越來越多地組合使用:GANs 用於速度/真實感,擴散模型用於多樣性/穩定性, 而 Transformers 用於連貫性與控制——有時是在同一個應用程式中。

5.4 Workflows and bottom lines (as provided)

層級描述範例工具最適合權衡
現成 APIs 透過 API 使用託管模型;無需設置;按次付費 DALL·E 3 (OpenAI API), DreamStudio, Adobe Firefly 快速原型、行銷影像、一般需求 微調空間有限;每次調用需付費;可能的數據鎖定
開源本地模型 在您自己的伺服器/私有雲上安裝模型 Stable Diffusion (base/XL), HuggingFace Diffusers 更多控制力、隱私性、品牌一致性 設置 + 運算成本;需要內部專業知識
自定義微調模型 在專有風格/數據上訓練模型 DreamBooth, LoRA, 自定義 SD 分支 (Forks) 大量品牌特定內容 昂貴的訓練 + 持續維護

6. 生成式 AI 工具的進階應用

在本模組至今,我們已經探索了 AI、生成式 AI 與代理式 AI (Agentic AI) 的基礎原理——追溯了該領域從早期起源到目前顛覆市場能力的演進。我們也檢視了文字、音訊與視覺技術如何各自為不斷演變的 AI 版圖做出貢獻。

這最後一節將焦點從廣泛的技術類別轉向更實用的觀點:組織可以用來將 AI 功能整合到實際工作流程中並提升績效的特定工具與平台。

圖 6.1. 生成式 AI 能力的實用「工具箱」視圖
文字 (Text) 生成 / 摘要 郵件、FAQs、報告 文件、SOPs、知識管理 行銷文案 音訊 (Audio) ASR / TTS / NLU 語音代理、IVR 無障礙設施 敘述 / 旁白 影像 (Images) 大規模建立視覺效果 廣告、模型 設計變體 培訓視覺效果 影片 (Video) 生成動態內容 說明影片、廣告 課程、摘要 概念預告片
本圖表為本章節原創圖表 (無外部來源)。

6.1 提升組織績效的生成式 AI 工具箱

模組根據產生的內容類型 (影像、音訊、文字與影片) 對廣泛使用的工具進行分類。這種「工具箱」視圖可幫助領導者將 AI 能力轉化為具體的商業應用。

6.2 影像生成

定義 (自模組框架): 透過文字提示或其他輸入產生影像的 AI 工具,能夠大規模快速建立內容。

使用案例 (內容由原文提供):

  • 行銷: 廣告活動視覺效果、廣告素材、社群媒體圖表
  • 產品設計: 模型、變體、概念探索
  • 概念藝術: 分鏡、預先視覺化、風格原型
  • 教育: 培訓教材插圖、資訊圖表、學習視覺效果

6.3 音訊生成

使用案例 (內容由原文提供):

  • 客戶服務: 語音代理、IVR 系統、呼叫中心自動化
  • 無障礙設施: 螢幕閱讀器、音訊描述、旁白
  • 語言學習: 發音訓練、互動式口說練習
  • 內容創作: 音本、播客敘述、AI 新聞閱讀器

6.4 文字生成

使用案例 (內容由原文提供):

  • 客戶參與: 郵件草擬、聊天機器人腳本、FAQs
  • 內部工具: 報告撰寫、摘要、文件生成
  • 內容行銷: 部落格文章、社群媒體文字、SEO 內容
  • 知識管理: 說明文件、SOPs、幫助中心

6.5 影片生成

使用案例 (內容由原文提供):

  • 行銷: 短形式廣告、說明影片、社群內容
  • 教育: 課程影片、動畫摘要、教材
  • 娛樂: 概念預告片、角色動畫、分鏡圖
6.6 即將到來的代理式 AI 浪潮 (模組銜接)

生成式 AI 已經在重塑組織建立文字、音訊與視覺內容的方式。下一個前沿是代理式 AI (Agentic AI)——不僅僅是回應命令,而是能主動、做決策並跨工具進行自主協作的系統。在下一個模組中,本課程將探索這種演進如何為大規模自動化、個人化與數位智慧開啟新的可能性。

複習問題與練習 (補充)

Editorial addition (study support)

The following questions are designed to help learners consolidate Module 1 concepts. They are not presented as original course content.

  1. 演進: 比較基於規則的聊天機器人與基於 LLM 的聊天機器人。當系統變為生成式時,發生了哪些變化 (能力、風險、成本)?
  2. 推理: 什麼是思維鏈 (Chain-of-thought) 提示,為什麼它對多步驟決策問題很重要?
  3. 風險: 用您自己的話定義「幻覺」。哪些治理實務能降低面向客戶系統中的風險?
  4. 成本: 識別 AI 系統的三個成本驅動因素,並為每個因素提出一個「現實世界」的影響。
  5. 多媒體: 在語音代理中,ASR, NLU 與 TTS 位於何處——為什麼即時延遲會改變成本?
  6. 部署: 什麼時候您會選擇現成 API,而不是開源本地模型或微調模型?

作業一支援 (補充)

Assignment listed in Course Guide: “Assignment 1: Evaluating the Cost of AI Systems.”

Editorial addition (suggested approach)

Since only the assignment title is provided, the following is a suggested template to help students apply Section 3’s concepts without inventing course requirements. Adapt as needed to match your facilitator’s instructions.

  1. 定義使用案例: 例如客戶支援、文件摘要、語音代理分類。
  2. 估計量: 每日互動次數以及平均提示/回應長度 (Tokens)。
  3. 計算 Token 成本: 模型費率下的輸入 + 輸出;展示最佳/預期/最差情況。
  4. 添加限制: 延遲目標、準確度需求、上下文長度需求。
  5. 選擇模型策略: 僅在需要時使用高端模型;對常規任務使用較便宜的模型;盡可能使用快取。
  6. 討論能源與治理: 注意營運可持續性以及幻覺風險/緩解措施。

參考文獻 (依原文提供)

本清單保留了原 Module 1 內容中出現的參考文獻。如果您提供詳細的書目資料,我們可以再行補充。

  • Codingscape (2024)
  • Coshow et al. (2025)
  • DataFeedWatch (2025)
  • Dialzara (2024)
  • EE Times (2025)
  • GeeksforGeeks (2024)
  • Grace (2025)
  • Marr (2024)
  • Murphy (2023)
  • OpenAI (2023)
  • Patrizio (2025)
  • Paul & Tong (2024)
  • Paubox (2025)
  • PYMNTS (2024)
  • Topal (2023)
  • Williams (2025)
  • Wood et al. (2018)