2025年10月15日 星期三

AI的妄言、妄信與迷思

      一個跟AI關係密切的科技產業大老去台大演講,主持的台大教授恭恭敬敬地言必稱「學長」,還說「學長」平日忙於協助政府首長及科技業高管研擬策略,今日撥冗前來備感榮幸。根據這個「學長」的履歷和頭銜,這位主持的教授並不算「過獎」。但是滿懷期待地聽了半小時後,演講裡充滿跟AI有關的胡扯(絕大部分是過度誇大 AI 的能力而貶抑大學教育的相對價值),實在無法再忍受,就把它關了!
      另外一個也是在台大的演講,講者是在美國大學名校任教的華人,也是對 AI 的性能過度恭維,只不過他的態度還算誠懇,所以沒引起我反感。然而還是免不了一個疑惑:台灣人瞎扯就算了,為什麼海外學人以及國際著名的英美學者也普遍地嚴重高估 AI 的性能?
      最離譜而讓我難以置信的是,全球四大會計師事務所之一的德勤(Deloitte)在撰寫澳洲政府委託的調查報告裡(總經費44萬澳幣),竟然「局部使用 Azure OpenAI GPT – 4o」,以至於報告中出現多次 AI 典型的「幻覺」,而在被發現後不得不坦承事實並且承諾要繳回部分委託經費。
     連德勤都可以出這麼荒唐的紕漏,我不禁懷疑:到底有多少人真的認認真真地用過聊天機器人,並且仔細核驗它們產出的結果是否可靠?

妄言、妄信與迷思的根源
      很多學術界的討論與坊間的議論都把關於 AI 的話題聚焦在「AI 可以做到什麼事?」緊接著就跳躍式地討論(推論)哪些「工作(即)將會被 AI 取代。」
      這樣的討論非常容易為自己和聽眾製造幻覺。其實,聊天機器人已經可以做到非常多事問題是它目前能做的事幾乎都品質粗糙或平庸甚至根本就不靠譜(不時出現幻覺)
      此外,盡管 AI 在很多測試平台(benchmark)上的表現都進步神速且已經很驚人。然而只要懂得 pre-training 和 post-training(含 fine tuning)的原理及其侷限,就會知道:測試平台上的表現是可以騙人的(像背考古題那樣地靠 post-training 硬是強化其對 benchmarking 的表現,但是卻會因此損害它在其他問題上的性能),AI 模型真正的一般性實力在於它 pre-training 後(fine tuning 及各種 post-training 之前)的表現。因此,要推斷 AI 現在的實力,不該看 benchmarking,而要看個公司所發表的系統說明卡(system card)中跟 pre-training 有關的性能。不過,很多公司對這一部分故意不多說,或說得不清楚,所以最可靠的還是根據大量的實際應用案例來作判斷依據。
     偏偏,就像一篇系統性回顧的論文所說的,2025年以前發表的論文通常是根據極其有限的實證數據加上大幅度的理論性推測而寫作,其實證基礎相當薄弱,結論的可靠性也很薄弱,所以幾乎每一個議題都可以發現大量結論相左的論文。
      這並不奇怪,畢竟 2023年以來聊天機器人(LLM)靠著 post-training 和一大堆插件(外掛工具如網頁瀏覽器、搜尋引擎、計算器功能等)而持續在表現上提升性能,使得相關的實證研究幾乎都跟不上 LLM 表面上的性能發展。好不容易等到今年八月,比較可靠一點點的實證研究終於出來了。

八月以來 AI 的新聞很熱鬧
      關於AI,八月份和九月份都是很熱鬧的季節。先是 GPT-5在八月初上線,而且免費的用戶每天可以問它十個問題。
      然而很多過去的付費用戶都徹底失望,因為 GPT-5 實際上只是既往各種 GPT-4 版本的集結,只不過加上一個 router 來決定要用哪一個模型回答問題,而這個 router 的選擇往往不吻合使用者的需要,因此他們寧可回到過去,保留自己選擇模型的自由。
       這個事實也強化了一個有理論依據的傳聞:LLM 的性能很快地會撞牆(投入的資源增加十倍才有機會將性能提升一倍),或者已經撞牆(GPT-5 比 OpenAI 原本宣告的上線日期延後數個月,實質性能卻還是停留在 GPT-4),使得資源的投入不敷成本效益,也使得業界不趕像過去那樣地恣意投入資源。
      不過,在一片罵聲中有人慧眼獨具地指出  GPT-5 的三大重要特色與佈局:(1)它大幅降低幻覺率,使它遠低於其他模型(不過平均起來還是有9.6%,某些實際應用下最高可以達到40%)。(2)它的運算成本(耗能)大幅下降,只剩其他模型的十分之一左右,解決了大家對聊天機器人未來發展的最大疑慮(高耗能與耗水、數十倍於搜尋引擎的耗能與運算成本)。(3)它讓無數免費用戶不花錢就可以體驗第一線(在許多評比中表現最出色)的聊天機器人,顯然存心要用低耗能(低成本)與低幻覺率的優勢大舉擴張市場佔有率和各種地盤——似乎意味著她不滿足於早已是業界佔有率第一名,且遙遙領先,還想要「獨霸武林,一統江湖」。
      然而這似乎意味著:關於性能的競賽已經冷下來(越來越不敷成本效益),如何降低運算成本與幻覺率才是當前最大的挑戰。因而未來的發展模式很可能是 ChatGPT 顯示的:(1)持續優化一個超大模型(mother model),讓它的 pre-training 後的實力持續而緩慢地提升;(2)同時利用這個 mother model 訓練出一堆 pre-training 後性能較低的小 model(大幅降低運算成本),並且根據不同用途強化其 post-training 後的特殊性能(在特定領域內表現出眾,但犧牲它在其他領域的性能);(3)利用 router 決定在每一次回應中要使用哪一個小 model。
      緊接著,MIT 的 AI 產業觀察報告出爐。這個研究在2025年上半年訪談了300個企業界(跨七大產業部門)的先導性計畫,發現成功率(有實際回收)只有5%,且集中在軟體業和廣告/媒體業的 back office(容錯率較高的工作,譬如主動向客戶推薦新產品;以及過去委外執行的工作)。至於原本被看好的 front office 和被認為最容易被 AI 侵入(取代)的法律、醫療與會計業,影響微乎其微。
      這份報告還以實際的證據駁斥各界對AI的五大迷思:(1)未來數年內人工智慧將會大量取代人力(事實上只有軟體業有明顯受到衝擊,而且高階主管對於未來三至五年的聘僱策略見解相當分歧);(2)生成式人工智慧已經在改變職場(事實上只有五%的計畫成功地被融入工作流程);(3)大型企業決策與改變的速度都較慢(事實上大型企業中有九成很積極地嘗試過各種人工智慧解決方案,只可惜失敗率嚴重地偏高);(4)人工智慧進入企業的最大障礙為模型的性能、版權等法律問題、數據的規模與風險考量(事實上是能否充分融入工作流程);(5)大型企業會建立起自己的模型(事實是自行建立的企圖失敗率是委外開發的兩倍)。
      由於這份報告的實證基礎遠比較往更可靠,因此它一出爐就讓美國的 AI 相關股市開始動搖。
      緊接著 OpenAI 的執行長 Sam Altman 在跟記者會面時也「坦承」AI業將會有人泡沫化。我仔細揣摩,他的意思應該是:大部分既有的聊天機器人將會因為難以長期支撐的高耗能+高成本以及難以跨越的應用障礙(高幻覺率)而入不敷出,終於泡沫化;唯獨 ChatGPT 已經克服聊天機器人兩大難題(高耗能+高幻覺率)。
      到了十月初,IMF 和英格蘭銀行不約而同地含蓄而婉轉警告:有鑑於2023年以來對於 AI 的投資急遽擴張,且投資擴大速度遠遠超乎 AI 相關業界的回收速度,假如 AI 的性能提升速度與應用上的擴散速度不如預期,隨時有爆發 AI 泡沫的風險。緊接著 BBC 又在 10/11 專文報導:對於 AI 泡沫化的恐懼感正在瀰漫矽谷。高盛和  JPMorgan 雖然認為 AI 股價還沒有到泡沫化的邊緣,但是確實已經高到隨時有可能會向下修正,因而建議投資者分散風險。
      連續四個重要機構以不同的語調警示 AI 投資可能已經過熱,顯示 2023 以來的樂觀狂潮可能即將開始退燒,同時暗示著 AI 的性能進展和商業化速度是遠不如前一陣子的樂觀預期。
      既然如此,為什麼學術界還有那麼誠懇和不誠懇的人在大肆渲染 AI 取代人類的幅度與速度?
      讓我們認真、腳踏實地的看看事實。

AI 的現況:事實、訛傳、謬論與迷思
    其實,就算 GPT-5 已經將幻覺率降到大約 10%,理論上只要認真核對 ChatGPT 的回答,每十次就會有一次的機會碰上幻覺。因此,腦筋清楚的人應該到目前都還會對 AI 的回答不太放心才是啊?
      偏偏,很多人跟 ChatGPT 問答時,要嘛談些無關緊要也沒所謂「對錯」的問題,所以即便有「幻覺」也不易覺察(甚至無法查證)。其次,當認真問 ChatGPT 時,往往問的是自己沒有清楚答案(甚至毫無頭緒)的問題,所以也不易覺察到答案可能有問題,或者至少品質介於平庸與粗劣之間
      我自己曾經在閱讀 MIT 的報告之前先讓  ChatGPT 幫我摘要,繼而跟它討論,都覺得它的回打頭頭是道。但是當我自己讀完 MIT 的報告後,就發現  ChatGPT 很可能只是摘述網路上對於這篇報告的轉述和評論根本沒有直接去閱讀這篇報告
      其次,ChatGPT 的摘述和討論在深度、精細度與精準度上都遠遠不如  MIT 的原始報告。在我跟 ChatGPT 討論後的很多疑點和含糊處,在閱讀   MIT 的原始報告後都獲得釐清。
      接著,在嘗試過很多類似的測試,並且印證期刊論文上關於 LLM(大型語言模型)的原理、缺點、補救及其侷限等的討論後,我很篤信:至少在目前,聊天機器人的能力絕不足以勝過自己閱讀專家的優質研究報告。在這涵義下,只要你學會搜尋、閱讀期刊論文,你就可以在任何問題擁有遠比 AI 更詳盡、精準、可靠的答案。而念大學正是培養這種能力的起點。
      所以,你可以說:有了 AI,混大學文憑只是浪費。卻不能說:有了 AI,大學教育通通都是浪費
      你也可以說:有了 AI,任何人都可以輕易地擁有跨領域的知識、視野與思考。然而你還必須謹記:AI只能幫助你建立起跨領域閱讀、思考與對話的基礎能力,然而真正精準、可靠的跨領域閱讀、思考與對話,還是要靠自己,而不可能仰賴 AI。
      更簡潔地說:AI 只是跨領域閱讀、思考與對話的起點,而不是中點,更不可以當終點。
      所以,對 AI 的合理期待是:它可以幫我們做很多低階的工作,卻無法獨立作業,也無法取代真正有思考能力的人類。

一個簡單的測試
      要知道 AI 的真正能力,就要找到真正需要思考,且有正確答案的問題,用來測試它。
      我曾誤以為它可以輕易地幫我完成一個繁雜、費時但是原則很簡單的工作。結果,教了半天它都始終錯得很離譜,最後我還是只好自己的完成。
      這個工作,就是依序完成:(1)彙整三份日本網頁裡的「紅葉百選」,(2)統計每個景點出現的次數。(3)按照「北海道+東北」、「關東+甲信越」、等區域分別製作成表格。(4)根據 WalkerPlus 網頁裡的「全國人氣排名」,在最左邊那一欄填入「排行名」,同時在「次數」中再加「1」。
      這麼簡單的工作它卻老是出錯,最後我還是乾脆自己動手做完這個功課。
      前面所謂三個「紅葉百選」的網頁分別是:(1)日本主婦之友社在2010年從日本觀光協會的700個紅葉名所中選出的100個紅葉名所(日本紅葉の名所100選);(2)日本自駕租車預約網站ToCoo 所選出的「日本紅葉名所100選」;(3)日本遊覽車與包車服務公司 Busico Mac 所揀選的「絶景 紅葉100選」。
      本文最後的附錄裡有兩張表格,是我按景點所在行政區域劃分建立的表格(前兩頁,全部共八頁)。你可以用它當正確答案去核對 Chatbots 給你的答案(執行過程倉促,可能略有瑕疵或小錯;但絕對不像 GPT 那麼離譜)。 

聊天機器人(LLM)真正的用途和隱憂
      LLM 目前的翻譯能力雖然還不夠精準,確實已經足敷許多實際用途之需,且它在軟體程式設計上確實已經足以提升軟體工程師的效率(執行低階的程式寫作,但需要偵錯和訂正)。
      如果一個人可以對 LLM 的原理(包括 pre-training & post-traning)有基本了解,LLM 是有機會促進跨領域的閱讀、思考與討論如果對於資訊的品質要求不高,它也比傳統搜尋引擎好用。此外,如果略通 prompt engineering 的基本要領,它也很有機會用來協助中小學生預習和溫習功課,以及寫作業。
     然而根據我已經彙整的學術文獻和自己實際操作的經驗,我卻認為:國中小學生不該讓他們使用 LLM,尤其是不該讓他們在沒有老師、家長的陪同下獨自使用 LLM(不管是寫作業或聊天);高中生則必須在高一上學期就給他們上一門每週兩小時的「LLM導論(LLM識讀)」的課,以免他們「未蒙其利,先受其害(備受其害)」。原因是既有證據顯示:LLM 有機會比社群媒體更容易傷害年紀小、熱情而愛幻想的青少年。
      在比利時一位工程師自殺後,歐盟有許多位學者聯名發起公開信,請大家連署要求立法規範 LLM 的安全性要求。其中一位學者說:必須儘快立法規範 AI,確保它們對使用者而言是安全的——就像在立法規定汽車必須配備安全帶等設施之前,車禍傷亡人數嚇人;立法規範 AI 的安全性就有如立法規定汽車必須有安全帶等設施一樣
      其實她還忘記一件同等重要(甚至更重要)的事:必須要年滿18歲且考過駕照後才可以駕駛汽車。同理,青少年最好是先上過一學期「LLM識讀」,學會保護自己,避免墮入 AI 的妄言、妄信與迷思,才能讓他們獨自上網使用 LLM,以便將傷害降至最低。
      問題的關鍵是:盡管美國有許多大學都已經開授類似 AI 導論的課,我還沒看到適合高中師、生、家長的課。甚至連討論 LLM 潛在負面效應的論文,也絕大部分是以較嚴重的案例(線索較鮮明而容易分析)作為實證研究的對象,只有極少數開始討論 LLM 對一般青少年的可能傷害——雖然實證研究已經證實最容易受到社群媒體負面影響的是青少年,而既有的線索和理論也顯示最容易受到 LLM 負面影響的人應該是原本就有(潛在)精神疾病的人與人格、情緒都尚未穩定的青少年。
      如果要等學術界把這個缺口給填補起來,恐怕受害的青少年會超過受社群媒體之害的青少年。鑑於政府立法緩慢,學術界的實證研究費時,而青少年卻很可能容易受害,國、高中生的家長與老師恐怕得自己先謀私自己的對策以圖自救(尤其是國高中生的家長)。

附錄:紅葉百選及排名