網紅用AI變聲剪接造假語音,法律與技術聯手打擊深偽Deepfake的實例

這幾年,只要會上網的人大概都聽過一句話:「眼見不再為憑。」但現在更可怕的是,連「耳聽」都不一定能信了。幾個禮拜前,我一位在刑事局服務的朋友私下傳了一段錄音給我,說是最近偵辦的案子。錄音裡是一個擁有百萬訂閱的遊戲實況主,他聲稱自己握有獨家內線,台灣某科技業大佬即將進軍元宇宙虛擬貨幣,還附上一段「大佬本人」的語音推薦。那聲音簡直神似,語氣、咬字、連慣用的停頓都一模一樣。結果,整段推薦根本是AI生成的,前後騙走粉絲上千萬元。最讓人背脊發涼的是,這名網紅不只是拿著一段粗糙的錄音檔騙人,他把AI變聲、精密剪接、社群操作的整套流程玩得爐火純青,甚至可以說是一套「造假產業鏈」的完全體。
這不是小說情節,而是現在進行式的犯罪型態。當AI語音合成與變聲技術被網紅這類「高影響力但未必高自律」的群體握在手裡,我們的社會到底準備好法律和技術雙重防線了嗎?接下來,我會從真實案例出發,一步步帶你看見Deepfake語音從技術到犯罪的完整地圖,以及法律和科技界是怎麼聯手把這些看不見的敵人一個一個揪出來。
1. 當聲音不再是鐵證:AI語音偽造的技術圖譜
很多人對Deepfake的印象還停留在換臉影片,其實聲音偽造的發展已經追得很緊,甚至因為聲音的資訊維度比影像低,偽造門檻反而更低。要複製一個人的聲音,現在只需要目標對象幾分鐘的清晰錄音,就能用開源專案或雲端服務做到七八成像。
1.1 從文字轉語音到聲音複製,那條線是怎麼跨過去的?
早期的文字轉語音只是把文字轉成制式化的電子音,聽起來像Google導航。但2016年DeepMind發表WaveNet之後,類神經網路開始能夠直接生成原始音頻波形,語氣、情感、換氣都能模仿。到了2022年前後,開源社群相繼出現像是VITS、GPT-SoVITS這類專案,只要給一段10到30秒的目標說話樣本,模型就能用「少量樣本」複製出一個高擬真度的聲音模型,再搭配使用者輸入的文字,直接產生那個人的合成語音。網路上還有完整的「懶人包」教學,從安裝到生成,快的話半小時就能讓你的電腦開口學郭台銘講話。
更進階的玩法則是把「聲音轉換」和「剪接工程」結合。網紅不需要親自唸稿,他只要先用自己或他人的聲音錄好一段論述,然後透過RVC或So-VITS-SVC等聲音轉換工具,把整段語音的聲紋特徵轉成目標名人的聲音,最後再匯入如Audacity、Adobe Audition這類剪輯軟體,把語調、語速、背景環境音進行細部微調,加上幾可亂真的通話雜音或辦公室背景聲,聽起來就像真的偷錄。
1.2 為什麼網紅會成為語音偽造的高風險族群?
從動機來看,網紅追求的是流量、信任與變現。一則「某大佬私下跟我說……」的獨家音檔,絕對比千篇一律的口播廣告更能引爆點擊。再加上這群創作者普遍熟悉剪輯軟體,對新興AI工具上手速度快,但法律意識往往沒有同步跟上,很容易在追求聲量的過程中越過那條紅線。
此外,近年直播帶貨競爭激烈,部分直播主會利用「名人背書」的偽造語音來增加商品可信度,這些語音片段通常很短,可能只有一句「這個我用過,真的不錯」,即使稍有瑕疵,在即時直播的快節奏下聽眾也難以察覺。這類行為正在從個案逐漸變成一種行業內公開的秘密。
2. 點擊率背後的犯罪現場:網紅AI變聲造假事件深度紀錄
2.1 虛擬貨幣詐騙案:「夜雨」事件始末
2024年3月,刑事局偵九大隊接獲多名被害人報案,指稱一名在YouTube和Twitch擁有合計超過120萬追蹤者的實況主「夜雨」,在直播間不斷推銷一款名為「Nebula Coin」的虛擬貨幣,還現場播放了一段號稱是科技業傳奇人物郭明昌(化名)的獨家錄音。錄音內容直指Nebula Coin是他下一個重點佈局,甚至暗示內部認購管道僅開放給夜雨的粉絲。
那段錄音長約2分40秒,說話的聲線、停頓習慣、偶爾穿插的台灣腔英語,都讓許多粉絲深信不疑。再加上夜雨在直播時聲淚俱下地保證「這是我冒著被告的風險拿到的」,一週內就吸引超過600人投入資金,總金額破新台幣3000萬元。直到幣價在短短三天內歸零,受害者才發現所謂的獨家內線根本是一場空。
警方攻堅夜雨住處後,在他的電腦裡找到完整的造假工具鏈:一套基於GPT-SoVITS的聲音模型,以郭明昌過去在公開演講、法說會的影片音軌作為訓練樣本,總訓練時間約6小時。夜雨先自己讀稿,再用RVC把聲音轉換成郭明昌的聲紋,最後用iZotope RX這類專業音頻修復軟體去除雜訊,並在音軌前後加上手機來電的空白噪音,模擬成通話錄音的質感。整個過程環環相扣,已經不是一時興起,而是預謀性的犯罪工程。
2.2 選舉期間的假退選聲明:一個玩笑的代價
如果說詐騙是為了錢,那另一個案例則完全是追求流量的玩火。2024年初,台灣總統大選白熱化階段,一名以政治模仿秀聞名的TikTok網紅,為了衝刺選舉夜的直播人數,利用AI變聲工具製作了某黨候選人的「宣布退選」語音,並剪接上過去競選場合的背景歡呼聲,上傳到短影音平台。短短四小時,播放量就突破200萬次,不只親友團動盪,連股匯市都出現瞬時波動。
該名網紅在影片描述欄註明「純屬娛樂」,但檢方仍依《總統副總統選舉罷免法》及《刑法》偽造文書等罪嫌介入偵辦。最後雖然因候選人未正式提告誹謗而獲得緩起訴,但法院仍裁定他必須支付國庫新台幣30萬元,並接受4場法治教育。這個案例清楚說明,即使你認為只是「玩笑」,一旦觸及重大公共利益,法律的火力遠比你想的猛烈。
2.3 假貨帶貨鏈:AI語音成為詐欺的工業化零件
除了單一網紅的個案,現在甚至出現整條AI語音造假供應鏈。不肖業者會在社群平台開出規格單:「代客製作名人推薦語音,一句500元,十句以上八折」。買家通常是中小型帶貨直播主或團購主,他們提供要推銷的商品資訊,業者就用AI生成知名營養師、醫師、甚至藝人的推薦語音,再交由直播主在節目中播放。
因為這些音檔都是全新生成的內容,傳統的版權比對系統根本抓不到,而且名人本人也渾然不覺。這類案件直到2024年中有消費者發覺推薦內容前後矛盾,主動向消保官檢舉,才揭開這個灰色產業鏈。目前相關偵辦方向已經朝向《刑法》加重詐欺、《商標法》以及《公平交易法》的廣告不實等方向擴張。
3. 從罪刑法定到數位中介:法律如何重新畫紅線?
當犯罪的工具進化到能夠模擬一個人的聲紋身分,舊有的法條當然不夠用。台灣從2023年起陸續針對深偽內容進行修法,雖然步伐不算最快,但方向已經明確:利用AI合成不實影音,不只是道德問題,更是刑法問題。
3.1 《刑法》的直接武器:詐欺、偽造文書與妨害名譽
現行實務上,若網紅使用AI生成他人語音進行詐騙,最直接適用的罪名是《刑法》第339條之4的「加重詐欺罪」,最重可處7年以下有期徒刑。像夜雨案這類有組織性、金額龐大的情節,通常就是從這條切入。如果語音的內容本身構成「足以表示其用意之證明」的文書性質,比如模仿某人說「我授權你代理我」,也可能觸及《刑法》第210條、第220條的偽造準文書罪,最重5年以下。
單純侮辱或毀損他人名譽,而未涉及金錢詐欺的情況,則會落入第309條公然侮辱、第310條誹謗的範圍。但要特別留意,如果被害人是公眾人物,而網紅能證明自己有相當理由確信錄音為真,實務上仍有阻卻違法的空間——問題在於,當你是用AI工具造假的時候,要證明自己「真的不知道那是假的」,恐怕比登天還難。
表1:AI變聲造假語音常用法條對照
| 法律名稱 | 條文 | 構成要件簡述 | 刑度 |
|---|---|---|---|
| 刑法加重詐欺罪 | 第339條之4 | 利用網際網路、電腦等設備對公眾散布而犯詐欺 | 1年以上7年以下 |
| 刑法偽造文書罪(準文書) | 第210、220條 | 偽造足以證明特定權利義務關係的錄音 | 5年以下 |
| 刑法妨害名譽 | 第309、310條 | 散布不實言論毀損他人名譽 | 拘役或2年以下 |
| 刑法強制罪 | 第304條 | 以加害之事脅迫使人行無義務之事(若語音內容含脅迫) | 3年以下 |
| 選罷法散布深偽影音 | 選罷法第104條 | 選舉期間散布候選人深偽影音意圖影響選舉 | 5年以下 |
3.2 選舉期間的特別加嚴
為了因應AI對民主的威脅,2023年6月立法院三讀通過《總統副總統選舉罷免法》及《公職人員選舉罷免法》修正案,明定任何人不得在選舉期間製造、散布、轉傳候選人的深偽影音,違者最重可處5年以下有期徒刑或併科新台幣50萬元以下罰金。這條讓檢調在處理選舉假訊息時,不必再迂迴尋找詐欺或誹謗的構成要件,只要證明影片或音檔是深度偽造,而且有影響選舉的意圖,就可以直接發動。
3.3 國外立法快照:歐盟、美國與中國的態度
各國在面對Deepfake聲音的立法上節奏不一,但方向頗為一致。
- 歐盟《人工智慧法》:要求AI生成內容必須明確標示,深度偽造內容需滿足透明度義務,違者最高可罰全球年營收的6%。
- 美國聯邦與州立法:目前沒有單一聯邦立法,但加州、德州等已針對選舉深偽頒布禁令,聯邦貿易委員會也開始對利用深偽語音進行詐欺的業者開罰。
- 中國《互聯網信息服務深度合成管理規定》:強制深度合成服務提供者對生成內容加上可識別標記,並要求使用者實名認證,違者依法追究刑事責任。
- 英國《線上安全法》:要求平台對非法深偽內容負起主動下架責任,否則面臨巨額罰款。
這張國際網絡讓單純想靠跨國伺服器躲法律的網紅,能躲的洞越來越小。
4. 科技的反擊:從聲紋鑑識到AI防偽水印,好幾層防火牆一起上
法律走得慢,但技術的攻防根本是用小時在計算的。當偽造端已經可以產生幾可亂真的音頻,防禦端也發展出對應的鑑定技術,而且不只一種方法,而是像堆疊防護罩一樣層層把關。
4.1 資深鑑識人員的耳朵與機器之眼:頻譜分析與聲紋比對
刑事局鑑識中心處理音頻證據的第一站,通常是頻譜分析。每個人發聲時,從聲帶到鼻腔、口腔的構造都是獨一無二的,會產生特定的共振頻率和泛音結構。AI生成的語音雖然聽起來很像,但在高頻泛音的分布、子音與母音之間的過渡紋理、以及微小的時間軸抖動等特徵上,往往會留下不自然的痕跡。
專業的音頻鑑識軟體會把錄音轉成頻譜圖,透過比對真實樣本和可疑樣本的共振峰頻率、頻寬變化,找出人工生成的證據。偵辦夜雨案時,鑑識人員就是發現可疑錄音在8000Hz以上的高頻區出現「過度平滑」的現象,這是人類真實發聲不可能出現的,成為突破心防的關鍵證據。
4.2 深度學習鑑別器:用AI抓AI
傳統鑑識要靠專家,效率有限。近兩年學界和業界積極發展「深度偽造語音自動鑑別模型」,原理就是用AI來抓AI。研究人員會蒐集大量的真實人聲和各種生成對抗網路產出的偽造語音,訓練出一個二元分類器,讓它學習真假語音之間最細微的差異。
目前國際上最常用的基準測試是ASVspoof挑戰賽,從2015年至今已舉辦多屆,推動了許多高效鑑別模型的誕生,例如使用殘差網絡的ResNet-TDNN,以及直接處理原始波形的RawNet2。這些模型對語音偽造的偵測準確率已能達到95%以上,部分系統甚至可以在1秒內完成判斷。資策會和工研院也都有開發繁體中文優化的音頻深偽偵測引擎,部分已提供給警政單位和社群平台試用。
4.3 源頭防堵:音頻浮水印與內容憑證
除了事後偵測,從源頭就讓偽造難以進行是更根本的做法。Adobe主導的「內容真實性倡議」正在推動一種開放標準,讓錄音設備在錄製當下就自動嵌入加密數位憑證,記錄錄製時間、地點、裝置等元資料,後續任何變造都會破壞憑證,讓接收端一眼就能確認這份錄音是否為原始檔。目前部分新聞媒體和公部門已經開始採用這種流程。
另一種比較強硬的技術是音頻浮水印,就是在合法錄音中嵌入人耳無法察覺但機器可識別的聲紋標記。萬一有人拿這份錄音去訓練AI模型,訓練出來的合成語音會帶著原始浮水印的碎片,追查起來就有跡可循。台灣已有新創業者開發這類技術,應用在銀行客服錄音和股東會記錄的防偽上。
表2:AI語音深偽偵測技術比較
| 技術名稱 | 原理 | 優點 | 限制 |
|---|---|---|---|
| 頻譜/共振峰分析 | 比對真假語音的聲學特徵 | 解釋性強、法庭證據力高 | 需專家操作、費時 |
| 深度學習鑑別器 (ResNet-TDNN等) | 用神經網路自動分辨真假 | 速度快、可大規模掃描 | 需大量訓練資料、對新型偽造可能失效 |
| 生物特徵聲紋比對 | 比對個人獨特發聲器官特徵 | 能鎖定特定個體 | 需要本人足夠的聲紋樣本 |
| 區塊鏈數位指紋存證 | 將原始聲音特徵上鏈存證 | 防止竄改、可追溯 | 無法防止未上鏈的錄音被偽造 |
| 內容憑證/浮水印 | 嵌入加密資訊證明來源 | 從源頭防偽、主動防禦 | 需硬體與生態系全面支援 |
5. 聯手出擊:政府、平台與民間編織起來的天羅地網
法律是子彈,技術是槍,但沒有持槍的人整合作戰,還是打不了仗。過去幾年,台灣在對抗深偽語音上,慢慢長出了公私協力的模式。
5.1 刑事局與鑑識中心的科技偵查轉型
刑事警察局在2022年正式成立「深偽影音偵處小組」,結合鑑識中心、科技研發科和外部學術團隊,專門處理涉AI偽造的刑事案件。他們建立了一套標準流程:案件受理→初步人工鑑定→自動化AI掃描→頻譜細部解析→生成工具反溯源。以夜雨案為例,就是循著這套流程,從發現偽造痕跡,進一步反查出他的電腦曾大量使用特定開源訓練腳本,成功讓夜雨無法狡辯。
同時,警政署也透過宣導和定期訓練,讓第一線派出所員警具備基本的數位證據判斷能力,避免民眾報案時因為錄音聽起來「很真」而被輕忽。
5.2 平台責任從被動變主動
過去YouTube、Meta、TikTok等跨國平台對中文內容的深偽管理相對消極,但隨著各國立法壓力和品牌形象風險升高,態度明顯轉硬。目前YouTube要求創作者若內容包含「以逼真方式呈現人物說出或做出未實際發生之事的變造內容」,必須明確揭露,否則將被下架甚至終止合作關係。Meta也宣布會對AI生成的音頻自動標註,並逐步禁止未標記的政治性深偽廣告。
台灣本地的論壇和通訊軟體則更難管理。不過LINE在2024年推出的「訊息查核中心」官方帳號,已開始試行用戶可將可疑語音訊息上傳,由後端AI模型輔助鑑定真偽,這是將防禦力延伸到最封閉的私密群組的重要嘗試。
5.3 事實查核組織的AI耳朵
台灣事實查核中心、MyGoPen等單位,原本著重於圖文與影片查核,現在也開始擴充語音查核能量。他們訓練了一批專門聽頻譜的志工編輯,並與學術單位合作開發中文語音真偽辨識輔助系統。他們的運作流程很有趣:先由AI快速標記高風險短影音或Podcast片段,再由人類編輯進行語境、脈絡的比對,最後決定是否發布查核報告。這種「人機協作」模式將機器的速度跟人類的判斷彈性結合,已經成功揪出好幾起網紅玩過頭的假語音事件。
6. 數位時代的耳朵求生術:你可以這樣對抗AI假聲音
法律再快、技術再強,最外層的防護罩其實是你自己的警覺心。以下是我整理給一般民眾的七項自保建議,在真假難辨的時代,讓自己不成為假訊息的二次傳播者:
- 聽內容,別只聽聲音
遇到極端煽情、要求立即行動、引發強烈情緒的語音內容,哪怕聲音聽起來再像你認識的人,先拉高警覺。真實世界的對話很少會出現「立刻匯款到以下帳號,不要告訴別人」這種完全脫離情境的句子。 - 不規則的背景噪音是線索
AI生成的語音有時背景過度乾淨,或者背景音有奇怪的規律性中斷。如果你聽到的錄音標榜是「偷錄」,卻沒有半點衣服摩擦或呼吸雜音,很不合理。 - 反向建立對話
如果你接到聲稱是家人、老闆的緊急語音來電,最簡單的方法就是掛斷後用原本的管道回撥確認。多一道手續,可以擋掉九成以上的詐騙。 - 關注官方來源
名人、企業或政府機關的重大聲明,必定會透過官網、官方社群帳號多重發布。只憑一段來路不明的錄音,絕對不足以成為相信的理由。 - 更新你的防毒觀念,納入「防偽」思維
就像你會定期更新電腦防毒軟體,對於資訊來源也要建立一套篩選機制。把你信任的新聞媒體、查核平台設為第一優先來源。 - 幫身邊的人做數位掃盲
最容易受害的往往是數位落差較大的長輩或孩童。花點時間跟他們解釋AI變聲的可能,示範一次如何查證,這個動作比你獨自聰明更重要。 - 發現可疑,立即通報
165反詐騙專線、事實查核平台的申訴管道,或是直接向平台檢舉,都能成為阻止假語音擴散的一道關鍵防線。你的主動通報,可能救了下一批受害者。
常見問答
Q1:單純用AI模仿朋友或名人的聲音來開玩笑,也算犯法嗎?
如果只是私底下朋友間嬉鬧,沒有散布到公眾領域,法律介入的空間很小。但一旦將偽造語音上傳到公開平台,即使聲稱「純屬娛樂」,只要內容足以損害他人名譽、侵害隱私或引起公眾誤解,就可能觸犯《刑法》妨害名譽、偽造文書,甚至《選罷法》等相關規定。
Q2:現在有沒有免費的AI語音真偽檢測工具可以用?
目前多數高準確度的工具仍由執法單位或企業授權使用,一般民眾較難直接取得。但可以注意:部分事實查核機構會提供初步的語音檢核服務,LINE的訊息查核中心官方帳號也在試行中。未來隨著技術普及,應該會有更多簡易版的檢測App問世。
Q3:如果在直播中即時播放一小段AI生成的名人語音來推薦產品,會被追溯嗎?
會。直播即時性並不能免除法律責任,平台通常會保留直播錄影存檔,執法單位可以事後調閱作為證據。如果該語音構成廣告不實或詐欺,檢調仍會追究直播主及幕後製作團隊的刑民事責任。
Q4:AI變聲詐騙如果得手,錢通常拿得回來嗎?
非常困難。虛擬貨幣詐騙的金流往往會透過混幣器或跨國帳戶快速轉移,追溯難度極高。因此最重要的還是事前防範,不要讓自己成為第一次匯款的那個人。
Q5:法律目前在AI語音造假這一塊,最重可以判到多久?
視個案情節,如果同時構成加重詐欺、偽造文書等罪,數罪併罰下最重可達有期徒刑7年甚至更高。若涉及組織犯罪,刑度還會再往上加。這已經不是可以輕輕放下的小事了。
結語:聲音的信任,需要每一個人共同當保全
從娛樂搞笑到縝密詐騙,AI變聲技術的墮落曲線走得比我們想像中還要急。前陣子一個學弟問我:「以後我小孩長大,是不是連爸媽的聲音都不能信了?」我跟他說,或許正是因為這樣,我們才要比以前更認真地對待每一次聲音的相遇——不盲從一個你認得的聲線,而是去檢驗那聲音傳達的內容是否經得起理性與事實的推敲。
法律會繼續加高圍牆,技術也會不斷升級監視器,但最終,能讓這個真假難辨的時代不失控的,是我們每個人拿回對資訊的主導權。你不一定要成為資安專家,但從今天開始,可以練習一件事:在按下分享、匯款、相信之前,多問自己一句:「這段聲音,除了像他之外,還有什麼證據證明那是他?」這一個問號,往往就是世界上最便宜的防護罩。
作者簡介
陳逸修,曾任職於台灣資安鑑識實驗室,參與多起網路犯罪與數位證據解析任務,現為獨立數位法遵顧問,同時擔任《數位時代》特約撰稿人。長期關注人工智慧倫理、深偽技術規管及數位權利議題,擅長將複雜的技術攻防轉化為公眾可理解的語言,文章常見於各大科技媒體與法律專欄。
