客委會攜手產官學以 TWCC 建立 AI 輔助語音庫學客語,要讓 3C 裝置講客聽得懂 – 台智雲

客委會攜手產官學以 TWCC 建立 AI 輔助語音庫學客語,要讓 3C 裝置講客聽得懂

建置語音庫,無疑是語言發展的一大進程。客委會規畫,待客語語音庫蒐集完成後,未來將可開啟AI人工智慧的多元應用,各界也期待AI能解決社會上,諸多教育或醫療現場人力不足的難題。不過學者指出,語音庫要達到真正使用仍有許多限制,如果要學一種語言,例如學客語,機器畢竟不如真人能流暢、流利互動,人的表情、動作這些非語言信號,對機器人來說,現階段仍無法確實辨識,未來仍然需要持續突破。

AI近年來發展得如火如荼,應用在教育領域,可學習語言、進行數位評量或翻譯,生活上可提供智能居家服務,甚至因應社會照護人力短缺,也能應用在醫療照護上。

台灣智慧雲端(台智雲)營運長 李立國:「很多客語裡面的一些智者,一些年紀比較大的,他可以透過這樣一個介面,然後他可以去解決一些,長照的一些用藥的問題啦,生活的一些問題等等之類的,都可以對答。」找出不同的字句,輸入客語字,馬上就出現真人聲音。語音庫團隊以目前蒐集20小時的語音合成內容示範,要獲得客語回應沒問題。

在回答出有效句子這項成果,看不見的背後,必須先經過輸入音標,賦予符碼意義,再經過語音和聲音訊號的組成和人工校對等層層關卡

臺北科技大學電子工程系教授 廖元甫:「辨認是幫電腦裝耳朵,做合成是幫電腦裝嘴巴,所以以後我們就希望做一個機器人,它就是可以聽客語,然後就可以跟你對談這樣。」

語音庫團隊坦言,以目前執行程度來看,要達成語音辨識技術,比語音合成還要困難,因為要分辨各年齡層、各腔調所講的客語,範圍無比廣泛 必須持續擴充,以目前每個腔調,收音300小時的標準來看,要做商用 還有很大段距離。

臺北科技大學電子工程系教授 廖元甫:「一般商用的,他們在做語音辨認,通常都是幾萬小時,或幾十萬小時這樣,所以300小時其實只是一個起始的,可以先做的種子模型這樣子。」

語言學者認為,AI除了對語言學習是一大突破,也能擴充語言使用的場域,增加少數語言生存的空間。

臺灣大學語言學研究所教授 江文瑜:「未來我們的新聞,其實可以轉成多語言的,那它就擴展了,語言的使用的場域,這個場域的擴充,可以擴充到戲劇節目,到不同的各種語言的,比如說各種節目。」

臺灣擁有多元族群特色,以現行AI技術來看,仍然無法同步進行多語轉換,而事實上社會中相對弱勢的語言,要保存語音和語料難度高,偏鄉地區蒐集樣本不均,再加上嚴峻的數位落差,和使用者的行為、態度,都是數位時代下客語AI應用的挑戰。