AI語音技術(shù)是AI的一個分支,隨著AI技術(shù)的發(fā)展,AI語音技術(shù)也在突飛猛進換代升級。現(xiàn)在,科大訊飛、搜狗等科技公司相繼發(fā)布了語音合成技術(shù)的應用。通過AI手段,用戶可以一秒變聲為社會名人或者其他想要模仿的聲音。
AI的這種音色遷移技術(shù)可稱為變聲技術(shù),可以將任何人的聲音轉(zhuǎn)換成特定人的聲音(Any-to-One)。與國內(nèi)的IT公司比較起來,搜狗公司的AI變聲功能已經(jīng)達到實用的階段。搜狗CEO王小川在一場大會上進行了展示。通過手機軟件,王小川用AI變聲模擬了高曉松和東北妹子的聲音,引得現(xiàn)場連連發(fā)笑。
比起AI之前的語音服務,如導航、智能音箱、問題解讀等,變聲技術(shù)是AI語音技術(shù)的重要升級,如果說之前的AI語音服務還在追求以什么樣的語音,以及如何使AI的語音更像人的聲調(diào)和音色為用戶和公眾提供更好的服務,那么現(xiàn)在的AI變聲技術(shù)則進一步擴大了AI的應用范圍,既有可能讓AI語音更好為公眾服務,也有可能讓AI語音步入歧途,成為詐騙的工具。前者是向善和行善,后者是從惡和行惡。
AI的變聲技術(shù)是一種逼真的語音合成技術(shù),它的基礎(chǔ)是神經(jīng)網(wǎng)絡和機器學習。神經(jīng)網(wǎng)絡模擬電信號在人腦神經(jīng)元之間的傳遞過程,對輸入數(shù)據(jù)進行處理,從大量樣本數(shù)據(jù)中總結(jié)出共同特征,再通過機器學習模擬特定人的聲音,達到以假亂真的效果。顯然,這樣的變音技術(shù)有很多用武之地,凡是可以采用語音或有聲服務的地方,都可能獲得這類服務和應用,如語音交互、有聲讀物、新媒體、智能客服、大眾娛樂等。不過,AI變聲技術(shù)的短板也是顯著的,如果有人利用這種技術(shù)向任何特定的人打電話以扮演其親人、朋友、同事、上級的聲音,就會讓人難以辨別真假。
不過,與AI變聲技術(shù)相似的另一種AI語音技術(shù)似乎向善的成分大一些,這就是“講話到面孔”技術(shù),也可稱為“聞聲識人”技術(shù)。研究人員設(shè)計了一種智能軟件,把網(wǎng)上搜集的數(shù)百萬段教學和音像視頻中的每個人的面部特征與其講話的聲音特點匹配和相聯(lián),形成一種可供計算機學習的大數(shù)據(jù),通過深度學習,這種智能軟件僅僅通過聽一個人的聲音就可以畫出(顯示)其相貌,而且八九不離十,但是,現(xiàn)在這種軟件還不成熟。
“講話到面孔”的AI語音技術(shù)完全可以應用到刑事鑒識中,可以與較早的模擬畫像技術(shù)一道成為刑事鑒識的補充技術(shù)。模擬畫像技術(shù)是基于找不到嫌疑人的影視資料、聲音和照片,或者是嫌疑人的圖像很模糊,只能通過受害人或目擊者的口述,由刑偵人員畫出嫌疑人的相貌。2017年6月9日,克里斯滕森殺害中國訪問學者章瑩穎,在案件偵查之初,美國聯(lián)邦調(diào)查局(FBI)就向擅長模擬畫像的中國警官林宇輝發(fā)出邀請,請他協(xié)助畫出嫌犯的畫像,而當時能提供的嫌犯圖片就來自街邊監(jiān)控攝像頭上的模糊截圖。
無論是AI變聲技術(shù),還是“講話到面孔”的AI語音(聞聲識人)技術(shù),都是AI語音技術(shù)的升級。技術(shù)是中立的,關(guān)鍵在于如何使用這類技術(shù)。在這類技術(shù)應用于社會生活和工作之前,制定對其嚴格管理的措施極為緊迫和必須。
2019年4月,全國人大常委會審議的《民法典人格權(quán)編(草案)》里加了一條規(guī)定:任何組織和個人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán)。同樣,如果AI語音技術(shù)發(fā)展了,也應當加上不得以信息技術(shù)手段偽造的方式侵害他人的聲音權(quán),同時要單獨在人工智能立法中涉及AI合成不得侵犯他人的肖像權(quán)、聲音權(quán)等。任何未經(jīng)授權(quán)的合成肖像、合成音頻均屬于侵權(quán)違法行為。
盡管如此,還是需要有一部明確的法律來規(guī)范包括語音、肖像等在內(nèi)的AI新產(chǎn)品和應用,使其只能向善行善,而非向惡行惡。