隨着語音助手和聊天機器人日益普及,科技公司面臨一個艱巨挑戰:人工智能(AI)的算法,難以應對人類語言的複雜性,AI往往無法理解用戶所說語句的真實含義。目前主流語音助手如亞馬遜Alexa、蘋果Siri的體驗,應歸功於深度學習(Deep Learning)的進步,深度學習算法尤其擅長發現規律和對訊息進行分類;當對大量文本進行算法訓練後,AI便具備了表達不同單詞的能力,並可執行自動組成句子等任務。
語音識別和自然語言理解聽起來很相似,但實際上截然不同。在大數據時代,可以輕鬆找到數百萬個文本示例用於訓練深度學習模型,但分析句子與解釋其意義是完全不同的工作。單詞的含義因其在句子中的位置及上下文內容而異,故要充分理解語言,就需要把你已知的世界與其他人所說的詞語聯繫起來。
我們每個人都有關於這個世界的常識,幫助我們利用這些知識來解開口語和書面語言的模糊性,惟深度學習缺乏常識和對世界的了解,使得科技公司須尋求愈來愈多的文本案例來訓練旗下AI模型。這就是為什麼他們需要人類工作者的幫助,以標註AI算法無法破譯的用戶錄音。世界每天都在變化中,總會有AI尚未接觸過的異常值;而人類語言是動態的,並正在不斷演變。
隨着科技公司繼續收集和標記用戶數據以訓練其AI算法,他們將面臨隱私倡導者的強烈反對及數據保護機構可能採取的法律行動。前一段時間,有手機製造商在公司網站上發布了一份未署名的道歉聲明,內容涉及與承包商共享了語音命令;該公司宣稱,只有當用戶選擇願意參加評估計劃時,才會把他們的錄音用於訓練目的。另一搜尋器公司已經暫停了在歐洲的評估計劃。也有大型遊戲公司更新了其隱私政策,表明承包商可能會循人工方式傾聽玩家的聲音。
用戶通話語音一直被認為是非常私密的數據,如今似乎已因為龐大的市場需要而打開了缺口。隱私與商業需要的平衡,似乎再度面臨重大考驗。怪不得居然有些朋友向我投訴說,他們在電話上提到某個品牌後,就看到相關廣告。當然,我還是相信大部分公司很有操守,這世界不至於這麼瘋狂吧。