圖像生成術慳水慳力

古語有云「見一葉落而知歲之將暮」,又說「山僧不解數甲子,一葉落知天下秋」,可見人類試圖通過觀察一個片面來達到舉一反三的效果古已有之,只是一些視角要待人造衞星、高解像攝錄器、無人機的發明後才可全面實現。從前跟隨長輩學習堪輿的時候,登山涉水方能理解山龍(脈)及水流結聚的走勢,真想不到現今能調節角度的鳥瞰圖居然唾手可得。

隨着人工智能的發展,研究人員正致力於解決一葉知秋的「逆向」問題:如果給出一幅地表的衞星圖像,那麼從地面上看這個地區將會呈現何種模樣?這樣的人工圖像能實現嗎?加州大學使用了嶄新的生成式對抗網路(GAN),即是兩周前我提及的兩個神經網路左右互搏(生成及判別)的演算法,通過分析衞星俯瞰圖像,A演算法可以生成地面仿真圖像,B演算法則利用地面真實圖像和該地區衞星圖像來訓練判別真偽的能力。

前提是數據集的品質非常重要,加州大學的研究人員選取了倫敦71×71公里、總共1.6萬組兩兩對應的俯瞰圖像和地面真實圖像來訓練演算法判別。下一步是把4000幅特定地點的衞星俯瞰圖像輸入生成器,利用判別的回饋與地面真實圖像相比作「左右互搏」。

判別土地用途準確率高

結果非常有意思,系統根據俯瞰圖像生成的圖像貼近現實,生成的圖像捕捉到地面基本特徵,比如是否有道路,是農村還是城市等等。惟不出所料,它們缺乏真實圖像的更多細節。這項技術很巧妙,但用處有多大?城市規劃中的一個重要任務,是根據用途對土地進行分類,比如是工業區、住宅區還是商貿區域。結果顯示在確定土地用途時,圖像生成技術的準確率為73%,而傳統方法的準確率只有65%。

生成式對抗網路提供了更省時省力收集土地用途的全新方法,我甚至認為,如果在前述的71X71公里範圍內能夠收集
足夠的移動手機數據,GAN有機會從俯瞰圖生成出關聯區域的人類經濟活動,這值得我們期待。