非結構化數據

當提及大數據時,我們免不了聽到結構化、半結構化和非結構化數據這類術語。然而,結構化數據佔所有數據的比例不到兩成,而非結構化和半結構化數據是增長最快速的數據類別,在物聯網來臨之際,企業能夠管理和分析這類數據的能力變得愈來愈重要。這些從前被忽略的零散訊息,如今卻成為了人類探索「真相」的必經之路。所以很多企業趨之若鶩的數字化轉型過程中,千萬不能忽略數據的性質也在演變,下面簡單介紹一下它們的差別:

結構化數據:結構化數據是最容易搜索和組織的數據,因為它通常包含在行和列中,其元素可以影射到固定的預定義字段。例如Excel表格中存儲的數據就是典型的結構化數據。在結構化數據中,實體可以組合在一起以形成關係(比如「客戶」對「購買產品」)。這使得結構化數據易於存儲、分析和搜索,可以遵循數據庫設計出數據模型,比如按區域、產品或客戶提供銷售紀錄。

非結構化數據:非結構化數據不會包含在行列數據庫中,且沒有明顯關聯的數據模型,例如行車的軌跡路徑及速度。缺乏結構使得這些數據更難搜索、管理和分析,這就是為什麼企業容易丟棄非結構化數據的原因。直到機器學習的進步,令搜索、管理和分析這些數據變得更加容易,我們關注的非結構化數據開始包括了照片、視頻和音頻文件、文本文件、社交媒體內容、衞星圖像、演示文稿等。

半結構化數據:除了結構化和非結構化數據,還有第三類數據,總的來說就是兩者的混合。半結構化數據具有一些經定義或一致的特徵,但不符合關係數據庫預期那樣的結構。這類數據可以用特定的屬性(如語義標記或元數據)組織歸類,但數據保留了一定的靈活性。電子郵件就是一個很好的例子,雖然實際內容是非結構化的,但它確實包含結構化數據,如發件人和收件人的姓名和電子郵件地址、發送的時間等。另一個例子是數碼照片,圖像本身是非結構化的,但如果照片是透過智能手機拍攝,它將是日期和時間標記、地理標記,並且具有設備ID。照片可以被打上標籤,構成一個結構,如「狗」或「寵物」。很多被歸類為非結構化的數據,其實都屬半結構化,因為它包含一些分類特徵。

當前我們對數據更廣泛的定義,很大程度上讓企業對數據的營運模式帶來衝擊。為了彌補這些能力的缺失,企業有必要重新審視在數據生命周期中與競爭對手的差距。企業應該要明白到全新的數據營運模式,是更具外部性的競爭,更需要技術的支援。