一、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化的數(shù)據(jù)一般是指可以使用關(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),可以用二維表來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。
一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的,存儲(chǔ)在數(shù)據(jù)庫(kù)中;能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號(hào);能夠用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn),包含屬性和元組,如:成績(jī)單就是屬性,90分就是其對(duì)應(yīng)的元組。
傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫(kù),可用二維表結(jié)構(gòu)表示。而結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)和排列是很有規(guī)律的,這對(duì)查詢(xún)和修改等操作很有幫助。
對(duì)于結(jié)構(gòu)化數(shù)據(jù)來(lái)講通常是先有結(jié)構(gòu)再有數(shù)據(jù),而對(duì)于半結(jié)構(gòu)化數(shù)據(jù)來(lái)說(shuō)則是先有數(shù)據(jù)再有結(jié)構(gòu)。
半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒(méi)有明顯的區(qū)分,因此,它也被稱(chēng)為自描述的結(jié)構(gòu),簡(jiǎn)單的說(shuō)半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)。例如:HTML文檔,JSON,XML和一些NoSQL數(shù)據(jù)庫(kù)等就屬于半結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)顧名思義,就是沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類(lèi)報(bào)表、圖像和音頻/視頻信息等等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于這類(lèi)數(shù)據(jù),我們一般直接整體進(jìn)行存儲(chǔ),而且一般存儲(chǔ)為二進(jìn)制的數(shù)據(jù)格式。
典型的人為生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
社交媒體:來(lái)自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平臺(tái)的數(shù)據(jù)。
網(wǎng)站: YouTube,Instagram,照片共享網(wǎng)站。
移動(dòng)數(shù)據(jù):短信、位置等。
通訊:聊天、即時(shí)消息、電話(huà)錄音、協(xié)作軟件等。
媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。
業(yè)務(wù)應(yīng)用程序:MS Office文檔、生產(chǎn)力應(yīng)用程序。
典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動(dòng)。
科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。
數(shù)字監(jiān)控:監(jiān)控照片和視頻。
傳感器數(shù)據(jù):交通、天氣、海洋傳感器。
延伸閱讀:
二、非結(jié)構(gòu)化數(shù)據(jù)背后的價(jià)值
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)兩者之間最大的區(qū)別在于分析的便利性。針對(duì)結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具正處于萌芽和發(fā)展階段。
除此之外,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和其技術(shù)的飛快發(fā)展,使得非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。
據(jù)IDC研究表明,到2025年,全球數(shù)據(jù)量將會(huì)從2016年的16 ZB上升至163ZB。知名研究機(jī)構(gòu)Garter也表示,全球信息量正在以59% 以上的年增長(zhǎng)率快速增長(zhǎng)。
而在這些數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機(jī)器數(shù)據(jù)等又占據(jù)非結(jié)構(gòu)化數(shù)據(jù)的90%。