大數據數據處理需要關注哪些問題
摘要: 大數據數據處理需要關注哪些問題
數據清洗與處理是企業(yè)在進行數據分析之前都需要經歷的一個環(huán)節(jié),而今天我們就通過案例分析來了解一下,大數據數據處理需要關注哪些問題。
1、數據集成與處理技術
數據的集成就是將各個分散的數據庫采集來的數據集成到一個集中的大型分布式數據庫,或者分布式存儲集群中,以便對數據進行集中的處理。
該階段的挑戰(zhàn)主要是集成的數據量大,每秒的集成數據量一般會達到百兆,甚至千兆。
2、大數據存儲及管理技術
數據的海量化和快增長特征是大數據對存儲技術提出的要挑戰(zhàn)。為適應大數據環(huán)境下爆發(fā)式增長的數據量,大數據采用由成千上萬臺廉價PC來存儲數據方案,以降低成本,同時提供高擴展性。
考慮到系統(tǒng)由大量廉價易損的硬件組成,為了保證文件整體可靠性,大數據通常對同一份數據在不同節(jié)點上存儲多份副本,同時,為了保障海量數據的讀寫能力,大數據借助分布式存儲架構提供高吐量的數據訪問。
3、大數據分析技術的發(fā)展需要取得兩個方面的突破:
一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識(如:從自然語言構成的文本網頁中理解和識別語義、情感、意圖等);
二是對非結構化數據進行分析,將海量數據復雜多源的語音、圖像和視頻數據轉化為機器可識別的,具有明確語義的信息,進而從中提取有用的知識。
大數據,數據處理,問題






