數(shù)據(jù)倉(cāng)庫(kù)概念始于本世紀(jì)80年代中期,首次出現(xiàn)是在號(hào)稱“數(shù)據(jù)倉(cāng)庫(kù)之父”William H.Inmon的《建立數(shù)據(jù)倉(cāng)庫(kù)》一書中。隨著人們對(duì)大型數(shù)據(jù)系統(tǒng)研究、管理、維護(hù)等方面的深刻識(shí)認(rèn)和不斷完善,在總結(jié)、豐富、集中多行企業(yè)信息的經(jīng)驗(yàn)之后,為數(shù)據(jù)倉(cāng)庫(kù)給出了更為精確的定義,即“數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合”。 數(shù)據(jù)倉(cāng)庫(kù)并沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因此,在技術(shù)上人們習(xí)慣于從工作過(guò)程等方面來(lái)分析,并按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、 存儲(chǔ)與管理以及數(shù)據(jù)的表現(xiàn)等三個(gè)基本方面。
⑴數(shù)據(jù)的抽。簲(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。
⑵存儲(chǔ)和管理:數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有 別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。
⑶數(shù)據(jù)的表現(xiàn):數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。而多維分析又是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,近幾年來(lái)由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機(jī)分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)