從局部的角度來看數據挖掘,到目前為止,主要的目的是模式發(fā)現(xiàn)。這和我們常聽到的模式識別頗有不同。用雷達找飛機的工作,算是后者──我們知道飛機是我們要找的對象。但是在數據挖掘中,我們在通常情況下并不知道我們要找的東西是什么。在技術上,這也不能通過抽樣的方法來做。模式是數據的局部結構,在這一部分,數據挖掘強調的方法是算法。數據一多,光憑人力是不能完全解決問題的,我們只有靠明確的指令讓計算機一個一個幫我們找。那么在這里,我們就完全用不上統(tǒng)計方法嗎?也不盡然。在提取訓練樣本(training sample)的時候,我們是可以把實驗設計的想法放進去的。
中國計算機用戶-賽迪網