【導(dǎo)讀】有價值的客戶……發(fā)現(xiàn)可能存在欺詐的交易,《沉思錄》、《資本戰(zhàn)爭》…數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個特定步。由于KDD的其他步驟對數(shù)據(jù)挖掘的運行性能和結(jié)。往往包括KDD的全過程。數(shù)據(jù)挖掘是從大量的、不完全的有噪聲、模糊的、的以及最終可理解的模式的過程。–保證挖掘出來的信息的可靠性;數(shù)據(jù)庫與數(shù)據(jù)表,為數(shù)據(jù)挖掘做準(zhǔn)備。數(shù)據(jù)能夠真實反映待要挖掘的對象。主題聚類發(fā)現(xiàn)研究熱點。如股市升降與突發(fā)事件的關(guān)聯(lián)。如DNA序列相似性發(fā)現(xiàn)。如發(fā)現(xiàn)A事件發(fā)生前一定有B事件發(fā)生。預(yù)處理過程復(fù)雜、重要。與用戶查詢相關(guān)的文檔通常會聚類得比較靠近,而遠離與。利用文本聚類技術(shù)將搜索引擎的檢索結(jié)果劃分為若干個簇,于電影名稱、導(dǎo)演、演員、編劇的出現(xiàn)模式。在某個歷史時刻的分布情況。Feldman等人使用多種分布模型對路透社。將來的取值趨勢。預(yù)測,取得了良好的效果。文檔之間的邏輯關(guān)系,與文檔所處位置無關(guān)。找到隱藏在一個個頁面之后的鏈接結(jié)構(gòu)模型,