freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web挖掘與信息抽取系統(tǒng)(已修改)

2025-10-28 21:49 本頁面
 

【正文】 Web挖掘與信息抽取系統(tǒng) 英國日用品零售商 GUS需要準確預測未來的商品銷售量,以便減少庫存數(shù)量: 借助數(shù)據(jù)挖掘技術,使庫存成本比原來減少了 % 匯豐銀行需要對不斷增長的客戶群進行分類,對每種產(chǎn)品找出最有價值的客戶 …… 使營銷費用減少了 30% 美國國防財務部需要從每年上百萬的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象 …… 發(fā)現(xiàn)可能存在欺詐的交易,節(jié)約了大量的調(diào)查成本 發(fā)現(xiàn)商品組合銷售規(guī)律,提高銷售率 我選擇 《 貨幣戰(zhàn)爭 》 ,當當又給我推薦《 沉思錄 》 、 《 資本戰(zhàn)爭 》 … 1Web挖掘 狹義 ?數(shù)據(jù)挖掘是知識發(fā)現(xiàn) (KDD)過程中的一個特定步驟,是用專門算法從數(shù)據(jù)中抽取模式,然后通過解釋和評價轉換成最終用戶可理解的知識 廣義 ?由于 KDD的其他步驟對數(shù)據(jù)挖掘的運行性能和結果正確性影響很大,因此 ,通常所說的數(shù)據(jù)挖掘往往包括 KDD的全過程。 一般定義 ?數(shù)據(jù)挖掘是從大量的、不完全的有噪聲、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的以及最終可理解的模式的過程。 特點 ?有效性 – 保證挖掘出來的信息的可靠性; ?新穎性 – 要挖掘那些不能靠直覺發(fā)現(xiàn)的信息或知識 ?潛在有用性 – 發(fā)現(xiàn)的知識有實用價值和可實現(xiàn) ?最終可理解性 – 發(fā)現(xiàn)的模式能被用戶理解、接受、運用 數(shù)據(jù)挖掘涉及多學科領域 數(shù)據(jù)庫技術 人工智能 神經(jīng)網(wǎng)絡 統(tǒng)計學 模式識別 知識庫系統(tǒng) 知識獲取 信息檢索 高性能計算 可視化 … 數(shù)據(jù)收集:通過各種方式廣泛收集用戶的信息,建立必要的數(shù)據(jù)庫與數(shù)據(jù)表,為數(shù)據(jù)挖掘做準備。 數(shù)據(jù)處理:對收集到的信息進行諸如去噪等操作,從而確保數(shù)據(jù)能夠真實反映待要挖掘的對象。 數(shù)據(jù)變換:將經(jīng)過去噪的數(shù)據(jù)進行一定的格式轉換,使其適應數(shù)據(jù)挖掘系統(tǒng)或數(shù)據(jù)挖掘軟件的處理要求 數(shù)據(jù)挖掘:利用挖掘方法對數(shù)據(jù)進行分析,挖掘出需要的各種規(guī)則、趨勢、類別、模型等 模式評估:對發(fā)現(xiàn)的規(guī)則、趨勢、類別、模型進行評估,從而保證發(fā)現(xiàn)的模式的正確性 知識表示 數(shù)據(jù)收集 預 處理 格式 轉換 數(shù)據(jù) 挖掘 模式 評估 知識 表示 數(shù)據(jù)總結 ?數(shù)據(jù)壓縮 分類模型發(fā)現(xiàn) ?學科分類 聚類模型發(fā)現(xiàn) ?主題聚類發(fā)現(xiàn)研究熱點 關聯(lián)規(guī)則發(fā)現(xiàn) ?如股市升降與突發(fā)事件的關聯(lián) 序列模式發(fā)現(xiàn) ?如 DNA序列相似性發(fā)現(xiàn) 依賴模型發(fā)現(xiàn) ?如發(fā)現(xiàn) A事件發(fā)生前一定有 B事件發(fā)生 異常和趨勢發(fā)現(xiàn)等 ?如:發(fā)現(xiàn)交易中的欺詐行為,或者根據(jù)主題詞演變,發(fā)現(xiàn)學科研究走向等 1網(wǎng)絡信息挖掘 ( Web Data Mining) ?定義 利用數(shù)據(jù)挖掘技術,自動地從網(wǎng)絡文檔以及服務中發(fā)現(xiàn)和抽取蘊涵的、未知的、有潛在應用價值的信息的過程 。 指從大量的 Web文檔集合 C中發(fā)現(xiàn)隱含模式 P的過程: CP ?Web挖掘與傳統(tǒng)數(shù)據(jù)挖掘 Web挖掘 傳統(tǒng)挖掘 挖掘對象 類型 大量、異質(zhì)、分布的 Web文檔。 結構化數(shù)據(jù)。 挖掘 所得模式 可能是關于 Web內(nèi)容的,也可能是關于 Web結構的。 關于內(nèi)容的。 預處理 過程 半結構或無結構數(shù)據(jù),預處理過程復雜、重要。 結構化數(shù)據(jù),預處理簡單。 ?Web挖掘與 Web信息檢索 Web挖掘 Web信息檢索 方法論 隨機的,其結果獨立于用戶信息需求,也是用戶無法預知的。 目標驅動的,用戶需要明確提出查詢要求 目的 幫助用戶發(fā)現(xiàn)文檔中隱含的知識。 在于幫助用戶發(fā)現(xiàn)資源 著眼點 試圖更多地理解其內(nèi)容和結構。 著重于文檔中顯式存儲的字詞和鏈接; 評價方法 收益 (Gain) 置信度 (Certainty) 簡潔性 (Simplicity) 精度 (Precision) 召回率 (Recall) Web內(nèi)容挖掘 Web結構挖掘 Web使用挖掘 Web內(nèi)容挖掘 ?什么是 Web內(nèi)容挖掘 從網(wǎng)絡的內(nèi)容、數(shù)據(jù)、文檔中發(fā)現(xiàn)有用信息的過程。 網(wǎng)絡信息資源由文本、圖象、音頻、視頻等數(shù)據(jù)組成,因而 Web內(nèi)容挖掘是一種多媒體數(shù)據(jù)挖掘。 ?挖掘策略 利用搜索引擎技術直接挖掘文檔的內(nèi)容; 在搜索引擎等工具處理基礎上做進一步的處理,以便獲得更為精確和有用的信息。 ?面臨問題 挖掘算法效率和可擴展性問題 信息遺漏及噪聲數(shù)據(jù)的處理問題 私有數(shù)據(jù)保護問題 數(shù)據(jù)安全問題等 Web內(nèi)容挖掘 ?主要應用研究內(nèi)容 文本摘要 文本分類 文本聚類 關聯(lián)分析 分布分析 趨勢預測 Web內(nèi)容挖掘 ?文本摘要 從文檔中抽取關鍵信息 , 用簡潔的形式對文檔內(nèi)容進行摘要或解釋 。 這樣 , 用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容 。 有篇首截取法 、 上下文截抽取法 、 論題句抽取法 、 仿人法等 。 Web內(nèi)容挖掘 ?文本分類 文本分類是指按照預先定義的主題類別 , 為文檔集合中的每個文檔確定一個類別 。 ?Yahoo!采用人工分類 , 大大影響了索引的頁面數(shù)目 。 ?利用自動文本分類技術可以對大量文檔進行快速 、有效分類 , 大型搜索引擎都采用自動分類技術 。 Web內(nèi)容挖掘 ?文本聚類 文本聚類是將文檔集合分成若干個簇 , 要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大 , 而不同簇間的相似度盡可能地小 。 “ 聚類假設 ” ?與用戶查詢相關的文檔通常會聚類得比較靠近 , 而遠離與用戶查詢不相關的文檔 。 意義 ?利用文本聚類技術將搜索引擎的檢索結果劃分為若干個簇 ,用戶只需要考慮那些相關的簇 , 大大縮小了所需要瀏覽的結果數(shù)量 。 Web內(nèi)容挖掘 ?關聯(lián)分析 從文檔集合中找出不同詞語之間的關系 。 實例: ?有人提出一種算法 , 可以從大量文檔中發(fā)現(xiàn)一對詞語同時出現(xiàn)的模式 , 利用該算法可在 Web上尋找作者和書名的出現(xiàn)模式 , 從而發(fā)現(xiàn)了若干本在Amazon網(wǎng)站上找不到的新書籍 。 ?以 Web上的電影介紹作為測試文檔 , 通過使用OEM模型從頁面中抽取詞語 , 進而得到一些關于電影名稱 、 導演 、 演員 、 編劇的出現(xiàn)模式 。 ?從科技論文中挖掘主題詞演變模式 , 發(fā)現(xiàn)學科發(fā)展趨勢 。 Web內(nèi)容挖掘 ?分布分析 指通過對文檔的分析 , 得到特定數(shù)據(jù)在某個歷史時刻的分布情況 。 實例: ?Feldman等人使用多種分布模型對路透社的兩萬多篇新聞進行了挖掘 , 得到主題 、國家 、 組織 、 人 、 股票交易之間的相對分布情況 。 Web內(nèi)容挖掘 ?趨勢預測 指通過對文檔的分析 , 得到特定數(shù)據(jù)將來的取值趨勢 。 實例 ?Wuthrich等人通過分析 Web上出版的權威性經(jīng)濟文章 , 對每天的股票市場指數(shù)進行預測 , 取得了良好的效果 。 Web結構挖掘 ?挖掘對象 網(wǎng)站中超級鏈接結構之間的關系,它體現(xiàn)了文檔之間的邏輯關系,與文檔所處位置無關。 ?目標 找到隱藏在一個個頁面之后的鏈接結構模型,可以用這個模型對 Web頁面重新分類,用于尋找相似的網(wǎng)站,評價網(wǎng)站社會關系及其對應用影響。 Web結構挖掘 ?Web結構圖 G=(V, E) V是頁面的集合,構成圖的頂點; E是頁面之間的超鏈集合,構成圖的邊。 圖形中,不僅頂點(頁面)包含主題信息,而且,邊(超鏈)也包含了大量潛在的語義,對它的分析構成了 Web挖掘的重要內(nèi)容,即結構挖掘。 Web結構挖掘 ?結構挖掘的主要方法 PageRank ?一個頁面盡管沒有被多次引用,但被一個重要頁面引用,則這個頁面很可能是重要的;一個頁面的重要性被均分并被傳遞到它所引用的頁面 HITS ?衡量網(wǎng)頁重要性有兩個要素( ranking): 權威級別(依賴于指向它的頁面)、中心級別(依賴于它指向別人的頁面) ARC ?基于主題相關性的挖掘,同時考慮錨點文字。 CLEVER ?在計算網(wǎng)頁權威度與中心度時,保留相關節(jié)點,裁剪無關節(jié)點。 Web使用挖掘 ?挖掘對象 用戶網(wǎng)絡交互過程中產(chǎn)生的數(shù)據(jù) ?如服務器訪問記錄、日志記錄、用戶對話或交易信息、用戶提問式等。 ?挖掘目的 幫助人們理解用戶行為和 Web結構之間得關聯(lián); 指導網(wǎng)站建設 , 改善網(wǎng)站服務效果 。 ?挖掘方法 一般訪問模式跟蹤 ?通過分析 Web訪問日志來理解訪問傾向 , 獲得 Web結構信息及資源提供者分組情況 。 定制使用跟蹤 ?分析個人傾
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1