freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于web的大規(guī)模中文人物信息提取說明書(完整版)

2025-06-24 18:53上一頁面

下一頁面
  

【正文】 .............................................................. 6 網(wǎng)頁數(shù)據(jù)代理方式下載 ......................................................................... 7 動態(tài)網(wǎng)頁數(shù)據(jù)下載 ................................................................................. 9 實驗結果 ................................................................................................11 本章小結 ..........................................................................................................11 第 3 章 基于 DOM 的網(wǎng)頁正文信息提取 ....................................................................11 引言 ...................................................................................................................11 DOM 簡介 ........................................................................................................ 12 Html 解析器 ..................................................................................................... 13 基于 DOM 的正文抽取方法 ........................................................................... 14 原理分析 ............................................................................................... 14 算法過程描述 ...................................................................................... 15 實驗結果 ......................................................................................................... 15 本章小結 ......................................................................................................... 16 第 4 章 網(wǎng)頁正文的分詞處理 ...................................................................................... 17 引言 .................................................................................................................. 17 分詞系統(tǒng)介紹 .................................................................................................. 18 組織機構名識別 .............................................................................................. 19 機構名的組成結構 .............................................................................. 19 機構名構成詞的詞頻統(tǒng)計 .................................................................. 19 詞語頻數(shù)統(tǒng)計排序 .............................................................................. 20 西南交通大學碩士研究生學位論文 第 V 頁 機構后綴詞整理 .................................................................................. 20 機構名詞典的建立 .............................................................................. 21 機構詞詞頻的計算 .............................................................................. 21 機構名識別方法 .................................................................................. 22 算法描述 .............................................................................................. 22 實驗結果 ......................................................................................................... 23 機構名識別實驗 .................................................................................. 23 正文分詞處理實驗 .............................................................................. 24 本章小結 ......................................................................................................... 25 第 5 章 人物信息結構化 .............................................................................................. 25 引言 .................................................................................................................. 25 人物信息結構類型 ......................................................................................... 26 半結構化人物信息提取 .................................................................................. 28 基于《知網(wǎng)》的語義相似度 .............................................................. 28 屬性詞詞典建立 .................................................................................. 29 基于詞典匹配的方法 .......................................................................... 31 非結構化人物信息提取 .................................................................................. 32 文本分析 .............................................................................................. 32 觸發(fā)詞庫建立 ...................................................................................... 32 規(guī)則庫建立 .......................................................................................... 33 算法描述 .............................................................................................. 33 實驗結果 ......................................................................................................... 34 本章小結 ......................................................................................................... 35 總結 ................................................................................................................................ 35 致謝 ................................................................................................................................ 37 參考 文獻 ........................................................................................................................ 38 攻讀碩士學位期間發(fā)表的論文和科研情況 ................................................................ 42 西南交通大學碩士研究生學位論文 第 1 頁 1 第 1 章 緒論 項目背景 本課題結合自然科學基金委主任項目“基于人機共建智慧平臺的語義搜索引擎”開展。 目的和意義 隨著互聯(lián)網(wǎng)的迅速發(fā)展和普及,人們越來越依賴于互聯(lián)網(wǎng)共享和獲取信息?;ヂ?lián)網(wǎng)上的人物信息既有結構化的又有非結構化的,越是普通人物,越以非結構化人物信息方式呈現(xiàn)。但是,人物信息抽取具有人物相關的特殊性,比如人名識別和同名消岐的問題。 現(xiàn)在,人名識別雖然不能做到完全正確,但是有了很好的發(fā)展和應用,許多的分詞軟件已經(jīng)能夠實現(xiàn)很好的人名識別,方法研究與實現(xiàn)就不是本課題研究的重點了。人物信息主要分為兩類: 半 結構化人物信息和非結構人物信息。 本文主要研究內容 基于互聯(lián)網(wǎng)的大規(guī)模中文人物信息提取過程相對復雜,涉及到的問題很多。 第 2 章是人物網(wǎng)頁數(shù)據(jù)的采集。本章重點講述了基于詞頻統(tǒng)計的機構名識別算 法的實現(xiàn)過程。但是,互聯(lián)網(wǎng)信息浩如煙海,本文以較 西南交通大學碩士研究生學位論文 第 5 頁 5 高效率獲取大量重要人物的相關網(wǎng)頁為目標,進行了長時間的觀察和大量的調研,選定了一批網(wǎng)站為主要的人物網(wǎng)頁數(shù)據(jù)來源。 爬蟲概述 隨著網(wǎng)絡快速的發(fā)展,互聯(lián) 網(wǎng)上的信息成爆炸式的增長,用戶如何快速搜索需要信息所在的網(wǎng)站和網(wǎng)頁就面臨著巨大的挑戰(zhàn)。不同于商業(yè)搜索引擎的爬蟲,本文在對特定網(wǎng)站進行下載時,有時候是根據(jù)網(wǎng)站網(wǎng)頁的 URL 規(guī)律或者網(wǎng)頁的目錄列表進行抓取的,有時候是使用廣度優(yōu)先的 策略進行抓取的。 HttpClient 對 HTTP 協(xié)議強大的
點擊復制文檔內容
試題試卷相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1