由於互聯網的不斷普及,各式各樣、良莠不齊的發布內容日漸泛濫,傳統、純粹的“人海”戰術已經無法滿足當前互聯網媒體信息監控工作的實際需求。不過基於互聯網媒體發布內容主動獲取、分析挖掘與表達呈現等系列技術開展互聯網論壇監測工作,首先需要保證相關監測產品對於目標站點發布數據的提取比率,即監測產品信息提取部分的具體性能。
根據當前網絡監管部門對於互聯網論壇監護工作的實際應用需求,成熟的互聯網論壇監控產品必須具備針對指定信息源的深度挖掘技術。所謂深度挖掘,並不是業已成熟的追求數據引用量的大搜索引擎信息采集技術,而是利用定向搜索手段完成針對指定信息源深入、全面地發布內容提取操作。
從整體框架結構角度,目前互聯網媒體可以劃分成匿名可浏覽與需登錄浏覽兩類;從發布頁面呈現風格角度,仍然屬於HTML范疇的互聯網論壇帖文發布頁面同樣包含靜態和動態兩類,其中動態生成的論壇帖文發布頁一般使用ASP、PHP與JSP等通用腳本語言予以實現。雖然匿名可浏覽同時發布頁面屬於靜態類型的目標站點占到當前萬聯網媒體的絕對多數,但是出於功能全面性與產品實用性等多方考慮,面向結構迥異、風格多樣的數據發布源實施互聯網媒體信息監控工作,相關監控產品信息提取部分還需具備相當高的普適性與可擴展性。
關於獲取信息分析挖掘與表達呈現方面,針對異構的互聯網媒體發布內容,論壇信息監控工作在要求獲取內容統一存儲的同時,對於在海量的互聯網媒體信息中實現熱點自動發現的需求明確。一方面,異構信息歸一化存儲是後續各類信息處理工作的根本保證。另—方面,基於海量數據實現論壇熱點自動發現,更有利於互聯網媒體監控人員全面把握目標論壇輿情分布情況,跟蹤目標論壇潛在熱點,及時完成熱點發現及應對決策生成工作。
互聯網論壇信息監控系統充分應用網絡協商與人機對話模擬等先進技術,基於專項研發的“定點網站深入發掘”機制,實現針對系統目標站點發布內容的全面獲取。在提取發帖作者、發帖時間、URL、標題等論壇帖文關鍵信息的基礎上,監控系統對於每份帖子進行主題信息分析及內容快照。
監控系統針對獲取內容關鍵信息開放單一和組合選項“與或”熱點查詢操作,最終呈現系統目標站點關於社會焦點更為全面的討論分布情況與話題具體內容。另一方面,監控系統借助獲取內容主題信息提取操作,開放熱點數據報告定制功能。
文章出處:http://www.qchedk.com/ 轉載請務必注明。
注:相關網站建設技巧閱讀請移步到建站教程頻道。
收藏本文