簡體版 繁體版 資訊監測篇_第四章 資訊監測技能(一):如何獲取網上資訊

資訊監測篇_第四章 資訊監測技能(一):如何獲取網上資訊


超級成長儀 嗜血總裁:我的除魔小新娘 菁菁的校園 無敵堡 網遊之第一紀元 吾名救世主 死神的腳印 夢之彼端i北夷之旅 腹黑王子的俏皮公主 城裡的怪物

資訊監測篇_第四章 資訊監測技能(一):如何獲取網上資訊

第四章 資訊監測技能(一):如何獲取網上資訊

第一節 人工瀏覽

一、對新聞網站、論壇、部落格等實時監測

對新聞網站、論壇、部落格等傳統網際網路資訊源的實時監測仍然以人工瀏覽方式為主。為了及時、高效地發現、獲取有價值的資訊,在實時監測的工作中,可以遵循以下三點策略。

第一,對新聞網站、論壇、部落格等資訊源進行分類整理。在瀏覽器中建立好收藏夾,將出料比較多的新聞網站、論壇、部落格網址都收藏在一起,並按照一定的分類標準進行分類整理,比如將新聞網站分為綜合門戶類網站、經濟類網站、思想類網站等,將論壇分為境內論壇、境外論壇等。每天工作時就直接找到該收藏夾,點選就能進入這些新聞網站、論壇、部落格進行瀏覽。值得注意的是,在瀏覽論壇的時候,可設定按時間排序,在每天都堅持瀏覽的情況下,瀏覽幾個頁面即可,有時候,花十幾分鍾就可以快速瀏覽完當天的資訊,從而不斷提高自己的工作效率。

第二,根據資訊源的特點進行監測。對於網站和論壇,要掌握其結構和更新規律,針對其“出料”較多的欄目、板塊重點監測。作為一名網路輿情分析師,瞭解當天的網路熱點事件是非常重要的一項工作,新聞入口網站的首頁和新聞頻道的首頁將是瀏覽的一大重點。除此以外,入口網站的新聞頻道往往會對每日的熱門新聞進行排行,透過瀏覽排行欄目,往往有助於我們瞭解當天的網路輿情熱點所在。比如,新浪網和網易的新聞頻道都設有排行一欄,按照點選數量的高低,對不同類別的新聞進行了排行,新浪網還可以按照評論數量和分享數量進行排行,網易則不僅直接給出了點選的數量,而且可以按照24小時、本週、本月進行排行。與新浪網和網易略有不同,搜狐網則可以透過“我來說兩句”欄目瀏覽當天的熱門新聞,新聞按照評論的數量進行排行。除此以外,還應該根據資訊源資訊量的多少,合理分配時間和精力進行監測;對於定時更新的資訊源,在其更新後要及時瀏覽,確保資訊的時效性,但對於更新較快的資訊源,應安排多時段多次瀏覽,避免遺漏。

第三,根據工作重點需求進行監測。網路輿情分析工作中,往往會遇到階段性任務,在特定時期內某些特定資訊需求量大增。如“九一八”前後,境內論壇的涉日資訊、反日遊行等成為政府部門關注重點;重大地質災害發生之後,求救求援資訊、質疑地方政府救災不力、災區腐敗的聲音等資訊具有很大的資訊價值。每年的3月15日“消費者權益日”前後,使用者反映產品的質量問題或霸王條款侵害使用者利益等的資訊會集中出現;在“五一”勞動節、“八一”建軍節、“十一”國慶節前後,網上有關特定利益群體串聯維權等的資訊會增多。適時調整關注重點,有助於提高上報資訊的價值。

二、微博資訊的獲取

(一)建立資訊來源圈,及時獲取日常熱點資訊

建立屬於自己的資訊來源圈,是剛接觸微博的網路輿情分析工作者的第一步工作。“新浪微博”內建的“風雲人物榜”為入門者提供了發現熱點資訊源的便利。以2015年3月19日資料為例,透過瀏覽“風雲人物榜”和各個賬號釋出的微博,我們可以把關注時事並熱衷發表政見的一些網上“大V”作為關注物件,納入資訊來源圈;作為釋出訊息的重要媒體,我們還可以將“頭條新聞”、“財經網”和“南方都市報”等加為關注物件。在累積關注物件的同時,要注意對各個活躍賬號進行分類分組,以便更好地監測管理。如在“新浪微博”、“騰訊微博”中的活躍群體大致可按以下幾類進行分組監測:一為意見領袖;二為專家學者、作家;三為維權人士;四為媒體人。

完成以上步驟,資訊來源圈算是基本建成,只要定期重新整理主頁或分類瀏覽相關賬號釋出的最新訊息,根據訊息的內容、轉發量和評論數判斷其“熱度”,就可及時“獲取”這些微博活躍群體關注的有價值熱點資訊。

(二)有效利用搜索引擎,建立並不斷更新關鍵詞庫,主動“獵取”專項熱點資訊

等待關注物件推送訊息尚屬被動的資訊獲取方式,我們還需要主動出擊“獵取”資訊。透過實踐發現,與“奇虎”、“谷歌”、“百度貼吧”相比,“新浪微博”遮蔽的**詞相對較少,透過關鍵詞突破微博自身遮蔽,利用微博內建搜尋引擎,主動獵取我們所需的特定資訊,是蒐集網上重要輿情,完成專項任務必須掌握的重要技能。

比如,從“王立軍事件”開始,隨著有關部門加大了對微博資訊的管控力度,一些網民開始發明指代**人物或事件的代替詞:“王立軍”先是被拼音首字“WLJ”代替,很快演變成“王都頭”、“王總兵”、“來俊臣”(唐朝酷吏)乃至“護士長王麗娟”;最後,以“王麗娟”這一常見的中國女性名字指稱王立軍成為網民共識。類似的情況在“薄熙來事件”上重演,從“不厚”、“薄都督”、“西南王”、“平西王”到“定襄公”、“瓜爹”、“重慶火鍋”等替代詞的嬗變來看,網民“舊詞新指”的能力令人歎為觀止。網民利用各種替代詞來發布小道訊息或“散佈謠言”,規避管控、刪帖,對發現、蒐集網路輿情帶來了很大挑戰。網路輿情分析師必須緊跟微博熱詞變化,不斷更新自己的“關鍵詞庫”,保持與微博網民“同步”,才能保持在第一時間發現最新輿情,在最短時間內上報最具價值的資訊。再如,中央宣佈薄熙來處理結果後,境內論壇、微博流傳大量政治類有害資訊,這些帖文也採用各種代替詞彙影射黨和國家領導人,給網路輿情監測工作帶來很大挑戰。

(三)入口網站與微博結合

目前,一些重要新聞,除非被各大入口網站放在首頁比較顯著的位置,否則網民參與度很低,回帖更是寥寥無幾,無法成為熱點資訊。因此,可以首先瀏覽入口網站,找到一些重要、**資訊,然後再在“新浪微博”上找網民評論。例如,“中國疾控中心等權威組織審批透過轉基因牛奶”這條新聞2012年5月3日刊登在“網易探索頻道”上,網民參與度幾乎為零。但發現在“新浪微博”上被網民轉載後,網民評論短時間內達到500多條,已具備成為網路輿情熱點的條件。

(四)跟蹤各類多媒體在微博中的新應用,迅速“抓取”新型熱點資訊

囿於微博的字數限制,網民常選擇以附圖、超連結形式力求將訊息完整地釋出。而後“長微博工具”出現,將長篇幅文字轉為可縮放的圖片,完美地突破了字數限制。同時,圖片、音訊、影片檔案由於包含資訊量大、稽核時間長,稽核難度遠大於文字資訊,逐漸成為網民熱衷的規避稽核、突破言論尺度的訊息釋出形式。越來越多的微博以“文字+附圖”形式,或是以“文字+截圖+影片(連結)”形式釋出,所附圖片、影片甚至“喧賓奪主”成為微博訊息的重點。這些多媒體整合應用的出現,為我們“抓取”微博熱點資訊,提供了很好的機會。以下四種新型微博資訊走俏微博,值得重點關注。

一是佐證型照片微博。虛擬的網際網路空間推崇“有圖有真相”,相對於純文字資訊,附上相關照片往往意味著更高的真實度,更能獲得網民的認可和關注,形成持續擴散的推動力以及輿論壓力,影響事件的走向。比如,“7·23”動車事故發生後,相關部門掩埋車頭、救援不當及現場救援秩序混亂透過照片在微博曝光、擴散,網民的指責、不滿情緒瀰漫國內網際網路。高層指示“儘快恢復通車”的結果,在一張現場航拍照片上反映出來:一片狼藉的事故殘骸旁,高架橋上的動車呼嘯而過。照片在微博瘋傳,將網民的不滿情緒推向極致,政府決策的正確性遭到民眾的強烈質疑。同樣,由瑪莎拉蒂豪車、LV名包等奢侈品拉開序幕的“郭美美事件”中,“眼見為實”的圖片挑動網民神經,一個炫富事件迅速演變成紅十字會的公關危機,直至紅十字會被迫在財務公開、透明度方面做出改進。2012年,自稱“美得驚動黨中央”的“二炮劉園園”微博炫富,與軍人形象不符的作風經過微博放大,把解放軍第二炮兵推向輿論風口浪尖,致其形象大受損害。此外,學者於建嶸發起的“隨手拍解救流浪兒童”,網民發起的“隨手拍各地政府豪華辦公樓”、“隨手拍軍(公)車私用”活動,藉助照片的直觀和真實性,在網民中引起較高的關注,這些都值得我們注意。

圖4-1 “7·23”動車事故

圖4-2 郭美美炫富

二是鍼砭時弊型漫畫微博。時政漫畫在我國曆史悠久,現代漫畫在清末民初興起,至今已有百年曆史。民國時期著名漫畫家華君武就曾在各大報章發表大量時政漫畫,以畫筆作為武器表達對社會黑暗、吏治腐敗的不滿與控訴。在“微時代”,時政漫畫藉助微博這個新平臺,煥發出新的生命。漫畫看似寥寥幾筆,往往本身已經包含對某事件、某種現象的褒貶,且其“只可意會”的特點令其可以最大程度規避微博對言論尺度的控制。時政漫畫家緊跟最新國內外重大事件,透過作品表達對事件的褒貶臧否,引起網民熱議、共鳴,成為網民宣洩情緒的一個新途徑,也成為觀察網民情緒的新載體。

圖4-3 網上流傳的一張新聞標題的對比圖片

三是拼圖對比型微博。在網際網路時代,訊息新聞往往會儲存在虛擬空間,透過搜尋引擎很容易檢索到早前的新聞。政府朝令夕改、官員表態的前後矛盾,很容易被細心的網民發現,成為網民質疑的焦點。比如網上流傳的一張新聞標題的對比圖片顯示,官方不斷修正三峽工程抗洪能力:“2003年:三峽大壩固若金湯,可以抵擋萬年一遇洪水;2007年:三峽大壩今年起可防千年一遇洪水;2008年:三峽大壩可抵禦百年一遇特大洪水;2010年:長江水利委:今年抗洪還不能全都指望三峽大壩;2012年4月:三峽庫區將產生大量新生滑坡和塌岸近10萬人面臨搬遷。”三峽工程相關資訊透明度低早就遭人詬病,官方一再修改說法令公眾深感屢受愚弄,致使政府的公信力在質疑中流失。

四是惡搞諷刺型改編歌曲或影片微博。“優酷網”、“酷6網”、“新浪播客”等影片網站首發的諷刺時政、表達政見或影射近期國內大事的影片,經網民轉發至微博網站後,瀏覽人次和關注度大大增加,在一定程度上對相當數量的網民產生導向作用。如食品安全事故頻發的狀況下,有網民將歌曲《走進新時代》惡搞改編成《走進新食代》,歌詞對國內各種食品安全事故和非法商人大加撻伐,引起網民的強烈反響。《釣魚島之歌》在微博流傳,燃起更多網民保衛釣魚島的決心,民眾對領土所有權的聲張成為政府制定外交政策做出外交回應的重要參考。

三、資訊源的更新

一是應該經常對網站、論壇、部落格、微博進行整理。網際網路的發展一日千里,變化非常快,網路輿情工作同樣如是。前幾年,網站和論壇還是網路輿情的主戰場,現今,微博和微信已經成為網路輿情的主要陣地,不少網站和論壇或者關閉,或者“出料”的情況銳減。不少部落格和微博的使用者不再更新,甚至銷戶,已經沒有必要關注,與此同時,一些新的部落格和微博使用者又橫空出世,引起網民的高度關注。微信這一新的傳播手段,更是成為網民的新寵。因此,針對網站、論壇、部落格、微博,應該間隔一段時間就重新進行一次整理,整理出最新時間段比較“出料”的網站、論壇,部落格、微博的活躍賬號後加以收藏和關注。針對微信,則應該潛心研究,加強監測。

二是藉助搜尋引擎,利用網路資源的“類聚性”開墾更多資訊源“處女地”。在搜尋引擎中輸入某些關鍵字,可以找到相關網站和論壇,從而發現新的網路資訊源。例如,如果你有一個非常喜歡的專業網站,並希望從網際網路上找到更多同類的網站,這時怎麼選擇關鍵字最有效呢?或許搜尋這個網站的內容型別會找到一些不錯的站點,如使用“軍事網站”、“醫學站點”做關鍵字,但很多時候這種搜尋方法也可能一無所得。實際上最有效的方法是拋磚引玉,用最喜歡的網站的站點地址作為關鍵字。因為連結到那個站點的往往是同類站點,用這種方法肯定能夠找到一些相關的網站。由於網路資源具有明顯的類聚性,某一網站、微博和論壇的連結通常指向同一類網站或相關聯的網站,跟蹤網站之間的連結可以發現一批同類網站。一些熱點問題的報道往往也附有大量的網站連結,抓住這些連結我們就可以發現新的有價值的網站、素材和資料。

三是多瀏覽和關注微博、微信、部落格、論壇和社群。網民常常會在這裡交流一些新網站的網址,可以及時發現、更新網路資訊源。隨著網際網路的迅速發展,網民的資訊需求呈現多樣化的趨勢和特點,不同型別的網站便不斷湧現以滿足網民的需要。因此,要及時關注和跟蹤新出現的網站,從而跟上網民的步伐,更新和豐富自己的資訊源。在當下這樣一個追求分享的網際網路時代,一方面,網民如果發現新的、感興趣的網站,便會在微博、微信、部落格、論壇等進行分享;另一方面,新的網站為了擴大自身影響力,吸引使用者,也會在其他網站進行宣傳和營銷。在日常工作中,網路輿情分析師可以多關注微博、微信、部落格、論壇和社群等平臺,特別是經常介紹新網站的使用者、板塊等,從而較快發現新的、有價值的資訊源。

四、網民評論的獲取

網民的評論往往較為分散,內容也是五花八門、天馬行空,所以蒐集和整理網民評論觀點是一項繁重的工作。

網民評論的蒐集,主要是在新華網、人民網、新浪網、搜狐網、騰訊網、鳳凰網、網易等國內主要新聞和入口網站,“天涯社群”、“凱迪網路”、“強國論壇”等國內論壇上找到相關訊息,進而透過連結找出網民評論及觀點。此外,還需要在“新浪微博”、“騰訊微博”找出相關微博及網民評論。對於入口網站和論壇,按蒐集效率從高到低排列,可採用以下幾種方法查詢相關訊息:(1)直接登入入口網站和論壇,在IE選單欄的編輯子選單下選擇“在此頁上查詢”,輸入關鍵詞,就能快速定位到相關訊息在入口網站上的位置。(2)在“百度”的新聞搜尋中輸入“關鍵詞+空格+ site: +網站”的方式搜尋相關訊息。(3)藉助入口網站和論壇上自有的新聞搜尋引擎搜尋該網站的相關訊息。(4)在“百度新聞”中選擇搜尋“新聞全文”並篩選出入口網站的訊息。(5)在“百度新聞”中選擇搜尋“新聞標

題”,逐一點開新聞列表並篩選出入口網站的訊息。依次使用以上5種搜尋方式進行地毯式搜尋,基本可以確保入口網站和論壇的所有網民評論的連結都能被蒐集出來。微博網民的評論蒐集則主要透過搜尋核心關鍵詞,然後選取最近1—3天的微博,點選“熱門”,就可以按照轉發評論的數量排列出相關微博了。

第二節 搜尋引擎的使用技巧

網際網路搜尋引擎能夠根據使用者的需求,迅速提供對網頁、網站、新聞等資訊的搜尋結果,提供數量可觀的有價值資訊,是網路輿情分析工作中舉足輕重的“利器”之一。“谷歌”被視為全球最強大的搜尋引擎,擁有驚人的搜尋能力和多語言版本,能夠提供十分全面、詳盡的搜尋結果,並可搜尋境內外微博、境外部分社交網站的實時資訊,且自帶論壇、部落格搜尋功能。“百度”側重於中文網頁的搜尋,在境內新聞、網頁、論壇和部落格等資訊上略勝一籌,但遮蔽了大量**資訊。目前,“谷歌”、“百度”, “新浪微博”、“騰訊微博”內建搜尋引擎均自帶“高階”搜尋功能,提供了搜尋時間段、關鍵詞、特定網站等功能,結果細化到某一網站、某一時間段、某一關鍵詞,可以按相關性或時間順序排序,基本能滿足工作需要。

一、搜尋引擎的定義及使用方法

搜尋引擎(Search Engine)是指根據一定的策略、運用特定的計算機程式從網際網路上搜集資訊,在對資訊進行組織和處理後,為使用者提供檢索服務,將檢索到的相關資訊展示給使用者的系統。搜尋引擎包括全文索引、目錄索引、元搜尋引擎、垂直搜尋引擎、集合式搜尋引擎、門戶搜尋引擎與免費連結列表等。

當前,搜尋引擎數量不少,谷歌、百度、搜狗、搜搜、必應、雅虎、有道等,各有千秋。在此,選取我們日常工作中最常用的谷歌和百度搜索引擎作簡單介紹。搜尋引擎的使用方法主要包括以下幾種:

(一)簡單查詢

在搜尋引擎中輸入關鍵詞,然後點選“搜尋”就行了。例如我們要查詢有關“兩會”的資訊就輸入“兩會”,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的資訊。

(二)高階查詢

給要查詢的關鍵詞加上雙引號(注意是半形,以下要加的其他符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜尋引擎的文字框中輸入“全國兩會”,它就會返回網頁中有“全國兩會”這個關鍵詞的網址。在關鍵詞的前面使用加號,也就等於告訴搜尋引擎該單詞必須出現在搜尋結果中的網頁上。例如,在搜尋引擎中輸入“全國+兩會+開幕”就表示要查詢的內容必須要同時包含“全國、兩會、開幕”這三個關鍵詞。在關鍵詞的前面使用減號,也就意味著在查詢結果中不能出現該關鍵詞。例如,在搜尋引擎中輸入“空調-格力空調”,它就表示最後的查詢結果中一定不包含“格力空調”。

(三)使用布林檢索

所謂布林檢索,是指透過標準的布林邏輯關係來表達關鍵詞與關鍵詞之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關係可以用邏輯關係詞來表示。

and,稱為邏輯“與”,用and進行連線,表示它所連線的兩個詞必須同時出現在查詢結果中。例如,輸入“全國and兩會”,它要求查詢結果中必須同時包含“全國”和“兩會”。

or,稱為邏輯“或”,它表示所連線的兩個關鍵詞中任意一個出現在查詢結果中就可以。例如,輸入“全國or兩會”,就要求查詢結果中可以只有“全國”,或只有“兩會”,或同時包含“全國”和“兩會”。

not,稱為邏輯“非”,它表示所連線的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞。例如,輸入“空調not格力空調”,就要求查詢的結果中包含“空調”,但同時不能包含“格力空調”。

在實際的使用過程中,可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。

(四)使用元詞檢索

大多數搜尋引擎都支援“元詞”(metawords)功能,依據這類功能把元詞放在關鍵詞的前面,這樣就可以告訴搜尋引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜尋引擎中輸入“title:全國兩會”,就可以查到網頁標題中帶有“全國兩會”的網頁。在鍵入的關鍵詞後加上“domainrg”,就可以查到所有以org為字尾的網站。其他元詞還包括:image:用於檢索圖片;link:用於檢索連結到某個選定網站的頁面;URL:用於檢索地址中帶有某個關鍵詞的網頁。

(五)特殊搜尋命令

intitle:是多數搜尋引擎都支援的針對網頁標題的搜尋命令。例如,輸入“intitle:格力空調”,表示要搜尋標題含有“格力空調”的網頁。

二、當前熱門微博搜尋引擎和傳統搜尋引擎概貌

近年來,境內微博,尤其是新浪、騰訊微博使用者呈現爆炸式增長。微博已成為境內網民日常資訊交流主要網路平臺之一,亦由此快速取代傳統網路媒體,成為網路輿情的主要傳播渠道。因此,對微博自帶的搜尋引擎進行研究和挖掘已成為我們日常做網路輿情分析工作的必修課。這裡,主要選取網民集中、資訊量大的新浪微博和騰訊微博的搜尋引擎作為研究物件。

微博雖然發展迅猛,但內容搜尋非其強項,這也給傳統搜尋引擎帶來了新的發展機遇。傳統搜尋引擎一直在不斷更新索引,甚至努力發展微博的實時搜尋,加之微博搜尋引擎不具備全網搜尋的功能,因而傳統搜尋引擎仍是我們獲取**資訊不可或缺的最重要工具。在此,選取我們日常工作中最常用的谷歌和百度搜索引擎作為重點研究物件。

(一)新浪微博搜尋引擎對比騰訊微博搜尋引擎

微博的快速發展凸顯了對資訊入口的爭奪,從這個爭奪過程來看,除了直接訪問微博主頁,看到我們所關注使用者的資訊外,利用微博自帶的搜尋引擎也是我們獲取資訊的重要手段。客觀地說,微博搜尋還在一個初級階段,而且因自我監管比較嚴厲,從日常實踐看,其搜尋引擎尚不能滿足我們日常資訊上報工作所需。下面主要從兩方面進行集中對比:

1.搜尋型別:目前來看,新浪微博搜尋引擎和騰訊微博搜尋引擎都可透過內容和使用者進行搜尋,檢索出的內容均可以按照“實時”和“熱門”排序。除了相關的圖片之外,兩個搜尋引擎還可以找到相關的影片和音樂。不過,在搜尋的全面方面,新浪微博搜尋引擎似乎略勝一籌,尋找到的微博內容較多,這可能與騰訊微博在逐漸邊緣化,新浪微博成為國內微博的主導有關。另外,值得稱讚的是,新浪微博搜尋引擎不僅提供了與關鍵詞有關的新聞文章,而且可以訂閱關鍵詞,這對我們日常工作提供了一定的便利。

2.**度狀況:從實際測試結果來看,新浪微博的自我監管機制要嚴格得多,**詞較騰訊微博要多,最突出的是在重大突發事件發生後,新浪微博有時甚至會將發生地的城鎮名進行遮蔽,而騰訊微博在這方面要相對寬鬆,關鍵詞的遮蔽速度也較新浪微博要慢,這就給我們獲取涉穩**資訊提供了很好的切入時機。如,海南樂東縣鶯歌海鎮2012年4月11日發生因興建煤電廠引發的群體性事件後,“鶯歌海”直接被新浪微博搜尋引擎列入**詞,而在騰訊微博上,還可以用該關鍵詞進行搜尋,從而能較快獲取相關資訊。

(二)谷歌搜尋引擎對比百度搜索引擎

谷歌搜尋引擎和百度搜索引擎可以說是當今國內外各種搜尋引擎中的翹楚。充分利用好谷歌和百度搜索引擎,更是我們日常資訊上報工作最大的依仗。在此,特從兩個方面對這兩大搜索引擎的功能進行對比:

1.內容全面性:百度搜索引擎偏重於境內論壇、網頁和部落格等資訊;谷歌搜尋引擎則實現了跨越境內外的檢索,可以搜尋出境內外的資訊,但比較而言還是較為偏重境外網頁、部落格的資訊。不僅如此,谷歌搜尋引擎還能按照“論壇”、“部落格”進行分類檢索,能有效減少我們的搜尋時間,而百度搜索引擎暫時未能提供這一服務。

2.對微博的搜尋能力:谷歌搜尋引擎可實時搜尋、抓取境內微博、境外“推特網”、“臉譜網”、“google+”等社交網站提供的實時資訊;百度搜索引擎則僅提供境內微博的實時搜尋。

三、搜尋引擎一般的使用技巧

(一)關鍵詞搜尋

關鍵詞搜尋是資訊獲取的最基本技巧,也是所有輿情研究者的必備技能。在搜尋引擎搜尋框內輸入需要查詢內容的關鍵詞,敲回車鍵,或者滑鼠點選搜尋框右側的搜尋按鈕,就可以得到最符合查詢需求的網頁內容。下面就關鍵詞搜尋常用基礎技巧做一簡單介紹。

一是限定搜尋範圍提高查準率。(1)關鍵詞精確匹配。在輸入的查詢詞較長的情況下,給關鍵詞加上雙引號,可以避免被拆分,達到精確匹配的效果。(2)利用減號語法消去含有特定關鍵詞的搜尋結果。如在“百度”搜尋“反日遊行 -禁止”(注意減號與第一個關鍵詞之間需有一個空格),結果就不包含與“禁止”反日遊行有關的內容。(3)將搜尋範圍限定在網頁標題中。利用“intitle:”可以把查詢內容範圍限定在網頁標題中。(4)限定特定站點的搜尋。有目的地把搜尋範圍限定在某個特定網站中,可以提高搜尋效率。在查詢內容後面加上“site:站點域名”即可實現。如在“新浪微博”搜尋“實名舉報”反腐資訊,可以輸入“實名舉報site:weibo.com”。

二是掌握六種網路關鍵詞。(1)網路新詞。網路新詞是被網民普遍接受、廣泛使用的關鍵詞形式。在網路輿情監測與分析工作中,網路新詞是容易發現、也較容易掌握的網路關鍵詞型別。例如“富二代”、“窮二代”、“高帥富”、“白富美”、“矮窮矬”,皆是網路新詞。網路新詞只是表達網民社會情緒的方式,並不刻意去規避網路監管。但對輿情工作來講,掌握網路新詞可跟進了解社會民意,知曉網民情緒,並可從新詞發展趨勢中分析網路情緒的發展態勢,從而總結經驗,併為引導網路輿論提供參考。(2)字母、數字替代關鍵詞。此類關鍵詞目的性明顯,就是透過用字母、數字替代個別字詞,逃避關鍵詞監管。例如“B都督”、“十8大”、“拾捌大”等。對於網路輿情監測與分析工作來講,字母、數字替代關鍵詞可能都是**詞,對此類關鍵詞的監測我們要及時跟進,發現替代的新形式和新規律。(3)同音、諧音替代關鍵詞。同音、諧音替代關鍵詞與字母、數字替代關鍵詞相似,一般來講也是基於逃避關鍵詞監管的目的。例如以“明珠”替代“民主”,以“滋擾”替代“自由”,以“河蟹”替代“和諧”。此類關鍵詞一般為臨時性網路詞彙,且不斷變化,不易掌握,可在相關時間點重點把握,根據當前熱點事件來跟進。(4)代指關鍵詞。代指關鍵詞是以新的網路詞彙來指代特別事件及人物。此類關鍵詞大都帶有一定的網路情緒,主要目的是為了表達對所指代事物或人物的某種感情。當然,這類關鍵詞也有規避**詞監管的功能。例如,以“不厚同志”指代“薄熙來”。代指關鍵詞數量不大,也比較穩定,比較容易掌握。(5)語氣關鍵詞。語氣關鍵詞並不直接表達特定的含義,但可結合特定的網路語境來強化所要表達的觀點。如近年來流行的網路語氣詞“你懂的”、“史上最”、“碉堡了”、“屌爆了”、“出大事了”等,語氣關鍵詞可使搭配的語義表達得更加隱晦,也更加深刻。需要注意的是,語氣關鍵詞在不同的語境中所表現的含義不一樣。網路輿情監測與分析工作可將語氣關鍵詞和其他目標詞彙結合起來進行檢索,以提高檢索的效率。(6)反監管特用關鍵詞。這類關鍵詞是專門針對網路監管創造出來的關鍵詞。例如“轉要快”、“趕緊下載”、“馬上就刪了”、“被和諧”等。此類關鍵詞一般用在**的帖子和文章中,在輿情監測工作中,重點掌握它們,可提高挖掘資訊的效率。此外,把握好此類關鍵詞,可突破前面五種關鍵詞型別的語境限制,擴大監測範圍。

三是使用多個關鍵詞來提高準確率。對於大部分的搜尋任務來說,一般都能夠透過搜尋網站找到需要的網頁,但是如果不細心選擇關鍵詞,搜尋網站可能會返回很多並不是需要的結果。此時,如果將另外一個跟搜尋目標相關的關鍵詞加在一起搜尋,返回的結果就會少很多,也更加準確。因此,很多時候需要使用多個關鍵詞查詢的方法來提高搜尋準確率。但需要注意的是,搜尋網站對關鍵詞的個數可能會有限制。同時,也要注意搜尋內容之間的邏輯關係是否合理。

(二)利用句子檢索

句子檢索法可有效提高文字檢準率。在使用搜索網站時,不少人經常被“關鍵字”這個名稱所限,而忘了關鍵字可以是一個字、一個詞,甚至一句話。例如在搜尋小說、文章等文字內容時,最簡單的方法,是用文字的標題搜尋,但最高效的方法,則是用文中的一句話來搜尋,可以讓搜尋效率提高不少。

(三)中西結合檢索法

在使用搜索網站時,靈活地結合中文和英文可以很好地完成某些搜尋任務。除了可以將要翻譯成中文的英文詞彙用作關鍵字,並指定搜尋網站只返回中文網頁的結果,嘗試將搜尋網站當成翻譯機器來使用,還可以將中文詞彙的一部分翻譯成英文,從而搜尋到更多的有用資訊。

四、實戰:利用搜索引擎挖掘熱點事件資訊的技巧

(一)日常事件資訊挖掘技巧

關鍵詞的選擇是使用搜索引擎至關重要的一步,事關我們在資訊上報工作中能否有效挖掘日常事件資訊。因此,選擇合適的關鍵詞變得越來越重要。而對於我們的網路輿情分析工作,搜尋詞的設定可分為兩部分:一是重要日期的搜尋詞配置;二是日常監測的搜尋詞配置。透過這樣的關鍵詞配置,進行資訊檢索就可以達到事半功倍的效果。

(二)熱點事件資訊的挖掘方法

除了使用常用關鍵詞進行檢索外,在網路熱點事件發生後,我們也應善於利用網路熱點設定關鍵詞進行檢索。例如,在中日撞船衝突發生後,境內網民的反日

情緒高漲,這時我們應將關注重點放在可能發生反日遊行涉穩資訊方面,重點關注境內網民的抗議言論,可將“反日遊行”、“日本駐華使館抗議”、“遊行抗議日本”等設為階段性的監測關鍵詞,重點利用搜索引擎挖掘反日遊行抗議資訊。

(三)重大突發事件資訊獲取方法

在自媒體時代,微博資訊已成為突發事件資訊的主要源頭。因此,在突發性事件發生後,應密切留意境內外微博的動向。在可能的情況下,第一時間利用微博自帶的搜尋引擎進行搜尋,蒐集訊息釋出人、當地活躍的網民及散發者的賬號,以便在日後持續瞭解最新動向。例如,在“烏坎事件”發生後,境內微博並未立刻將“烏坎”作為關鍵詞進行遮蔽,這就給我們積累一些烏坎當地比較活躍的網民賬號提供了時機。我們可乘機收集大量微博使用者,以便在日後發現更多當地的涉穩情況。同時,在突發性事件發生後,應加強對百度貼吧的監測力度。鑑於百度貼吧可隨意建立的特性和網路此消彼長的態勢,如果微博的限制情況增加,百度貼吧上反而會出現一些有用的資訊。在突發事件發生後,可到百度貼吧上搜尋是否存在相關貼吧和帖子,以便能發現更多的資訊。

第三節 利用網路平臺和工具獲取資訊

RSS訂閱、郵件訂閱、騰訊QQ群、微信等是網際網路上資訊傳播的重要手段,也是網路輿情發現的有效途徑。

一、利用RSS訂閱發現資訊

RSS是線上共享內容的一種簡易方式(也叫聚合內容,Really Simple Syndication)。網站提供RSS輸出有利於讓使用者獲取網站內容的最新更新。使用者可以使用RSS閱讀軟體,在不開啟網站內容的情況下閱讀輸出的網站內容。RSS的最大作用是,讓使用者使用最少的時間來獲得最需要的資訊,而不用陷入資訊的海洋裡面。在時效性比較強的內容上使用,能夠更加快速主動的獲取資訊。

目前RSS資訊主要版本有0.91,1.0,2.0。RSS2.0在資訊推送上能將圖文全部內容推送到訂閱軟體,即使原文在網站上被刪除,推送的內容仍儲存在客戶端,這為微博、論壇等**資訊的抓取和儲存提供了思路。

(一)RSS資訊訂閱

訂閱RSS新聞內容要先安裝一個RSS閱讀器,然後將提供RSS服務的網站加入到RSS閱讀器的頻道即可。具體操作如下:選擇有價值的RSS資訊源、啟動RSS訂閱程式,將資訊源新增到自己的RSS閱讀器或者線上RSS、接收並獲取定製的RSS資訊。

(二)RSS資訊源獲取

RSS最為核心的就是有價值的資訊源。在日常瀏覽中,尤其是境外媒體,在媒體網站下方或位址列均有RSS提示符號,點選關注的網站及頻道即可訂閱。在訂閱中,建議對網站關注的頻道及所有頻道進行分類,一類是日常經常瀏覽的頻道,解決RSS海量資訊瀏覽問題;另一類是全面蒐集經常刊登有價值資訊的網站,為二次搜尋和二級平臺的構建提供資料來源。此外,建議留意網站的標誌,儘量多蒐集RSS推送源,除了媒體和部落格、論壇等常見網站,新聞搜尋引擎也會對搜尋結果提供RSS源,這為媒體資訊整合、避免關鍵字過濾、專項資訊監測提供了重要思路,方便了有價值資訊的整合和篩選。

(三)閱讀器選擇

目前,RSS閱讀器基本可以分為三類。第一類是執行在計算機桌面上的應用程式,透過所訂閱網站的新聞供應,可自動、定時地更新新聞標題。在該類閱讀器中,有Awasu、FeedDemon和RSSReader這三款流行的閱讀器;第二類是內嵌於已在計算機中安裝的其他應用程式中。例如, NewsGator內嵌在微軟的Outlook中,所訂閱的新聞標題位於Outlook的收件箱資料夾中。第三類則是線上的WEB RSS閱讀器,其優勢在於不需要安裝任何軟體就可以獲得RSS閱讀的便利,並且可以儲存閱讀狀態,推薦和收藏自己感興趣的文章,如抓蝦、鮮果等。這三類閱讀器均有其優勢和可取之處。軟體閱讀器雖然延時相對較長,但是擁有本地儲存優勢,為未來資訊的本地篩選和回溯提供最基礎的資料支援。內嵌閱讀器整合在郵件中,為搭建、推送和整合**資訊的小平臺提供便利。線上瀏覽器重新整理度快,伺服器的支援解決了客戶端接收資料的硬體問題,接收資訊也流暢便利,有助於重點監測網站的瀏覽,但也面臨安全性和回溯等問題。這三類RSS閱讀器均帶有自帶的搜尋引擎,在整合資訊蒐集後,進行二次搜尋並無**關鍵詞過濾的擔憂。

二、利用郵件獲取資訊

利用郵件發現資訊,主要是透過接收郵件的內容發現資訊,或發現有價值的資訊線索。英國《金融時報》、英國廣播公司、美國之音、《華爾街日報》等境外媒體網站和境內多家網站都提供這種服務,訂閱之後可以接收到當天該媒體上的主要新聞。部分國際組織、非政府組織、境外論壇等也利用郵件訂閱作為推送訊息的主要方式。此外,境外谷歌論壇將實時更新的內容釋出至訂閱郵件,臉譜等社交網站將關注物件動向推送至郵件,谷歌等搜尋引擎也可將自定義搜尋結果推送至郵件。訂閱郵件雖然範圍不及RSS,但是在資訊的價值上不遜色於RSS。

郵件訂閱多在網站首頁及醒目位置標識,在谷歌論壇、臉譜、Google+等論壇及境外社交網站中,加入或關注即可訂閱關注物件的最新動態。因境內外存在時差,此類資訊更新時間多在中午12點後至晚間,多為下班時間。所以在此類資訊的訂閱上,除了透過電腦Outlook郵件,還可以藉助黑莓、安卓等智慧手機郵件客戶端實時接收資訊,讓推送結果在可掌控的範圍內第一時間收到。此類資訊分類得越具體,在推送的第一時間獲取的資訊越有價值。

三、利用微信獲取資訊

(一)提高**性,及時蒐集微信上的網路輿情

由於微信以點對點的方式傳播,內容僅停留在傳受雙方的移動終端上,其他使用者無法獲知,這就使微信成為一個天然的私密媒體平臺,資訊傳播更具隱蔽性,一些在微博上無法傳播的內容很有可能透過微信公眾號傳播。這種小範圍朋友圈內的轉發,給過激言論和不良資訊提供了相對寬鬆的生存環境,並且更易被使用者相信,增加了輿論監管的難度。微信公眾號的封閉交流還會導致某些輿情在微信圈子裡悄然流行之時,外面的人還一無所知,當輿情發展到主流網站、論壇、微博中的時候,就直接給相關管理部門形成比較大的輿論壓力。對於網路輿情分析師來說,應提高自身的**性,從終端上對微信朋友圈進行監測,及時蒐集微信上的網路輿情。

(二)重點監測微信公眾號

微信公眾號於2012年8月誕生,至2014年底數量已經超過800萬,並保持每天8000個的增長速度以及超過億次的資訊互動。隨著微信公眾號的迅速發展,一些公眾微訊號的訂閱和服務使用者已經超過百萬,其大眾傳播屬性和影響力已經十分明顯。有輿情分析師認為,雖然現階段微信主要在熟人圈交流互動,相對封閉,不易形成強力輿論場,但是微信公眾號一般都有龐大的使用者量,其在不良資訊的傳播擴散上的影響力不容忽視。特別是面對負面資訊、突發事件時,容易造成大範圍的擴散和曝光。對於網路輿情分析師來說,應儘可能蒐集和訂閱熱門的微信公眾號進行及時監測。蒐集的方法有兩種:一是可以參考目前市場上一些公司和機構提供的微信排行榜進行蒐集。例如上海看榜資訊科技有限公司就推出了“新媒體排行榜”,可以透過這個排行榜蒐集到資訊類、生活類、政務類等分類的微信公眾號。二是在監測微信公眾號的過程中,細心留意出料多的公眾號,逐步積累,從而獲取更多的資訊源。比如,微信上有一個“媒體札記”的微信公眾號,每天對當天的熱門輿情事情進行評論,透過瀏覽監測這個公眾號,可以不斷蒐集和積累新的資訊源。

(三)透過搜狗微信搜尋進行搜尋

目前,國內的搜尋引擎裡面,搜狗提供了微信搜尋功能,透過搜狗微信搜尋,可以搜尋到微信公眾號上的文章和公眾號,這大大方便了我們對微信輿情的獲取。除此以外,搜狗微信搜尋還可以訂閱搜尋詞,訂閱後在“我的訂閱”裡面檢視更新的文章,相當方便。

第四節 網路輿情監測系統

網際網路作為一種資訊傳播方式已經深入人們的生活中,為民意民情的表達提供了一個新的載體,引領人類進入大資料時代。網上言論的活躍程度不可估量。只要是重大的事件,就能成為網上輿論,網民往往透過網際網路來表達觀點、傳播輿論,進而產生輿論壓力。網際網路已成為輿論的放大器,網路輿情已達到任何部門和機構都無法忽視的境界。

網路輿情是透過網際網路的新聞入口網站、論壇、部落格、微博、微信、新聞跟帖等方式針對現實生活中的某些熱點、焦點問題釋出的影響性、傾向性的言論和觀點。如果引導不善,將會產生負面的輿情,對社會安全構成威脅。如何在大資料浪潮中挖掘出重要的資訊並有效利用、管理和引導,是政府、企業在網際網路時代面臨的全新挑戰與機遇。可以說,網路輿情監測系統正是根據這個需求應運而生。

網路輿情監測系統是指透過相關的專業輿情軟體按照一定的規則和演算法將網際網路上繁雜的資料資訊當中使用者所關注的資訊抓取出來,並透過分析過濾等方式,最終呈現出與需求相匹配的輿情資訊,並以輿情報告形式呈現。它主要分為8個部分:(1)熱點話題、**話題識別。可以根據新聞出處權威度、評論數量、發言時間密集程度等引數,識別出給定時間段內的熱門話題。利用關鍵字布控和語義分析,識別**話題。(2)傾向性分析。對於每個話題,對每個人發表的文章的觀點、傾向性進行分析與統計。(3)主題跟蹤。分析新發表文章、帖子的話題是否與已有主題相同。(4)自動摘要。對各類主題,各類傾向能夠形成自動摘要。(5)趨勢分析。分析某個主題在不同的時間段內,人們所關注的程度。(6)突發事件分析。對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌並預測事件發展的趨勢。(7)報警系統。對突發事件、涉及內容安全的**話題及時發現並報警。(8)統計報告。根據輿情分析引擎處理後的結果庫生成報告,可透過瀏覽器瀏覽,提供資訊檢索功能,根據指定條件對熱點話題、傾向性進行查詢,並瀏覽資訊的具體內容,提供決策支援。資訊採集系統主要是透過網路頁面之間的連結關係,從網上自動獲取頁面資訊,並且隨著連結不斷向整個網路擴充套件。目前,一些搜尋引擎使用這項技術對全球範圍內的網頁進行檢索。輿情監控系統應能根據使用者資訊需求,設定主題目標,使用人工參預和自動資訊採集結合的方法完成資訊收集任務。資訊分析系統使用系統的觀點和方法,把複雜物件分解為簡單組成部分,並確定這些組成部分的基本屬性和關係。資訊資料管理系統對收集到的資訊進行最終處理,對搜尋引擎資料集進行階段性的資料維護。

目前,市面上的網路輿情繫統有很多,功能雖然不盡相同,但主要構成依然是輿情資料抓取和分析系統。以下對主要的網路輿情繫統做一個簡單介紹。

一、人民網輿情監測系統

2010年,人民網輿情監測室研發並完善了具備個性化、垂直性監測功能的網際網路輿情監測系統。該系統基於網路輿情傳播規律,及時、全面地監測境內外新聞網站、論壇、報刊、電視、廣播和知名部落格、微博,並在此基礎上進行資料的抓取、挖掘、聚類、分析和研判,方便輿情工作人員迅速獲取輿情,提高輿情管理和輿論引導的水平。輿情監測平臺涵蓋五大輿情支援系統,即部委(紀檢)、省(市)級、市(市)級、縣(市)級和上市公司、央(國)企、外企、民企輿情支援系統,為客戶實現網路聲譽管理、輿情監測、**資訊預警、內部風險管理評估、突發事件實時追蹤和宣傳工作評估考核等功能。

二、新華網輿情監測系統

新華網輿情監測系統輿情已擁有1500餘臺資訊採集伺服器,監測範圍涵蓋國內外2萬多家入口網站、專業網站和政府網站數十萬個頻道, 50多家國內主流網站的300餘個熱點論壇、部落格、微博,500餘家國內報刊、20餘家港澳臺報刊,國內外百餘家電視臺的2000多個欄目,日採集量過億條。新華網“輿情線上”網路輿情手機客戶端服務平臺實現了輿情監測PC使用者端和手機瀏覽端的無縫連線,彌補了傳統輿情監測在內容、空間和時間上的輿情死角,使用者可自主設定監測關鍵字和傳送時間,提供7×24小時全網監測和資訊預警。

三、中青線上輿情監測系統

中青線上輿情監測系統提供輿情資料管理系統、輿情資訊指揮系統、輿情綜合管理平臺、輿情管理手機客戶端。24小時不間斷資訊採集,採用五級預警機制。

四、谷尼網路輿情監測分析系統

谷尼網路輿情監測分析系統依託自主研發的搜尋引擎技術和文字挖掘技術,透過網頁內容的自動採集處理、**詞過濾、智慧聚類分類、主題檢測、專題聚焦、統計分析,實現各單位對自己相關網路輿情監督管理的需要,最終形成輿情簡報、輿情專報、分析報告、移動快報,為決策層全面掌握輿情動態、做出正確輿論引導提供分析依據。

五、中國傳媒大學網路輿情(口碑)研究所網路輿情監測系統

中國傳媒大學網路輿情(口碑)研究所(英文簡稱IRI)是國內權威的專為政府服務的網路輿情研究和諮詢機構。IRI自主研發了國內非常先進的網民評論抓取、網路輿情監測兩套軟體系統。i-Monitor網路輿情監測系統,是IRI自主開發並擁有智慧財產權的國內先進的軟體整合式網路監測系統,能形成對首頁、新聞、社群、論壇、部落格、貼吧等網路主帖資訊的自動掃描、監測,覆蓋10萬家以上站點。和i-Monitor形成有效互補的是,i-Catch網民評論抓取軟體是IRI自主研發的國內最先進的專於網民評論抓取的軟體,涉及新聞回評、論壇、部落格、社群、影片等網上關於任何事件進行討論的網民評論,在國內率先解決了動態的新聞回評等抓取問題。目前兩類軟體在IRI的工作過程中,扮演了非常重要的角色。

(本章完)