大數據架構下的文獻資源管理應用 - 遊戲競技

摘要:本文介紹了在圖書館情報領域數據管理中存在的信息孤島、數據類型缺乏統一架構等問題，通過對實際應用中數據類型的分析，利用大數據存儲的系統架構，使用關係型資料庫與非關係型資料庫結合，同時輔以內存資料庫和分布式文件系統，對內部用戶提供統一元數據管理，對外部提供統一數據訪問平台和統一數據搜尋引擎，從而實現對多種結構數據資源的管理和應用.
關鍵詞:圖書館;大數據;數據存儲;異構數據;非關係型資料庫
作為以圖書館為基礎的情報研究機構，隨著近年數據資源量的不斷增加，各類文獻、圖書、期刊、基礎數據等都需要進行穩定的存儲與高效率的分析。同時，基於這些數據的知識庫、諮詢服務智庫等系統的建設也都迫在眉睫。為了能充分管理眾多數據，為各類系統提供數據基礎，有必要建設一個結構統一、技術先進、可重複利用的數據資源平台，統一管理各類數字化資源。
1存在問題
面對大量的數據資源，在信息化過程中通常會碰到以下問題：1.1信息孤島現象這種現象是指需求建設的應用系統存在相互之間在功能上不關聯互助、信息無法共享互換以及信息與業務流程和應用相互脫節等問題，缺乏統一元數據管理。1.2多種類型數據缺乏統一數據架構每個業務環節都會有大量非結構化、結構化、半結構化數據，如何對這類數據進行統一分析管理。在這些多種結構的數據中存在大量內在關聯，只有統一數據存儲，才能進一步挖掘出數據中存在的深層價值。1.3軟硬體環境重複購買現象在信息化建設過程中，新建應用系統都會根據自身需求重新搭建軟體、硬體環境，大部分系統運行所需軟硬體並沒有達到資源的滿負荷利用。1.4缺乏統一數據標準由於多年系統建設過程中由不同團隊開發，造成相同數據內容格式不統一，存在大量冗餘數據，彼此數據更新不暢通。1.5缺乏統一數據安全管理方案在日常工作過程中需要進行大量數據交互與實時操作，缺乏統一的信息化安全手段對數據分配權限進行管理，並實現定期的資源備份。
2建設目標
基於以上狀況，考慮基於大數據架構的文獻資源管理方案應可達到以下目標：（1）實現基於統一元數據定義的信息集中管理和信息共享，為數字出版、數據加工、諮詢服務、日常管理等各項工作提供統一數據資源平台。（2）實現統一大數據環境，滿足各個應用對於文檔數據、關係型數據、非關係型數據和內存型數據的統一存儲需求。（3）構建基於SOA架構的應用系統，保證在應用對於數據訪問權限的統一管理。（4）建設統一搜索環境，滿足於各種數據資源能夠統一搜索查詢訪問。（5）建設必須具備高度的先進性、可靠性、可用性、安全性並具備良好的擴展性和靈活性。
3建設方案
3.1資源建設方案
圖書館中常見資源主要包括文獻、圖書、期刊、數值型數據、動態信息等。依據數據結構的不同，可主要分為基礎數據、結構化數值型數據、非結構化數據、動態信息、其他文字類信息等幾類。其特點如下：（1）基礎數據：主要如書目、期刊文獻等數據；（2）動態信息：主要包括各類網站、媒體的信息，時效性比較強；（3）非結構化數據：主要包括格式不夠統一的數值型數據；（4）結構化數值型數據：可以定期獲取的格式相對規範的數據，如海關進出口數據、圖書期刊銷售數據；（5）其他文字類信息：更新頻度較慢的文字類數據，如各類法律庫、研究報告等；針對不同類型的數據資源，應對其採用特定的方式進行處理、保存及利用。3.1.1基礎數據包括如數據、期刊文獻等基礎數據都應經過數字化加工、元數據定義、自動標引、關鍵數據提取等多個步驟，分別保存至相應資料庫。3.1.2動態信息動態信息的來源主要是各個網站,包括網站文章及各類輿情信息。可以由技術手段完成從信息採集、分類整理到分發的所有過程。整個流程由三個規則來體現：分別是採集規則、分類規則、分發規則。採集規則：採集規則由編輯確定，包括來源網站、欄目等。利用爬蟲技術，可對所有網站的資源進行自動增量採集，並裝入「待分類庫」。分類規則：分類規則利用到詞表、詞庫以及自動標引技術。由專家及編輯對所有資源進行多維度分類，並提供相應的語料，經過學習，對之前進入「待分類庫」中的所有數據進行自動標引。之後，所有的數據將被從多個維度被分類。保存後即可方便準確的提取。分發規則：在完成上述兩項工作之後，所有的動態信息已經被分門別類的整理好。通過分類、關鍵詞即可快速提取相關的信息。對於已經經過規範化處理的動態信息，也可以直接利用形成產品，同樣依據自有的多維分類，即可把相關的動態信息直接推送給用戶。3.1.3結構化數值型數據結構化數值型數據包括海關進出口數據、統計局數據、產品庫等眾多格式相對規範資源。由於數據量的不斷增大，需要考慮使用數據倉庫技術對所有的結構化數據進行規範保存，利用建模的方式保存數據。這類數據的主要用途分為兩部分對內提供數據的查詢，對外提供報告的自動生成。（1）數據查詢。規範化存儲之後的數據可以方便的通過多個維度進行查詢、鑽取，內容的研究人員可以直接通過輸入查詢條件進行數據的查詢，同時生成各類圖表。（2）自動報告。對外可以以產品的形式提供多種數據報告，利用預先準備的模板，在用戶選擇所需報告之後，利用已有數據，套用不同模板形成一份自動的報告。3.1.4非結構化數據對於非結構化數據，將主要通過兩種方式來處理。（1）非結構化數據的結構化。部分非結構化數據本質是結構化數據，因為某些原因才造成了數據的不完整，對於這類數據，需要整理結構的最大集並將相應的數據填入對應欄位。在完成此步驟之後，可採用類似對於結構化處理的方式對這些資源進行處理。（2）非結構化數據的標引分類。除上述的數據之外，還有一部分非結構化數據過於零散，只能採用標引的方法實現這些數據的歸檔利用。方法和動態信息的處理方式類似。3.1.5文字類信息文字類信息的特點是實效性不強，每次後都會長期使用。比如法律法規、諮詢報告等。這類資源應主要採用自動標引的技術進行處理。首先也需有多個維度的分類、詞庫、詞表以及語料，經過學習後將每篇文章進行標引分類，之後再將文章內的段落進行二次標引。這樣，所有的資源都可以通過關鍵詞、多個維度的分類進行提取，即可獲取具體段落資源、也可以獲取完整的文章報告。這類規整後的信息可提供給內部科研人員作為資料進行調用，同時可以為結構化數據的自動生成報告提供文字資源。
3.2技術建設架構
針對資源建設的方案，考慮採用關係型資料庫與非關係型資料庫結合的方式建立存儲架構。3.2.1數據存儲技術一個完整的數據環境，需要面對來自於各個方面的數據存儲需求挑戰，主要存在的數據存儲需求為：（1）文檔型數據存儲需求（2）關係型資料庫數據存儲需求（3）實時型數據存儲需求（4）非關係型數據關係型資料庫的優勢在於保持數據的一致性，由於以數據標準化為前提，數據更新的系統開銷很小，同時可以方便的進行Join等複雜查詢。MySQL是目前最流行的關係型資料庫管理系統。尤其在WEB應用方面，它與PHP語言的結合是目前最為成熟、穩定、安全的技術之一。針對現有數據，絕大多數的結構化數據都可以保存在該類資料庫中，從而實現複雜條件下的檢索操作。同時，關係型資料庫擔任保存整個系統元數據架構與基本數據的任務，是其他結構資料庫存儲及導入導出的基礎。NoSQL泛指非關係型的資料庫。它的優勢在於性能，由於NoSQL是基於鍵值對的，可以想像成表中的主鍵和值的對應關係，而且不需要經過SQL層的解析，所以性能非常高。另外可擴展性同樣也是因為基於鍵值對，數據之間沒有耦合性，所以非常容易水平擴展。它可以最大程度的解決關係型資料庫所不擅長的大量數據的寫入處理和為有數據更新的表做索引或表結構變更等問題。用NoSQL可以方便的保存系統中的非結構化數據，並根據實際需求隨時調整其結構。分布式文件系統（DistributedFileSystem）是指文件系統管理的物理存儲資源不一定直接連接在本地節點上，而是通過計算機網絡與節點相連。由於系統中數據資源過於龐大，為提高其使用訪問效率，利用HDFS的一次寫入、多次讀寫的特性。數據集一旦由數據源生成，就會被複製分發到不同的存儲節點中，從而響應各種各樣的數據分析任務請求。以Redis為代表的內存資料庫，是基於全部數據都存在內存中的技術體系，拋棄了磁碟數據管理的方式，它在採用半持久化模式運行時所有數據都是保存在內存中，然後不定期的通過異步方式保存到磁碟上。通過這種方式，內存資料庫在保證讀寫速度遠超過傳統資料庫的基礎上，又可對其數據進行分布式存儲且具有可恢復性。針對以上需求內容，結合各種軟體的特性：（1）MySQL滿足關係型資料庫需求；（2）NoSQL滿足對數據結構要求靈活需求；（3）HDFS滿足文檔類型數據存儲需求；（4）Redis內存型資料庫，滿足高速存取需求；提供統一數據存儲環境，為後續數據統一元數據管理、數據統一權限管理、數據統一搜索等建設提供了充分必要條件。3.2.2數據訪問平台統一數據存儲提供大容量數據存儲環境，滿足數據存儲的大量、高速、多樣的需求。在這個基礎上，還需要有統一元數據對存儲的數據結構進行定義，統一數據訪問安全控制對數據訪問者進行權限控制，用數據統一搜索打通各種類型數據，為後續數據挖掘分析提供數據高速訪問接口。3.2.3統一元數據管理元數據（Metadata），又稱中介數據、中繼數據，為描述數據的數據（dataaboutdata），主要是描述數據屬性（property）的信息，用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄，為了達到編制目錄的目的，必須在描述並收藏數據的內容或特色，進而達成協助數據檢索的目的。將所有資源的元數據統一管理，是進一步應用的前提。3.2.4數據統一搜索在具備數據存儲與數據訪問平台基礎上，構建滿足於融合關係型資料庫、非關係型資料庫、文件資料庫以及內存資料庫的統一搜尋引擎，並在構建搜索索引過程中融入專業詞庫詞表。以Web服務方式提供搜尋引擎服務，對用戶所輸入的文字進行分詞，並結合搜尋引擎索引，進行詞關係匹配，並按用戶所需排序格式提供數據排序給用戶。搜索服務提供web服務方式給應用系統使用，應用系統需根據自身權限範圍進行數據搜索範圍設置。通過上述平台的組合，可以為圖書館中文獻、圖書、期刊、數值型數據、動態信息等為主的各類型數據提供完整的管理解決方案，並通過具有詞表技術的搜尋引擎提供對外接口。
4結束語
雖然關係型資料庫有著技術成熟、易維護、支持SQL方式的複雜查詢、豐富的完整性約束等諸多優勢，且在圖書館情報領域被廣泛應用。但隨著數據量的不斷增大，數據類型的不斷增多以及應用模式的不斷變化，嘗試傳統數據架構+大數據架構的存儲、管理和應用將是圖情領域未來的技術架構發展方向。
參考文獻
[1]朱潔,羅華霖.大數據架構詳解：從數據獲取到深度學習[M].電子工業出版社,2012.
[2][美]湯姆,懷特（TomWhite）著.王海,華東,劉喻,呂粵海譯.Hadoop權威指南：大數據的存儲與分析(第4版)[M].清華大學出版社,2011.
[3]栗蔚,魏凱.大數據的技術、應用和價值變革[J].電信網技術,2013(07).
[4]孟小峰,慈祥.大數據管理：概念、技術與挑戰[J].計算機研究與發展,2013(01).
[5]申德榮,於戈,王習特,聶鐵錚,寇月.支持大數據管理的nosql系統研究綜述[J].軟體學報,2013(08).
作者:解飛單位:機械工業信息研究院