靜網PWA視頻評論

大數據挖掘下用戶隱私數據保護淺析

2023年11月06日

- txt下載

隨著人工智慧技術的發展,基於大數據的預測分析技術被廣泛應用於各個領域。尤其是近年來新冠肺炎疫情防控過程中,基於大數據的疫情數據分析挖掘技術對排查疫情防控風險點帶來了極大的便利,大數據為人們編織了嚴密的數字網絡的同時也把個人信息置於開放式的環境中,使得出現很多起個人隱私泄露的事件,因此,如何在大數據挖掘過程中進行用戶隱私或敏感數據的保護成為亟待解決的問題。本文主要針對在大數據挖掘過程中用戶隱私數據的保護技術熱點方向的專利進行分析,通過六個技術分支來對基於大數據挖掘的用戶隱私數據保護方法的技術進行全面的歸納和總結。
一、主要技術分支和數量
通過對檢索出的國內外專利申請進行分析,得出國內外基於大數據挖掘的用戶隱私數據保護的方法的主要技術分支如圖1所示。根據對大數據挖掘過程中隱私數據防護的策略,重點關注了主流的技術,其中,技術分支二的專利申請量最大,技術分支一的專利申請量最小,具體分析結果如下:基於對敏感/隱私數據監控和追蹤保護用戶隱私數據的技術,其申請量較少,總共有6件,分析存在上述情況的主要原因在於對數據追蹤的成本較高,隨著不同平台數據共享需求越來越大,用戶隱私數據在各大平台上使用的數量和次數也越來越多,這樣會導致需要監控和追蹤的數據量也越來越大,付出的硬體成本太高。基於對敏感/隱私數據處理保護用戶隱私數據的技術在2015來之後呈現明顯的增長,2021年申請量呈下降趨勢,主要是由於筆者在獲取數據時2021年數據量不全導致。根據筆者對該領域專利申請趨勢的判斷,2021年以後該技術分支的專利申請應當有更大的增大率。分析存在這種情況的原因主要是隨著隱私數據處理相關算法逐漸成熟,能夠滿足不同場景下的個性化需求,因此,該技術方向是創新主體研究的熱門方向,申請量也一直居於高位。基於對敏感/隱私數據的訪問權限控制保護用戶隱私數據的技術也在近5年取得快速發展,2019年至2021年的申請量占近10年申請量的80%。分析存在這種情況的原因主要是雲計算及區塊鏈技術的快速發展,為用戶權限控制提供了更加安全和穩定的系統架構。基於多方聯合計算保護用戶隱私數據的專利申請從2018年開始出現,2018年之前,該技術分支的申請量較少。分析存在這種情況的原因主要是通過脫敏處理的數據,數據價值受損。而多方聯合計算技術,關聯其多方的特徵,在沒有相互泄露數據的情況下擴展分析維度,提高分析精確度,因此,該技術在近年來也逐漸成為熱門研究領域。基於對敏感/隱私數據的識別和攔截保護用戶隱私數據的技術相關的申請量在六個技術分支中排在第二位,並且在近五年來申請數量分布比較均衡。分析存在這種情況的原因主要是隨著圖像識別技術和信息檢索算法的日益成熟,通過技術的手段在圖像中或海量的數據中檢測敏感/隱私信息也越來越容易實現,因此,根據不同的場景定製個性化的敏感/隱私庫,更能夠滿足個性化的需求。基於對數據融合、隱私算法/模型的改進來保護用戶隱私數據的技術也是近年來的研究熱點,專利申請量在三個技術分支中處於第三位。該技術分支偏重在底層設計,神經網絡技術的快速發展,為基於神經網絡模型的隱私保護提供了基礎的算法支撐,並且模型能夠更好地利用歷史數據來為隱私保護提供更加精準的保護策略,因此,成為近幾年來研究的熱點技術。下面結合具體的專利分別對上述六個技術分支的專利申請進行分析。
二、基於對敏感/隱私數據監控
和追蹤保護用戶隱私數據的技術基於對敏感/隱私監控和追蹤保護用戶隱私數據的技術,早期的代表性專利有US20140026184A1,其對作為該獲取的行為數據和由用戶所定義的敏感性簡檔的函數,評估分數被分配給該目標聯繫人,該分數是關於由傳播該用戶的個人數據所表示的危險性。近年來,隨著數據追蹤監控技術的發展,敏感/隱私數據監控或追蹤的技術手段越來越靈活和多樣化。代表性的專利有CN110795751A、CN112596894A、CN112231715A、CN113094730A。其中,CN110795751A能夠自動發現敏感數據,並根據數據分級分類規則和對應的安全防護措施,發現敏感數據並對其進行安全保護,同時監控敏感數據使用情況、數據流向信息,形成規則和模型:CN112596894A中基於異構數據對業務弱隔離環境下的數據安全態勢感知,有助於及早發現業務系統中存在的安全隱患,提高業務系統的數據安全;CN112231715A中形成具備「智能識別、主動防護、監控響應」能力的一體化防護,可同時兼顧不同防護應用場景和數據流向生命周期的保護;CN113094730A設置數據泄露檢測子模塊,監測調取到醫療數據的藥企對該數據的傳播路徑和次數,對違法行為做出警示提醒。
三、基於對敏感/隱私數據處理
保護用戶隱私數據的技術對敏感/隱私數據執行特定的處理以防止敏感/隱私數據的泄漏是應用最廣泛的一項隱私數據保護技術,其可根據不同的需求、不同的場景靈活設置數據處理策略。2018年之前的基於對敏感/隱私數據處理保護用戶隱私數據的技術主要集中於對敏感數據/隱私數據的準確識別。代表性專利有CN106599713A、CN105653981A、CN108304726A、US2015213288A1。其中,CN106599713A該篇專利中採用基於規則和與自然語言處理結合的方式提升敏感數據發現的準確率,解決了帶有語義的敏感數據無法識別的問題;CN105653981A提出了基於專家系統和自然語言處理的敏感數據自動發現方法,能夠自動發現敏感數據;CN108304726A中的數據脫敏方法,將Apriori關聯規則挖掘和敏感數據相結合,從而可以智能地找出人工不能發現的敏感數據組合泄露的規則方法;US2015213288A1中提供的PII(個人可識別信息)清理方法,清理器配置所提供的靈活性允許即使是從非結構化的數據中也只清理PII,無須包括周圍數據。2018~2020年對敏感/隱私數據處理保護用戶隱私數據的技術在各個不同場景或領域中的應用得到了快速的發展。針對不同場景/領域的特點,探索出不同的敏感/隱私數據的處理策略。代表性專利有CN111143880A、CN110781519A、CN110502924A。其中,CN111143880A通過對原始共享數據進行脫敏,獲得脫敏共享數據,保障了共享數據的安全性,避免敏感數據的泄露,使得數據擁有方的原始共享數據的所有權和隱私得到有效保護;CN110781519A中對每個用戶的語音數據進行三維脫敏處理,以保護用戶的語音數據隱私,通過對語音數據的脫敏處理實現保護用戶數據隱私和保證數據有用性;CN110502924A中基於識別出的目標脫敏數據中的每一個目標脫敏欄位所屬的敏感數據類型,確定目標脫敏數據對應的至少一個優選脫標脫敏欄位的目標脫敏算法。2021年對敏感/隱私數據處理保護用戶隱私數據的技術更加注重將神經網絡技術和區塊鏈技術應用于敏感/隱私處理。代表性的專利有CN112861179A、CN112580107A。其中,CN112861179A中通過訓練文本生成對抗網絡模型生成與包含敏感信息的解析文件相同統計特徵和結構的脫敏數據,實現對結構化的文本信息進行數據脫敏處理;CN112580107A中的區塊鏈系統利用審查算法對目標數據進行聚合運算,將聚合結果作為應答,返回給數據請求節點,從而能夠不泄露原始數據。
四、基於對敏感/隱私數據的訪問權限控制保護用戶隱私數據的技術
通過對敏感/隱私數據的訪問權限控制來保護用戶隱私數據在技術層面實現更加簡單和靈活,因此,被安全領域用作基礎的防護手段。早期代表性的專利有US2012278830A1,該篇專利中,在遇到隱私和保密性時讓用戶進行控制,並且允許用戶表達他們的隱私偏好,允許消費者控制隱私設置;2018年以後的代表性專利有CN110032888A,其根據預設的數據使用權限和數據使用者分類信息,對原始數據設置相應的數據使用權限,提高數據共享開放的安全可靠性;近年來,隨著區塊鏈以及算法的快速發展,越來越多的隱私防護技術中藉助新的計算機技術實現隱私訪問控制的精準性,代表性專利有CN109741803A以及CN112241543A。其中,CN109741803A設置敏感數據的密文訪問控制策略,在信息認證、廣播、傳輸過程中,通過數據脫敏和加密,充分保護個人隱私和數據安全;CN112241543A中通過理清數據中台中的敏感數據分布情況以及分類分級情況,實現基於敏感標籤或敏感級別的授權訪問控制,對敏感數據進行梳理、整合。
五、基於多方聯合計算保護用戶隱私數據
基於多方聯合計算保護用戶隱私數據技術,讓不同機構的數據在保證數據隱私安全的前提下完成跨組織的聯合分析與學習,是近年來發展起來的一種新型的隱私防護技術。代表性的專利有EP3580685A1、CN111967038A、CN112231746A、CN111931221A。EP3580685A1中提出的技術方案用於為由不受信任和/或獨立方維護的數據項安全地確定隱私集交集或隱私集交集的特性的方法。隱私數據集的交集是指數據集中的每一個共有的數據項。例如,由幾方維護的隱私數據集中表示的相同對象或個人的數據項可以被分類為在隱私數據集中的交集內;CN111967038A通過利用多方安全計算的方式對輸入數據和執行代碼進行處理以執行計算指令,防止數據泄露;CN112231746A中提供了一種聯合數據分析方法,通過鏡像等價模型得到關聯其多方的特徵,在沒有相互泄露數據的情況下擴展了分析維度,提高了分析精確度;CN111931221A在不向對方或第三方泄露一方所擁有的數據對象具體的屬性數據和特徵數據的前提下,根據雙方各自擁有的數據對象的第一特徵數據、第二特徵數據進行聯合分組,避免在上述數據處理場景中泄露一方所擁有的數據對象的具體數據。
六、基於對敏感/隱私數據的識別和攔截保護用戶隱私數據
基於對敏感/隱私數據的識別和攔截保護用戶隱私數據是被廣泛使用的一種隱私防泄漏技術。該技術分支具有領域性特點,不同的領域關注不同類型的隱私/敏感數據類型,代表性的專利有CN111079174A、CN110175623A、CN110020553A。CN111079174A中構建基於匿名化和差分隱私技術的用電數據脫敏算法模型,可以對用電數據進行脫敏;CN110175623A中涉及一種基於圖像識別的脫敏處理方法,通過對多個圖像識別模型的敏感特徵識別結果進行核對來提升敏感特徵識別的準確度;CN110020553A保護敏感數據的方法能夠確保敏感數據被準確高效地發現和梳理,並對敏感數據的各個出口都進行保護。通過上述分析可知,該技術分支下,不同的領域在隱私防護過程中根據其各自的領域特定確定要識別和攔截的具體對象,從而實現有針對性的精準防護。
七、基於對數據融合、隱私算法/模型的改進來保護用戶隱私數據
對隱私防護中具體使用的算法或/模型進行改進是近年來研究的熱點,由於其屬於偏底層的技術改進,技術的通用性強,並且通過模型或算法能夠大大提高隱私防護中數據處理的效率及準確性。代表性的專利有CN110610098、CN111914287A、CN112464269A。CN110610098中保證在多方垂直分割數據的發布過程中,滿足對於所發布的數據集的差分隱私的要求,同時發布的整體數據能夠支持多種數據分析任務;CN111914287A中針對位置服務中的隱私保護方法,基於改進DTW距離算法,來量化用戶的軌跡隱私保護程度,避免構造同步的軌跡數據集,科學評估軌跡隱私保護程度;CN112464269A的方法包括過濾出和任務相關的用戶和數據、訓練前用戶選擇、訓練過程中用戶和數據選擇、模型訓練,本發明採用了向量草圖和隨機響應機制,用戶選擇策略高效且帶有隱私保護。從上述分析可知,該技術分支下,重點在於對模型或算法的改進,強調在防止隱私泄露的前提下最大程度的保證數據的可用性,使得數據分析結果更有價值。
八、結束語
從以上分析結果可以看出,前期對大數據挖掘過程中隱私數據防護的策略專利申請的主要集中在基於對敏感/隱私數據處理保護用戶隱私數據,但近年來隨著人工智慧和區塊鏈技術的快速發展,越來越多的專利申請利用多種技術的結合來進行隱私數據的防護。隨著大數據分析在各領域的廣泛應用,隱私保護面臨越來越多的技術挑戰,也為該領域的發展帶來了新的契機,只有根據實際的需求,通過結合多種技術手段,才能更好地解決不同場景下的隱私保護的問題。
作者:張琳 石蒙蒙 單位:國家知識產權局專利局專利審查協作江蘇中心

收藏

相關推薦

清純唯美圖片大全

字典網 - 試題庫 - 元問答 - 简体 - 頂部

Copyright © cnj8 All Rights Reserved.