前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大額保險大數據反欺詐系統設計探析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為了更好地識別針對大額保險的欺詐行為,總結了大額保險的主要風險類型,明確了大額保險反欺詐系統的主要構建方向。基于Apriori算法提出了大額保險大數據智能反欺詐系統模型,重點分析了數據統計識別、保險欺詐規律挖掘、保險欺詐行為識別。構建的大額保險大數據智能反欺詐系統經實證運行,結果表明,基于Apriori算法構建的大額保險大數據智能反欺詐系統能快速完成對大額保險欺詐行為的有效識別。
關鍵詞:大數據技術;Apriori算法;反欺詐系統;實踐
0引言
大額保險是指投保的保險金額相對較大的人身保險,通常保險金額是在50萬以上,投保時需要對其實施契約調查,充分掌握投保人的資產情況,明確投保人的投保動機,身體健康情況等[1]。近年來,在中國經濟飛速發展的影響下,國內保險行業迅速崛起,為廣大社會群體提供了健康保障。大額保險作為保險行業非常重要的一類產品,具有“避債、避稅、傳承”的作用,成為了高凈值人士投資理財的熱門選擇,這使得大額保單量持續增加,保額也在不斷攀升。本文擬根據大額保險的特點,基于關聯規則挖掘算法的經典算法Apriori算法,設計一套具有較高可行性的反欺詐系統,期望以此降低保險運營成本,營造一個良好的保險行業環境。
1大額保險大數據智能反欺詐系統模型設計
本文從變量篩選、數據預處理、保險欺詐規律挖掘和行為識別等方面,挖掘數據信息,基于Apriori算法建立大額保險大數據智能反欺詐系統。
1.1數據統計識別
1.1.1變量選擇。變量篩選主要是從個人行為數據中選擇能夠反映個人信用的變量。因為互聯網上個人行為種類繁多,有些變量能很好體現個人信用度,有些變量則對個人信用的影響不明顯。因此,我們需要選擇合適變量,才能夠準確評價用戶的信用度[2]。大額保險用戶大致可分為以下幾個方面。用戶數據用戶數據:包括用戶的年齡,性別,婚姻,職業,教育程度,收入情況等。信用數據信用數據:包括用戶在銀行的征信記錄,用戶在銀行或其他征信公司的征信記錄。交易數據交易數據:包括用戶的交易金額,交易頻率,交易地點,交易賬戶等。消費數據消費數據:包括用戶的消費時間,消費地點,消費習慣,消費金額等。社交數據社交數據:包括用戶的好友數量,好友的信用評級,好友的身份特征等。除此之外變量之間可能存在一定聯系,共同反映用戶的某種特性,所以我們要盡量從多個維度來刻畫用戶的特征。1.1.2數據預處理。原始數據集常規情況下很難直接將其作為系統數據來源,針對該情況,必須對所收集到的數據作出相應的處理,以確保建模和統計處理的相關要求。
1.2保險欺詐規律挖掘
保險欺詐盡管花樣百出,但保險公司有豐富的經驗和積累了豐富的數據,那么就能夠結合數據掌握其具體規律。目前,不少的保險公司,針對大額保險的欺詐處理,多以保險人員個人的經驗為主,并從中總結出相應的規律。大額保險所出現的欺詐行為分析指標主要包括了欺詐特征、行為特征指標兩個部分,抽取其中的一部分的指標用來對Apriori算法進行演示。
1.3保險欺詐行為識別
經由保險公司的信息系統數據庫來進行數據的構建,在對傳統分析模型進行使用的過程中,結合Apriori算法數據關聯挖掘技術,對欺詐行為進行分析、識別和評價。借助欺詐行為發生風險、可能性和成本、指數的分析,總結出一套相應的欺詐風險評價結果,并基于提出反欺詐風險管理策略與監督管理體系。考慮到保險欺詐行為的識別業務的特殊性,如果將保險欺詐的挖掘業務模式應用與保險欺詐行為的識別業務中是不可行的。為此,本文在進行欺詐行為識別業務過程中,首先提出了先分布、然后再集中的流程處理模型。保險欺詐行為的詳細識別業務模型如圖1所示。各個保險公司首先將內部數據庫中的業務數據進行數據預處理,所有的公司處理后的數據結構應該是一致的。
2大額保險大數據智能反欺詐系統實證分析
2.1數據預處理及描述
本文基于Apriori算法構建大額保險大數據智能反欺詐新系統,具體的操作步驟如下。首先掃描整張事務數據庫D,設置一個最小支持度Smin,根據最小支持度Smin產生第一個頻繁項集S1;由S1執行連接和剪枝操作,產生候選項集的集合,并根據Smin產生頻繁項集S2;接下來再由S2產生S3;這樣的操作一直進行下去,直到Sk成為空集時結束。根據聚類分析中運行效率高低的類別,所有的事務也可以分為五大類。對這五類數據分別使用Apriori算法,找到各自情況下的主要影響因素。所以頻繁項集的最小支持度滿足:Sminn<||An⑴公式⑴中,An主要用于表示第n類運行效率的事務集;Sminn主要用于對該事務集的頻繁項集的最小支持度進行表示。每個影響因素都產生五個“項”,假設最終數據產生的項為B1,B2,B3,B4,C1,C2,C3,D1,...,掃描整張數據表格,根據最小支持度Smin找到第一個頻繁項集的集合;在此基礎上,連接下一個項,產生含有兩個項的候選項集(例如:B1BC2,B1BC3,C2D2,...);剪枝后根據最小支持度得出第二個頻繁項集的集合。以此類推,直到最后產生的頻繁項集是空集。最終,該算法一共得到五個頻繁項集。該算法分別找出了可以欺詐行為風險高、較高、一般、較低、低的頻繁項集。在這些項集中,所有出現的疑似欺詐行為,都是導致大額保險管理風險的主要影響因素。
2.2大額保險大數據智能反欺詐系統實證結果
2.2.1系統主體業務流程。系統的主體業務流程分為四個階段:StepStep1:數據抽取,系統通過把各個保險公司的大額保險業務數據集合起來并進行預處理,然后把保單數據保存至汽車保險反欺詐系統的中央數據庫。StepStep2:數據加工,大額保險反欺詐系統的核必系統通過這些數據進行挖掘,發現其中的規律,并將規律與數據進行保存。StepStep3:數據查詢,當各個保險公司的業務員在建立保單時,需要通過大額保險的反欺詐系統進行風險分析,以確定該保單是否接受,當投保人要求理賠時,可以根據分析結果來確定是否應該賠付與賠付的具體額度。StepStep4:數據保存,對于風險特別高的數據,業務員應該保存到大額保險反欺詐系統中。2.2.2試驗結果。將已有的數據分別分為訓練集和測試集兩個部分,訓練集用于反向傳播訓練系統,測試集用來檢驗系統輸出的誤差與精度。將所有數據循環處理一次,時間在0.5s左右,此時的測試誤差約15%;循環處理100、1000、2000次系統的預測精度會有明顯的提升。最終將2000次循環后的結果等價為:運行效率與其主要影響因素的定量關系。將提取主要影響因素的訓練結果(CNN4)、不提取主要影響因素的結果(CNN6)以及使用Apriori算法的結果放到一張表中進行對比,結果見表1。從表1對比結果來看,Apriori算法考慮全部影響因素的運行效率預測值誤差為0.98%;而僅考慮主要影響因素的預測誤差0.71%,預測精度都很高,都可以很好地預測運行效率值。本系統已經在某財險的部分分公司與某保險的部分分公司試運營,通過半年內的152件減損與拒賠的案件的處理,總共為保險公司減損或拒賠的金額達9638.84萬元。
3結束語
近年來,我國各個地區保險欺詐事件的頻頻出現,且發生率日漸明顯。面對這種層出不窮的欺詐行為,保險人士很難經由個人經驗來進行有效識別,但隨著大數據技術的發展,基于Apriori算法就能夠實現對各項數據的關聯處理,從而快速完成對大額保險欺詐行為的有效識別。為了能夠盡可能地減少欺詐案件,推動社會資金的合理分配與保險行業的正常發展,本文基于Apriori算法構建起了大額保險大數據智能反欺詐系統,較好的實現對現階段大額保險欺詐行為的有效識別,但該系統還存在一定的局限之處,還需要借助數據挖掘技術對各項業務數據做進一步的挖掘,提高系統運作的有效性。
參考文獻
[1]白浩,袁智勇,孫睿等.基于Apriori算法和卷積神經網絡的配電設備運行效率主要影響因素挖掘[J].電力建設,2020.41(3):31-38
[2]翟繼強,馬文亭,肖亞軍.Apriori-KNN算法的警報過濾機制的入侵檢測系統[J].小型微型計算機系統,2018.39(12):2632-2635
作者:須秋夢 章民融 單位:中國人民財產保險股份有限公司 上海市分公司上海市計算技術研究所