<dfn id="yec2q"><blockquote id="yec2q"></blockquote></dfn>
<strike id="yec2q"></strike>
  • <samp id="yec2q"><tfoot id="yec2q"></tfoot></samp>
    <kbd id="yec2q"></kbd> <ul id="yec2q"><tbody id="yec2q"></tbody></ul>
  • <ul id="yec2q"><center id="yec2q"></center></ul>
    <ul id="yec2q"></ul><th id="yec2q"></th>

    數字化觀察(100)| 華夏銀行吳永飛等:數字金融領域小樣本學習技術創新

    2022-05-31 15:39:32 銀行家雜志 微信號 

      2022年1月16日,習近平總書記發表署名文章《不斷做強做優做大我國數字經濟》,指出數字經濟正在成為重組全球要素資源、重塑全球經濟結構、改變全球競爭格局的關鍵力量。一直以來,黨和國家高度重視發展數字技術、數字經濟。作為數字經濟的有機組成部分,數字金融是數字經濟時代實體企業蓬勃發展的助推器。數字經濟與數字金融的發展并沒有改變經濟與金融之間的關系本質,而是通過運用現代信息技術和新興數字技術,有效提高了經濟與金融活動的效率、降低了成本、防范了風險。數字金融的內涵是金融行業及相關產業的數字化轉型發展;其外延隨著數字經濟的發展,逐漸聚焦形成消費數字金融、普惠數字金融和產業數字金融三種主要業態。通過對消費經濟、普惠經濟和產業經濟進行數字化轉型升級,并以數字技術作為溝通銜接,與數字金融有機結合起來,形成經濟與金融高質量、高效率發展的良性循環,全面推動數字經濟時代社會經濟的蓬勃發展。

      產業數字化是數字經濟發展的重要方向之一,而產業數字金融則是產業數字化、數字經濟規模化發展的加速器。金融永遠不變的核心本質是風控,其實質是運用現代數字技術將數據算料通過算力、算法等新型基礎設施平臺加工成智能風控模型,從而降低由業務參與各方信息不對稱造成的業務不確定性。然而,產業數字金融風控所使用的數據要素情況不同于以往,特別是對公客戶場景化、生態化細分后,數據樣本量很小,難以滿足風控建模的需要;而小樣本學習目前在機器學習與數據挖掘領域仍屬世界性難題。本文從小樣本學習技術創新入手,深入探索數字經濟時代下面向產業數字金融的小樣本學習應用研究與實踐。

      面向金融風控領域

      的機器學習算法模型

      傳統的商業銀行風控體系以定性風險管理為主,主要使用風控規則及客戶評級等方法,輔以線下盡調的方法;傳統風控模型對包含客戶歷史行為和相關活動的數據進行分析,但難以預測性地揭示未來風險的變化情況,且數據獲取方式單一、定量分析結果相對較弱。數字經濟時代下面向數字金融發展,商業銀行越來越強調運用金融科技力量來降低風險管理成本、提升客戶體驗,以數據驅動風控能效的提升,以人工智能算法為基礎建立智能風控評價體系。

      在商業銀行風控場景中,往往會選用一些效果佳、業務可解釋性強的有監督學習分類算法來構建風控模型,如邏輯回歸、決策樹以及集成算法等。通過內外部數據融合、數據預處理、特征工程等方法進行數據準備,并根據場景需求及業務數據特點,選擇合適的算法開展分析建模,并進行模型的部署和監測。

      邏輯回歸(Logistic Regression)常用于二分類問題,其原理源于線性回歸,運用Sigmoid函數把線性回歸的結果(-∞,∞)映射到(0,1)之間。邏輯回歸因其業務可解釋性較強、計算速度較快、對線性關系的擬合效果較優、上線便捷、方便管理等特點被廣泛應用于銀行場景的二分類任務中,尤其是銀行風控領域。

      決策樹(Decision Tree)利用其類似于樹杈的模型結構,通過對一系列問題進行“是/否”的推導,最終以結構圖的方式來解決決策問題。在多數情況中,決策樹有一個根節點、多個內部節點和多個葉節點,因其從“樹根”到“樹葉”可以形成多條分類規則,模型可解釋性強,同時分類準確性往往較優、模型應用便捷,因而決策樹算法被廣泛應用于金融風控建模中。

      集成算法(Ensemble Algorithm)通過組合多個簡單算法形成累積效果,這種方法得到的模型準確性往往更高,可謂“博采眾長”,但模型訓練時間較長、模型可解釋性弱。集成算法的思想主要分為三種:裝袋算法(Bagging,亦稱為Bootstrap Aggregating,引導聚集算法)、提升算法(Boosting)和堆疊算法(Stacking)。基于Bagging思想的代表性算法為隨機森林(Random Forest),以及基于Boosting思想的代表性算法為XGBoost和LightGBM,均在金融風控領域應用較廣。

      上述有監督學習分類算法往往需要在較大規模訓練數據樣本中,通過算法運算對數據樣本情況進行歸納提煉,形成知識模型并實現智能應用;若模型訓練數據樣本積累不足(如創新業務領域“冷啟動”狀態),尤其在二分類任務中“1”“0”標簽分布極度不平衡(如信用風險預測、欺詐識別場景等)的情形下,算法建模效果將大打折扣甚至完全失效。

      基于關聯規則挖掘

      的智能風控小樣本學習

      關聯規則挖掘技術(Association Rule Mining)

      關聯規則挖掘問題由Agrawal等人于1993年提出:設I={i1, i2, ..., im}為所有項目的集合,D為事務數據庫,事務T是一個項目子集TI。每一個事務都具有唯一的事務標識T_ID。設A是一個由項目構成的集合,稱為“項集”。事務T包含項集A,當且僅當AT。關聯規則是形如X→Y的邏輯蘊含式,其中XI,TI,且X⌒Y=。如果事務數據庫D中有S%的事務包含XY,則稱關聯規則X→Y的支持度為S%。若項集X的支持度為Support(X),規則的置信度為Support(XY)/Support(X),這是一個概率條件P(Y|X),也就是說:Support(X→Y)=P(XY),Confidence(X→Y)=P(Y|X)。為避免挖掘過程中產生過多不必要的規則,往往引入最小支持度min_sup和最小置信度min_conf這兩個閾值。

      關聯規則挖掘分析能從大量數據中發現項集之間的相關和關聯關系。關聯規則挖掘任務分為兩個步驟:一是頻繁項集的產生,即找出滿足最小支持度min_sup的所有項集,這些項集稱作“頻繁項集”;二是關聯規則的產生,即從上一步發現的頻繁項集中,提取所有高置信度的規則(滿足min_conf條件),這些規則被稱為關聯規則。關聯規則是形如X→Y的蘊含表達式,其中X和Y是不相交的項集,關聯規則的強度可以用置信度和支持度度量。

      基于關聯規則挖掘的分類技術(Associative Classification)

      在過往的認知中,關聯規則挖掘是一種從大量數據中發現項集之間相關和關聯關系的技術方法,最著名的應用場景是“啤酒尿片”購物籃分析。然而實際上,關聯規則挖掘技術也可以用于解決有監督學習分類問題。該類思想最早由Ali等人于1997年提出;Wang等人于2007年提出針對此類關聯規則的排序和加權方法,從而有效提升關聯規則挖掘分類技術的模型準確性。基于關聯規則挖掘技術開展有監督學習分類任務是挖掘形如{X1∪X2 ∪...∪Xm}→{Y0}的規則,其中Xi=1為特征標簽值,Y0和Y1為類別標簽。在金融風控領域,Y0和Y1類別標簽可定義為“未逾期”和“逾期”。

      基于關聯規則挖掘分類技術

      的小樣本學習創新技術方法

      面向小樣本學習技術創新,尤其當處理極度不平衡數據集時,本文將關聯規則挖掘分類技術進行優化,探索形成一種可適用于產業數字金融風控問題(其訓練數據樣本量小、“壞”樣本數據量極小)的關聯規則挖掘分類技術方法,創新算法邏輯描述如下(見圖1)。

      圖1 創新算法邏輯

      連續特征離散化。常規的頻繁項集挖掘,往往是針對離散變量的,而數據中可能存在大量連續變量。針對連續變量,首先要采用等寬、等頻或聚類等方式進行離散化處理,以便后續頻繁項集挖掘任務的進行。

      “好”樣本頻繁項集挖掘。完成連續變量分箱后,可針對“好”樣本進行頻繁項集的挖掘,這里的項集要滿足以下條件:一是項集的支持度需比設定的min_sup閾值高,閾值依據模型評估結果動態調整;二是盡可能地挖掘出項次高的頻繁項集,項次越高,頻繁項集所包含的信息量也越大。

      模型評估。篩選訓練集部分“好”樣本和全部“壞”樣本進行逾期預測效果評估,評估策略的設置可包含以下情況:一是根據命中的頻繁項集數目進行給定的數據樣本評分,按評分排序后,評分小于K的定義為“壞”樣本,否則為“好”樣本;二是未命中任何頻繁項集的定義為“壞”樣本,否則為“好”樣本。

      模型穩定。評估此輪訓練效果并調整min_sup和K值重新尋找頻繁項集,直至模型穩定。

      模型應用。將測試樣本運用頻繁項集和評估策略進行分類。

      在商業銀行產業

      數字金融業務領域的應用實踐

      以國內某商業銀行產業數字金融業務為例,針對“加盟平臺型”和“產業供應鏈型”兩類典型業務,開展應用實踐實證分析。該銀行自2021年3月成立產業數字金融試點項目沙箱沙盒攻關組以來,逐步推進開展產業數字金融業務。在業務發展初期,項目的“好”“壞”樣本數量欠缺積累,攻關組采用遷移學習思想并直接推進小樣本學習技術創新,為平穩渡過和快速跨越業務“冷啟動”期提供技術支撐。

      從業務理解到數據準備

      “加盟平臺型”項目在借款人類型、貸款額度、還款期限等方面,與商業銀行普惠金融業務相近,但具有明顯的產業特征,主要體現為“產業圈”的商業模式。針對該類項目,攻關組從銀行企業級數據倉庫提取相關數據樣本和特征構建寬表,開展數字化授信與智能風控算法建模數據準備工作:選取數據倉庫近年來產品類型為個人經營性貸款且貸款額度為50萬元以下、還款期限為3~6個月、貸款利率在8%以下的數據樣本;定義逾期10天及以上為“壞”樣本,“壞”樣本在該選定數據集的占比為3%;以個人征信信息等典型A卡類特征作為初始變量篩選范圍,排除缺失值和集中度過高及相關性較高的變量后,最終選取歷史逾期類變量2個、歷史額度類變量4個、時間和查詢類變量4個,共計10個變量作為模型特征。

      “產業供應鏈型”項目在借款人類型、貸款額度、還款期限等方面,與商業銀行對公中小業務相近,但具有明顯的產業特征,主要體現為“產業鏈”的商業模式。針對該類項目的風控算法建模數據準備包括:選取數據倉庫近年來貸款額度在1000萬元以下且還款期限1年以內、貸款利率在6%以下的對公貸款數據樣本;定義逾期30天及以上為“壞”樣本,“壞”樣本在該選定數據集的占比為3%;選取“企業規模”等靜態信息變量3個、“歷史貸款平均額度”等歷史行為記錄變量6個,共計9個變量作為模型特征。

      關于貸款利率范圍的明確

      在進行上述數據準備時,分別將“8%以下”“6%以下”作為貸款利率條件來選取“加盟平臺型”和“產業供應鏈型”項目的風控模型訓練與測試樣本是因為在沙箱沙盒攻關過程中,將不同類型的每個產業數字金融項目看作一個進入沙盒的測試項目,并將真實發生的沙盒項目放入沙箱,由沙箱負責對全部項目開展統一的風險定價。該風險定價過程以項目為單位,通過對各項目的運營開展數字孿生,面向各類宏觀因子變動下的風險情景,對銀行資產負債管理體系進行相關仿真模擬,并推演出不同風險定價策略下銀行未來經營收益情況;進而創新運用深度強化學習技術,以銀行未來經營的最佳收益為目標,探尋覆蓋沙箱內各沙盒項目的綜合最優風險定價策略。這里“8%以下”和“6%以下”是根據沙箱給出的最優風險定價策略,對在數據樣本中原本較為發散的貸款利率特征值進行適度聚向,使模型訓練、測試以及預測應用的數據樣本在貸款利率特征值范圍上保持一致。

      實證分析結果顯示,將貸款利率特征值進行聚向處理,能夠使模型準確性等模型評估指標(AUC、KS、Recall)得到明顯提升。此外,精準的風險定價策略也對提升貸款質量和業務綜合收益起到積極的促進作用。

      建模與模型評估

      經過前期的數據清洗、篩選等處理后,針對連續變量作分箱處理,以便后續開展頻繁項集挖掘任務。模型訓練前對原始樣本數據劃分訓練集與測試集,訓練集和測試集的劃分采用分層隨機抽樣方法,即在“好”“壞”樣本內分別隨機抽樣;為保證模型的穩定性,采取十次分層隨機抽樣的方式進行模型訓練,并對十次隨機分層抽樣的平均結果進行分析及調優,最終在訓練集樣本量100、300、500(對應測試集樣本量100、200、200)且“壞”樣本占比保持在3%的情形下,得到模型測試集平均AUC、KS、Recall評估指標如表1、表2所示。

      表1 面向“加盟平臺型”項目的數字化授信與智能風控模型評估指標

      表2 面向“產業供應鏈型”項目的數字化授信與智能風控模型評估指標

      實證分析結果表明,本應用實踐案例在科學有效的風險定價策略指導下,運用創新關聯規則挖掘分類技術進行風控建模,無論是面對“加盟平臺型”業務還是“產業供應鏈型”業務,均可在樣本量很小(訓練集樣本量僅為100)且“壞”樣本量極小(“壞”樣本量占比僅為3%)的情況下,使模型具有良好的預測識別效果,在保持模型AUC、KS指標不低于0.7和0.3模型上線標準的前提下,使模型Recall指標平均達到0.8的水平,能夠大幅提高相關業務的風控能力與工作效率。截至目前,該銀行在產業數字金融一年以來的業務發展中未發生不良,即風險客戶識別中非正常類樣本Type-II錯誤率為零。

      數字經濟時代,面向產業數字金融風控領域的小樣本學習問題成為商業銀行亟待突破的技術難點之一。本文立足商業銀行應用實踐,在小樣本學習領域運用關聯規則挖掘分類算法進行創新技術突破,并將其實際應用于商業銀行產業數字金融真實業務場景中,實證效果達到預期目標。后續,將進一步推進小樣本學習技術面向訓練集樣本量在100以內的研究和應用,以期為數字經濟時代商業銀行深化產業數字金融業務發展提供技術支撐和借鑒思路。

      作者單位:華夏銀行(600015)股份有限公司,龍盈智達(北京)北京科技有限公司,參與撰稿的有王彥博、趙勇江、張月、譚思頎、孫芳超、胡明珠、程義淇、徐奇、高新凱、楊璇、張軍和劉曦子

      文章刊發于《銀行家》雜志2022年第5期「金融科技」欄目

      責任編輯:孫 爽

      976639255@qq.com

      點擊鏈接↓ 了解更多精選文章

      ◆ 數字化觀察(99)| 馬上消費林亞臣:大數據風控助力新市民服務

      ◆ 數字化觀察(98)| PMO項目管理六大“誤區”

      ◆ 數字化觀察(97)| “雙管齊下”應對國際數字貨幣“雙賽道競爭”格局

      ◆ 數字化觀察(96)| 量子聚類算法在銀行智慧運營場景中的應用

      ◆ 數字化觀察(95)| 隱私立法時代聯邦學習在商業銀行的應用

      ◆ 數字化觀察(94)| 金融科技管理人才項目制培養模式探索與實踐

      ◆ 數字化觀察(93)| 科技創新推動金融數字化服務轉型發展

      ◆ 數字化觀察(92)| 內部審計視角下的數據治理

      ◆ 數字化觀察(91)| “貝塔銀行”對銀行經營的重構

      ◆ 數字化觀察(90)| 數字化轉型重塑銀行價值鏈——訪平安銀行(000001)首席信息官張斌

    本文首發于微信公眾號:銀行家雜志。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

    (責任編輯:李顯杰 )
    看全文
    寫評論已有條評論跟帖用戶自律公約
    提 交還可輸入500

    最新評論

    查看剩下100條評論

    熱門閱讀

      和訊特稿

        推薦閱讀

          久久久久久国产精品免费无码| 国产在线精品国自产拍影院同性| 精品人妻一区二区三区毛片| 99re6这里有精品热视频| 精品九九久久国内精品| 午夜精品久久久久久影视777| 亚洲国产精品成人午夜在线观看| 无码囯产精品一区二区免费| 国产亚洲精品线观看动态图| 国产亚洲精品精品精品| 国产乱码精品一区二区三区麻豆 | 日本精品视频在线播放| 99热这里有精品| 久久精品国产免费| 久久久精品日本一区二区三区 | 日本精品VIDEOSSE×少妇| 动漫精品一区二区三区3d | 国产精品成人亚洲| 日韩精品福利片午夜免费观着| 亚洲精品成人网站在线播放| 久久国产精品电影| 国产精品内射后入合集| 7777精品久久久大香线蕉| 久久精品无码一区二区app| 亚洲AⅤ永久无码精品AA| 国产伦精品一区二区三区免费下载| 久久精品国产99久久久| 国产1024精品视频专区免费 | 亚洲国产精品无码专区影院| a级精品九九九大片免费看| 久久99精品免费一区二区| 国产精品成人免费观看| 国产精品无码久久久久| 久久成人国产精品一区二区| 国产精品一香蕉国产线看观看| 国产精品无码无卡无需播放器 | avtt天堂网久久精品| 国产精品喷水在线观看| 精品无人区麻豆乱码无限制| 精品丝袜国产自在线拍亚洲| 国产精品一区在线麻豆|