衡阳派盒市场营销有限公司

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

基于Spark機器學習工具來分析信用風險問題

大小:0.17 MB 人氣: 2017-10-10 需要積分:1
在本文中,我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基于DataFrame,它提供了大量的接口,幫助用戶創(chuàng)建和調(diào)優(yōu)機器學習工作流。結(jié)合dataframe使用spark.ml,能夠?qū)崿F(xiàn)模型的智能優(yōu)化,從而提升模型效果。
  分類算法
  分類算法是一類監(jiān)督式機器學習算法,它根據(jù)已知標簽的樣本(如已經(jīng)明確交易是否存在欺詐)來預測其它樣本所屬的類別(如是否屬于欺詐性的交易)。分類問題需要一個已經(jīng)標記過的數(shù)據(jù)集和預先設計好的特征,然后基于這些信息來學習給新樣本打標簽。所謂的特征即是一些“是與否”的問題。標簽就是這些問題的答案。在下面這個例子里,如果某個動物的行走姿態(tài)、游泳姿勢和叫聲都像鴨子,那么就給它打上“鴨子”的標簽。
  
  我們來看一個銀行信貸的信用風險例子:
  我們需要預測什么?
  某個人是否會按時還款這就是標簽:此人的信用度
  你用來預測的“是與否”問題或者屬性是什么?
  申請人的基本信息和社會身份信息:職業(yè),年齡,存款儲蓄,婚姻狀態(tài)等等……這些就是特征,用來構建一個分類模型,你從中提取出對分類有幫助的特征信息。
  決策樹模型
  決策樹是一種基于輸入特征來預測類別或是標簽的分類模型。決策樹的工作原理是這樣的,它在每個節(jié)點都需要計算特征在該節(jié)點的表達式值,然后基于運算結(jié)果選擇一個分支通往下一個節(jié)點。下圖展示了一種用來預測信用風險的決策樹模型。每個決策問題就是模型的一個節(jié)點,“是”或者“否”的答案是通往子節(jié)點的分支。
  問題1:賬戶余額是否大于200元?
  否問題2:當前就職時間是否超過1年?
  否不可信賴
  基于Spark機器學習工具來分析信用風險問題
  隨機森林模型
  融合學習算法結(jié)合了多個機器學習的算法,從而得到了效果更好的模型。隨機森林是分類和回歸問題中一類常用的融合學習方法。此算法基于訓練數(shù)據(jù)的不同子集構建多棵決策樹,組合成一個新的模型。預測結(jié)果是所有決策樹輸出的組合,這樣能夠減少波動,并且提高預測的準確度。對于隨機森林分類模型,每棵樹的預測結(jié)果都視為一張投票。獲得投票數(shù)最多的類別就是預測的類別。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?
      百家乐官网投注很不错| 百家乐官网扑克片礼服| 香港六合彩结果| 金冠娱乐城最新网址| 百家乐官网赌博破解| 百家乐怎样玩才会赢钱| 网上百家乐官网正规代理| 真人百家乐蓝盾娱乐网| 洛阳市| 海威百家乐官网赌博机| 凯斯网百家乐的玩法技巧和规则 | 面对面棋牌游戏| 免邮百家乐官网布桌| 大发888娱乐场备用| 百家乐官网龙虎桌布| 娱网棋牌大厅下载| 百家乐稳赢秘诀教学| 网上百家乐官网庄家有赌场优势吗| 爱玩棋牌官方下载| 新加坡百家乐规则| 玩百家乐官网五湖四海娱乐城| 视频百家乐是真是假| 百家乐官网真人游戏娱乐平台| 娱乐城送体验金38元| 威尼斯人娱乐城位置| 网络百家乐官网模拟投注| 新澳门百家乐的玩法技巧和规则| 怎么玩百家乐官网的玩法技巧和规则 | E乐博娱乐城| 澳门百家乐游戏| 阳泉市| 全讯网3344555.com| 彩票大赢家| 威尼斯人娱乐城网络博彩| 百家乐一黑到底| 永利百家乐游戏| 真人百家乐官网娱乐场| 精英百家乐官网现金网| 大发888优惠红利代码| 澳门档百家乐的玩法技巧和规则| 鑫鼎百家乐官网的玩法技巧和规则 |