金融大數(shù)據(jù)分析方法(金融大數(shù)據(jù)分析師養(yǎng)成)

金融 大數(shù)據(jù) 養(yǎng)成 分析| 2022-09-02 admin

2016年10月25日晚,清華大數(shù)據(jù)“應(yīng)用·創(chuàng)新”系列講座——“消費(fèi)金融大數(shù)據(jù)分析方法與金融大數(shù)據(jù)分析師養(yǎng)成”在清華大學(xué)FIT樓多功能廳成功舉辦,本期講座邀請(qǐng)到瑞天欣實(shí)數(shù)據(jù)科技公司創(chuàng)立人之一楊子君博士。楊子君博士持有美國(guó)南加大(USC)電子與計(jì)算機(jī)工程博士學(xué)位,以及清華大學(xué)電子工程系學(xué)士和碩士學(xué)位,之前為全球征信Experian公司首席科學(xué)家,以及FICO的高級(jí)數(shù)據(jù)科學(xué)家,她是信用風(fēng)控體系、金融產(chǎn)品和數(shù)據(jù)分析建模專(zhuān)家,擁有16年數(shù)據(jù)挖掘和分析行業(yè)經(jīng)驗(yàn)。

楊博士從“小消費(fèi)大金融”VS“小金融大消費(fèi)”的區(qū)別入手,對(duì)金融的本質(zhì)、風(fēng)險(xiǎn)量化、數(shù)據(jù)價(jià)值的衡量等進(jìn)行深入闡述,引申出金融大數(shù)據(jù)分析師的定義問(wèn)題的基本素質(zhì),作為金融數(shù)據(jù)分析師不僅要知其然還要知其所以然,為大家做出了精彩的分享。

信貸和消費(fèi)的發(fā)展

美國(guó)的信貸發(fā)展史上,最早有真正消費(fèi)透支意義的信用卡是70年代的VISA卡。他們通過(guò)測(cè)試發(fā)現(xiàn)信用卡易于賺錢(qián),就在這個(gè)實(shí)驗(yàn)的基礎(chǔ)上發(fā)了大量的卡。卡直接寄到家門(mén)口,打開(kāi)就可以刷。但不到幾個(gè)月的時(shí)間就產(chǎn)生了很多壞賬。在那之前的美國(guó)信用卡法案沒(méi)有強(qiáng)制信用調(diào)查,基本上卡寄到馬上可以刷。這次出現(xiàn)大量壞賬后美國(guó)出臺(tái)了一些信用卡的法案,規(guī)定使用信用卡的人一定要申請(qǐng),并且一定要調(diào)查信用。這是消費(fèi)金融的真正起步。

美國(guó)剛剛走出了2008年底的金融危機(jī),這是由次貸危機(jī)引起的。我們有一個(gè)衡量美國(guó)人信用風(fēng)險(xiǎn)指數(shù)的數(shù)據(jù),是通過(guò)美國(guó)三億消費(fèi)者在這十年間每一筆的信用貸款綜合而成的。每個(gè)債務(wù)是微觀(guān)性的,從這個(gè)微觀(guān)怎樣整合到經(jīng)濟(jì)的指數(shù),它的基礎(chǔ)就是金融大數(shù)據(jù)。

這次金融危機(jī)可以說(shuō)對(duì)于美國(guó)這種純信用式的消費(fèi)金融沖擊并不大。這次規(guī)律跟以往完全不一樣,以前的金融危機(jī)在房貸上并沒(méi)有造成什么影響,而是失業(yè)率帶來(lái)了其他的債務(wù)。但美國(guó)這次金融危機(jī)房貸風(fēng)險(xiǎn)非常高,純信用類(lèi)消費(fèi)的風(fēng)險(xiǎn)反而不是特別高。

美國(guó)這次金融危機(jī)導(dǎo)致了房地產(chǎn)非常大的風(fēng)險(xiǎn)。因?yàn)榇蠹覜](méi)有失業(yè)的風(fēng)險(xiǎn),手里比較有錢(qián),而杠桿率成倍的放大使之成為一個(gè)很好的投資手段。但這次杠桿率的放大比以前每一次都高,造成了比較嚴(yán)重的金融危機(jī)。美國(guó)的房貸危機(jī)可以說(shuō)化解了,也可以說(shuō)沒(méi)有完全化解,因?yàn)楫?dāng)時(shí)銀行收回的房產(chǎn)非常多,如果一下子都推向市場(chǎng)的話(huà)會(huì)引起房?jī)r(jià)斷崖式的下降,因此這些房產(chǎn)處置的非常慢,有些現(xiàn)在還存在于市場(chǎng)中。這些房產(chǎn)基本要通過(guò)10年的時(shí)間去消化,這樣才有可能化解風(fēng)險(xiǎn),這一決策的背后有很多金融大數(shù)據(jù)支撐。

反觀(guān)中國(guó),我們進(jìn)入了一個(gè)增速相對(duì)放緩的時(shí)期,我們的消費(fèi)也是大家非常關(guān)注的。這種情況下如果你成為一個(gè)數(shù)據(jù)工程師,你給中國(guó)人民銀行或者銀監(jiān)會(huì)、證監(jiān)會(huì)工作,讓你分析某一個(gè)區(qū)域的風(fēng)險(xiǎn)你會(huì)怎么入手,真正的數(shù)據(jù)在哪里,如何設(shè)計(jì),這就是我們金融大數(shù)據(jù)工程師要做的。

RetailFinance vs. Consumer Finance

消費(fèi)金融有兩個(gè)概念,一個(gè)是“小消費(fèi)大金融”,一個(gè)是“大消費(fèi)小金融”。“大消費(fèi)小金融”的模式叫做RetailFinance,零售金融。什么叫零售金融?它是來(lái)促進(jìn)零售的。它完全綁定消費(fèi)產(chǎn)品和消費(fèi)場(chǎng)景,先消費(fèi)后買(mǎi)單。也就是說(shuō)大消費(fèi)、小金融的金融屬性是為了促進(jìn)消費(fèi)。

而“小消費(fèi)大金融”的金融屬性是非常強(qiáng)的,一定要收益覆蓋風(fēng)險(xiǎn)才能達(dá)到這個(gè)盈利目標(biāo)。而在金融領(lǐng)域,執(zhí)行這種模式的機(jī)構(gòu)側(cè)重點(diǎn)也不一樣,比如說(shuō)ConsumerFinance,這種產(chǎn)品的風(fēng)險(xiǎn)很高,收益率也很高。

消費(fèi)金融的風(fēng)險(xiǎn)及盈利

消費(fèi)金融,顧名思義,金融還是我們的本質(zhì),消費(fèi)只不過(guò)是一個(gè)形容詞。那么我們一定要了解金融的本質(zhì),金融的本質(zhì)就是風(fēng)險(xiǎn)和盈利。如果不能基礎(chǔ)地分析這種金融的盈利模式和風(fēng)險(xiǎn),那么這種產(chǎn)品就有可能是龐氏騙局。

金融產(chǎn)品的設(shè)計(jì)許多事以大量的數(shù)據(jù)為基礎(chǔ)的。金融產(chǎn)品的收入就是利息加費(fèi)用,定價(jià)如果只是基礎(chǔ)定價(jià)、最簡(jiǎn)單的定價(jià),產(chǎn)品是不會(huì)有競(jìng)爭(zhēng)力的,因?yàn)榭梢杂玫蛢r(jià)競(jìng)爭(zhēng)去打垮你。而金融方面最最重要的就是基于風(fēng)險(xiǎn)和其他一些因素做綜合、區(qū)別定價(jià),這個(gè)定價(jià)比較復(fù)雜,但這樣收入才會(huì)更加有持續(xù)性、競(jìng)爭(zhēng)力。

定價(jià)和成本是分不開(kāi)的。如果是基于成本定價(jià),那么對(duì)金融產(chǎn)品來(lái)說(shuō)很關(guān)鍵的就是風(fēng)險(xiǎn)成本。如果價(jià)格不能覆蓋成本肯定是不能盈利的,尤其是在大量的消費(fèi)者產(chǎn)生批量效應(yīng)的時(shí)候。這時(shí)要保證風(fēng)險(xiǎn)的設(shè)計(jì)不僅對(duì)一個(gè)人管用,并且對(duì)一千萬(wàn)個(gè)人管用。因此成本計(jì)算中最難的還是在風(fēng)險(xiǎn)上,因?yàn)轱L(fēng)險(xiǎn)會(huì)根據(jù)市場(chǎng)、宏觀(guān)經(jīng)濟(jì)以及其它各種各樣的情況和環(huán)境改變。

但通常來(lái)說(shuō)這種定價(jià)不是簡(jiǎn)單的基于成本的,盡管風(fēng)險(xiǎn)是很核心的因素。另一個(gè)在金融定價(jià)中也很重要的要素是渠道,也就是我們通常所說(shuō)的場(chǎng)景。渠道的管理非常重要,對(duì)于不同的渠道可能有不同的達(dá)到最優(yōu)化定價(jià)的目的和手段。

消費(fèi)金融離不開(kāi)風(fēng)險(xiǎn)的精準(zhǔn)評(píng)估以及自動(dòng)化審批。很多消費(fèi)金融公司也都是愿意提倡這些的,現(xiàn)在我們可以秒貸了,甚至可以憑一張身份證放貸,這都是基于高度的自動(dòng)化。但最難的還是風(fēng)險(xiǎn)評(píng)估,有很多時(shí)候風(fēng)險(xiǎn)評(píng)估是沒(méi)有辦法做到自動(dòng)化的。比如說(shuō)風(fēng)險(xiǎn)投資公司,如果它能夠自動(dòng)識(shí)別這些風(fēng)險(xiǎn)何必要人呢?所以金融大數(shù)據(jù)工程師最需要知道的第一點(diǎn)是大數(shù)據(jù)的邊界在哪里,什么情況下我們要通過(guò)大數(shù)據(jù)分析、分析風(fēng)險(xiǎn)精準(zhǔn)到什么程度、怎么應(yīng)用,不要把大數(shù)據(jù)夸大化;第二點(diǎn)是數(shù)據(jù)是什么,我們知道數(shù)據(jù)是不斷在變的,大數(shù)據(jù)在不斷地積累迭代,能否形成體系架構(gòu)來(lái)迭代提高,這是關(guān)鍵。

消費(fèi)金融大數(shù)據(jù)與數(shù)據(jù)工程師

我們認(rèn)為跟消費(fèi)金融相關(guān)的數(shù)據(jù)包括消費(fèi)人群信用數(shù)據(jù)、經(jīng)營(yíng)人群信用數(shù)據(jù)、收入數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、抵押數(shù)據(jù)。

消費(fèi)行為的深入帶來(lái)的是一代人消費(fèi)觀(guān)念的轉(zhuǎn)變。這些年貨幣發(fā)行量還是很高,物價(jià)上升也比較可觀(guān),新一代年輕人如果還沒(méi)有轉(zhuǎn)變理念去銀行借款的話(huà),可能他未來(lái)的資產(chǎn)永遠(yuǎn)也趕不上。而這個(gè)理念已經(jīng)開(kāi)始轉(zhuǎn)變,中國(guó)逐步走向消費(fèi)金融為主的社會(huì),消費(fèi)金融大數(shù)據(jù)未來(lái)應(yīng)用的場(chǎng)景和領(lǐng)域是非常寬廣的,需要更多的金融領(lǐng)域的數(shù)據(jù)工程師,可是現(xiàn)在的儲(chǔ)備還是非常少的,因?yàn)樗奶厥庑浴?/p>

金融機(jī)構(gòu)其實(shí)看不到數(shù)據(jù),他們關(guān)注的是盈利,是如何選客戶(hù)和營(yíng)銷(xiāo)。因此數(shù)據(jù)產(chǎn)品一定要返回到生產(chǎn)的流程里面,這樣才能產(chǎn)生價(jià)值。

這樣的大數(shù)據(jù)應(yīng)用有防范欺詐風(fēng)險(xiǎn)的,防范不同的欺詐所要求的數(shù)據(jù)都是不同的,如果我們不能在數(shù)據(jù)采集、分析的過(guò)程中把它區(qū)分開(kāi)來(lái),數(shù)據(jù)產(chǎn)品是沒(méi)有辦法使用的。

另外一個(gè)風(fēng)險(xiǎn)也是金融機(jī)構(gòu)很關(guān)注的,叫做宏觀(guān)市場(chǎng)的風(fēng)險(xiǎn)。每個(gè)人都離不開(kāi)社會(huì)離不開(kāi)這種大的經(jīng)濟(jì)環(huán)境,我們現(xiàn)在最關(guān)注的可能是未來(lái)得房?jī)r(jià)會(huì)不會(huì)跌、跌多少,我們的金融資產(chǎn)受到的沖擊是多少,這就是經(jīng)濟(jì)環(huán)境的風(fēng)險(xiǎn)。通常我們認(rèn)為經(jīng)濟(jì)環(huán)境的風(fēng)險(xiǎn)從金融大數(shù)據(jù)的角度來(lái)說(shuō)更加注重從微觀(guān)的數(shù)據(jù)整合到宏觀(guān)的維度,它的準(zhǔn)確度會(huì)非常高。在宏觀(guān)經(jīng)濟(jì)領(lǐng)域,像穆迪、標(biāo)普這種征信公司和很多其它金融機(jī)構(gòu)都會(huì)聯(lián)手做很多事情,比如說(shuō)金融危機(jī)的時(shí)候美國(guó)經(jīng)濟(jì)機(jī)構(gòu)做了很多宏觀(guān)經(jīng)濟(jì)指數(shù),這能夠有指導(dǎo)性的作用,這也是金融大數(shù)據(jù)領(lǐng)域一個(gè)非常重要的應(yīng)用。

大數(shù)據(jù)中二八原則是無(wú)處不在的,20%的數(shù)據(jù)能夠提供80%的價(jià)值。數(shù)據(jù)工程師主要的工作不是到處采集數(shù)據(jù),而是要知道怎么樣去找20%的有價(jià)值的數(shù)據(jù)。數(shù)據(jù)具有動(dòng)態(tài)性,我們?cè)诓煌瑧?yīng)用里面發(fā)現(xiàn)這20%的數(shù)據(jù)是隨之而變的,它在不同的場(chǎng)景有不同的價(jià)值。

同樣的數(shù)據(jù)在不同的應(yīng)用是不一樣的,在同一個(gè)應(yīng)用里面在不同的情況下它也不一樣。最后數(shù)據(jù)工程師可能會(huì)產(chǎn)生統(tǒng)計(jì)模型,用以描述不同隨機(jī)變量之間如何關(guān)聯(lián),例如行為的不同隨機(jī)變量。但只有關(guān)聯(lián)性并不夠。

舉一個(gè)非常經(jīng)典的啤酒和尿布的例子。

Super bowl舉行的時(shí)候,一些人把尿布和啤酒放在一起賣(mài),會(huì)發(fā)現(xiàn)尿布和啤酒的銷(xiāo)售量都提高了。統(tǒng)計(jì)模型發(fā)現(xiàn)了這兩者的關(guān)聯(lián)性,但這并不意味著這樣的搭配銷(xiāo)售具有普適性。因?yàn)檫@一現(xiàn)象的本質(zhì)是這個(gè)區(qū)域里正好有一些20多歲到30多歲、愛(ài)看球類(lèi)比賽的年輕人,并且他們都有孩子,出來(lái)買(mǎi)啤酒時(shí)可以正好買(mǎi)尿布。因此數(shù)據(jù)工程師不能滿(mǎn)足于表面現(xiàn)象,而要發(fā)掘本質(zhì)原因。數(shù)據(jù)工程師要能在玩兒數(shù)據(jù)的過(guò)程中增長(zhǎng)自己的知識(shí),知其然知其所以然,這樣你做的產(chǎn)品才可能會(huì)更有效。因此大數(shù)據(jù)并不是盲目地告訴你這個(gè)東西是什么,而是要從這個(gè)數(shù)據(jù)里找到規(guī)律,這是知識(shí),是顛撲不破的真理,這是一個(gè)合格優(yōu)秀的數(shù)據(jù)工程師需要做到的。

總結(jié)來(lái)說(shuō),金融大數(shù)據(jù)工程師,只是一個(gè)工程師還是遠(yuǎn)遠(yuǎn)不夠的。他首先要對(duì)金融有所了解,其次要分析數(shù)據(jù)背后的本質(zhì),哪里風(fēng)險(xiǎn)高,哪里風(fēng)控做的不好,最后形成決策。舉例來(lái)說(shuō),中等風(fēng)險(xiǎn)的人群實(shí)際上是很能盈利的人群,因?yàn)樗幸稽c(diǎn)風(fēng)險(xiǎn),但又不是太高。那么這些人的風(fēng)險(xiǎn)如何管理,如何定價(jià)就是金融大數(shù)據(jù)工程師要做的。數(shù)據(jù)清理、分析你發(fā)現(xiàn)了什么、總結(jié)出什么規(guī)律、這個(gè)規(guī)律怎么提升、怎么樣迭代,這是數(shù)據(jù)工程師最重要的五個(gè)核心。此外數(shù)據(jù)工程師還需要藝術(shù)思維和匠人精神,要科學(xué)性和藝術(shù)性相結(jié)合。

Q&A

提問(wèn)1:第一個(gè)問(wèn)題是,我發(fā)現(xiàn)數(shù)據(jù)要預(yù)測(cè)時(shí)面臨的最大的困難是未來(lái)變化特別快,數(shù)據(jù)無(wú)法描述未來(lái),比如英國(guó)脫歐和負(fù)利率等,場(chǎng)景非常難以描述。我是做推特分析的,語(yǔ)言變化特別快,怎么樣去處理這樣的問(wèn)題。第二個(gè)是,在具體使用技術(shù)的時(shí)候,剛開(kāi)始我們就是做大數(shù)據(jù)加加減減而已,然后我們可能再去做模型,甚至做知識(shí)圖譜,您怎么來(lái)評(píng)價(jià)這些技術(shù)本身對(duì)整個(gè)金融大數(shù)據(jù)的推動(dòng)也好,它的局限性。

楊子君:大數(shù)據(jù)領(lǐng)域最重要的不是尋找正確的答案,而是尋找正確的問(wèn)題,就是大數(shù)據(jù)到底能幫我們做什么。像你說(shuō)的推特,第一個(gè)問(wèn)題是,是不是大數(shù)據(jù)能解決的,也許肯定是,你是最有權(quán)利有答案的。如果確實(shí)是大數(shù)據(jù)能解決的,現(xiàn)在的大數(shù)據(jù)是不是足夠我解決這個(gè)問(wèn)題,如果不能足夠解決這個(gè)問(wèn)題,很可能的情況下是我的認(rèn)知不夠,也可能是我的數(shù)據(jù)不夠。所以我覺(jué)得,在大數(shù)據(jù)領(lǐng)域,對(duì)于數(shù)據(jù)工程師或者設(shè)計(jì)師來(lái)說(shuō)特別重要的是,要會(huì)問(wèn)正確的問(wèn)題。

第二個(gè)問(wèn)題是,是不是現(xiàn)在大數(shù)據(jù)的環(huán)境能解決。我現(xiàn)在覺(jué)得這是最重要的,我們的數(shù)據(jù)分析師、數(shù)據(jù)工程師和產(chǎn)品方向,都是想解決“正確的問(wèn)題”。金融有一個(gè)好處,就是提供一種服務(wù)時(shí),有數(shù)據(jù)不對(duì)稱(chēng)或者有道岔的情況,我可以通過(guò)提供這個(gè)服務(wù)去采集,這個(gè)過(guò)程是比較有意義的。就是說(shuō)我可能不知道,但是我可以通過(guò)這種金融服務(wù)去采集。所以我覺(jué)得消費(fèi)金融公司也好,銀行也好,它一定要把這個(gè)理念灌輸出去才能不斷提升。

提問(wèn)2:未來(lái)哪一種社交數(shù)據(jù)會(huì)起到越來(lái)越大的作用呢?

楊子君:從信用風(fēng)險(xiǎn)的角度上來(lái)說(shuō),社交數(shù)據(jù)的權(quán)重不高。也就是說(shuō)這個(gè)人去拿貸款,還不還錢(qián),其實(shí)受周?chē)挠绊懯切U弱的,這是他核心的本質(zhì)的問(wèn)題。如果這個(gè)人的信用受周?chē)绊懞艽蟮脑?huà),可以說(shuō)這種信用是很不穩(wěn)定的。實(shí)際上他并不是因?yàn)樯缃粩?shù)據(jù),他信用才不穩(wěn)定的,而是因?yàn)閷?shí)際上他本身與社交圈子里有一種共性他才會(huì)去社交。而我不想找這種共性,因?yàn)檫@種共性不是核心的,我要找的是核心規(guī)律,核心的這些人可能才會(huì)有幫助。但是在市場(chǎng)營(yíng)銷(xiāo)上,同樣是社交數(shù)據(jù),體現(xiàn)的價(jià)值不一樣。一個(gè)人的購(gòu)買(mǎi)行為,比較受圈子人的影響,因此這時(shí)社交數(shù)據(jù)很重要?;氐叫庞蔑L(fēng)險(xiǎn)這塊,社交數(shù)據(jù)不是完全沒(méi)有用,如果對(duì)你來(lái)說(shuō)獲取的非常容易,你可以做一些篩選。但是如果你說(shuō),我拿社交數(shù)據(jù)去放貸,那這個(gè)風(fēng)險(xiǎn)誰(shuí)來(lái)承擔(dān)?如果這個(gè)數(shù)據(jù)全都是非量化的,這就造成了很多操作風(fēng)險(xiǎn),因?yàn)檎f(shuō)不清楚是誰(shuí)的風(fēng)險(xiǎn)、由誰(shuí)來(lái)負(fù)責(zé)。

提問(wèn)3:中國(guó)的征信基本上是空白,而且是比較亂。你認(rèn)為中國(guó)的征信什么時(shí)候能趕上美國(guó)的成熟征信體系的水平?

楊子君:其實(shí)現(xiàn)在中國(guó)的征信不是一個(gè)空白,中國(guó)人民銀行征信中心是2004年就開(kāi)始建的?,F(xiàn)在中國(guó)有征信報(bào)告的,而且信息挺豐富的,差不多有3億多人。我們發(fā)現(xiàn)這3億多人,債務(wù)已經(jīng)很高了,而且信用卡都有很多張。這些人更多是集中在北上廣深,還有一些沿海城市,以及一些內(nèi)陸城市。因此我國(guó)的征信有構(gòu)架、有很多數(shù)據(jù),只是