編輯導語:做運營的同學是不是也會頭疼預測這件事?作者分享了自己的一些做預測的小技巧,期待能與你學習交流。
大家好,我是愛學習的小熊妹。
沒錯,我又加班了~大家都知道,小熊妹最怕下班的時候被別人長長的一聲“小熊妹~~”喊住。
所以,這天我在收拾包包補個妝的時候,領導又在背后喊我了。
這次接到的任務很簡單,兩個字:預測。建預測模型,是件很復雜的事。
領導輕飄飄一句:“做個預測看看”。
不光搞得運營的小伙伴們暈頭轉向,也大量擠占我的煲劇時間。必須不能忍。
因此,今天整理了快速預測的方法,只用excel就能搞掂哦。大部分日常工作的預測,都是基于連續幾個數據,比如:
- 有今年1-5月銷量,問6月銷量咋樣?
- 有最近10周的新增用戶,問第11周有多少?
- 有過去30天的業績,問今天業績如何?
這種預測有個專業名詞:時間序列預測。
小伙伴們看到這種不要慌,即使只有幾個數,也是能建模的。首先要做的,是區分數據走勢。常見的數據走勢有三種:
- 趨勢型:連續發展的態勢。
- 躺平型:變動較少,一條直線。
- 周期型:有規律的周期性波動。
直接看圖,能一眼認出來是哪一種(如下圖)?
看個簡單的例子,某互聯網產品,2020年8月份上線,每月月底用戶量如下表。
領導希望預測2021年6月的用戶量,該如何做呢?
一、觀察形態
做出該數據的折線圖,可見這是典型的趨勢型(增長趨勢),那么就用趨勢性預測方法吧。
二、處理數據
做新的折線圖,做出該圖趨勢線。
三、選擇形狀
選擇合適的趨勢線形狀,顯示公式與R平方。
這一步是很多小伙伴們最怕的一步,因為不懂這些模型和參數呀,做錯了咋辦。
不用怕!這種幾個數的短期預測,本來就不咋準。
特別是,很多業務數據,比如用戶量、銷售額,都是跟業務努力程度掛鉤的,本身就不是數據能量化預測的,所以盡管放心大膽的做。
這里只要掌握幾個基本原則就行了:
- 選取的趨勢線,和實際走勢接近(不要實際往上走,趨勢線卻往下走)。
- R平方數值盡量接近1(習慣上不小于0.6)。如上圖所示,如果是選擇多項還可以通過調整項數,提高趨勢線的R平方,讓趨勢線更接近實際走勢形狀(如下圖)。
四、預測結果
把預測模型寫進單元格,預測結果。公式出來以后,做一些小調整,直接復制出來就好了。這里選擇了多項,參數為2的情況(如下圖)。
這里簡單解釋一下公式公式里Y就是要預測的用戶量數據(因變量),X是自變量,也就是時間,X平方就是時間*時間,對應關系如下:
其實,趨勢線擬合的原理,就是假設數據隨著時間變化而變化。因此因變量是數據指標,而自變量就是時間,以及時間的各種形態,比如時間的平方、對數、指數等等。
五、預測未來情況
這里有10個數據,要預測下個月的,就是第11個數據,時間是11,時間平方是121,代入公式,就能算出預測值(如下圖)。
這樣就完成啦!多簡單。
勤快的小伙伴,在實驗這個方法的時候,會發現:很有可能好幾種趨勢線預測出來的結果,R平方都是接近1的,這時候該怎么選呢?
如果一定要糾結這個問題(我強烈建議你不要糾結這個,我們又不專業,讓專業做算法的小哥哥糾結去)。
可以計算平均平方差(MSE),哪個方法的MSE數值小,就用哪個(如下圖)。
明顯,2次擬合的MSE值更小,就用這個啦。
到這里,就全部做完啦。多簡單。
這種趨勢擬合(又叫趨勢外推),是解決趨勢型預測的非常快捷的方法。
其優點,包括:
- 需要的數據少,幾個數也能預測。
- 能模擬曲線走勢,不會出現方向性錯誤。
- 是個模型,充分滿足領導對建模的憧憬但缺點也是很明顯的。
領導一句話就能把它打敗:“那你所說,這預測的134萬用戶,到底是哪些渠道做出來的?”
很遺憾,完全說不了。因為模型只是模擬了曲線的走勢,并不能解釋走勢是怎么來的。
用數據分析的專業術語,叫:業務可解釋程度差。這種可解釋性差,有時候會引發很嚴重的問題。
比如小伙伴們看回上一張圖,雖然2次擬合的MSE值更小,但是這個預測結果明顯有問題:本來是連續10個月上漲,這個月居然變成下跌了!
很有可能引發領導連珠炮似的問題:
- 為什么會下跌?
- 是新增少還是流失多?
- 運營不給力還是產品體驗差?
- 需要短期拉動還是長期拐點到了?
更加遺憾的是,模型本身更解釋不了這些。
所以聰(jiao)明(hua)的小伙伴,會果斷放棄二次擬合的結果,用線性擬合的結果。
因為這樣更符合領導預期(少被人噴)。
那如果領導一定要解釋到底新增的是從哪些渠道來的。該怎么辦呢?這時候可以利用杜邦分析法,對用戶量指標做拆解(如下圖)。
拆解完以后,我們一個個去找對應渠道負責的同學問:
- 親,這個A渠道,你們6月份還做不做?
- 親,如果做A渠道的話,你們準備投多少?
- 親,A渠道過去轉化率為x%,你們準備做優化不?
問了一堆問題以后,把收集到的信息,做一張匯總表,把下個月為什么是這么多人,解釋得明明白白(如下圖)。
這就是大名鼎鼎的業務預測模型,這種預測模型的可解釋程度就高多了,可以明明白白地講清楚:
- 增長來自哪里
- 為什么增長這么多
- 如果不達標,還能做什么
但是這樣的缺點也是很明顯的:
- 它沒有讓人看不懂的算法,顯得不厲害
- 需要運營的大量輸入,而運營不見得想說話
- 即使運營想說,也有可能在拍腦袋,很有可能拍得不準所以呢,世上沒有兩全法,只能看情況做預測咯。
以上就是今天小熊妹整理的知識點。還差兩個:躺平型與季節型,火鍋已經點好了,下次再寫。
作者:碼工小熊,微信公眾號:碼工小熊
本文由 @碼工小熊 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議