隨著大型語言模型使用的普遍,人們逐漸發現LLM在不同領域的卓越表現,LLM又有一種能力被發現,那就是「財務報表分析」的能力,可預見的未來,銀行徵信作業可以顯著提升效率,大幅縮短作業時間。
大綱
大型語言模型(LLM)的能力
大型語言模型(LLM)展現出了許多令人印象深刻的能力,包括
- 多語翻譯能力 可以處理多種不同語言的文本資訊,具備跨語言理解和生成能力。
- 知識存儲和問答能力 LLM在預訓練時,吸收了大量的結構化和非結構化知識,可以就各個領域的問題提供相關答覆。
- 分析和推理能力 能夠對文本資訊進行邏輯分析、推理、概括總結等高階語言理解任務。
- 創作和寫作能力 生成詩歌、小說、新聞報導、論文、演講稿、代碼等多種形式的創作內容。
- 遷移學習和少樣本學習能力 能夠快速適應新的任務,透過少量資料或指令就可以習得新能力。
- 算術和計算能力 能夠理解和執行文本中的算術、數學運算式和計算。
- 多模態處理能力 可以通過訓練學習理解和生成圖像、音訊等多種模態資訊。
在上述多項的能力的基礎下,LLM對於財務分析的能力如何? 若LLM的財務分析能力優於人類,對於最常使用財務報表進行各項決策的金融業會有重大的影響,例如,投資決策、徵授信作業、理財規劃等。
三位芝加哥大學商學院學者 Alex Kim、Maximilian Muhn 和 Valeri Nikolaev,2024年5月21日發表的一篇論文(Financial Statement Analysis with Large Language Models),可以找到答案。
先說結論: LLM財報分析的能力如何?
LLM 可在各項與財務報表數字相關的決策中發揮核心作用,包括在「收益預測能力」、「對公司未來業績的敘述性見解」、「交易策略的效果」等方面表現都不錯。
LLM的收益預測能力優於人類分析師
在沒有任何敘述或行業特定訊息下,LLM 在預測收益變化的能力優於人類財務分析師。
LLM與其他機器學習算法預測力比較
LLM 的預測精度與經過嚴格訓練的最先進 ML 模型(ANN)的性能相當。
LLM與人類分析師是互補的
GPT 和人類分析師是互補的,而不是替代的。具體來說,當分析師預計會表現出偏見和分歧時,大語言模型比人類分析師具有更大的優勢,這表明人工智慧模型可以在人類表現不佳時更好地幫助他們。
LLM可產出公司未來業績有用的見解
LLM可產生有關公司未來業績有用的敘述性見解。這使得該模型在預測未來獲利方向方面優於專業的人類分析師。
LLM交易策略可產生較高的Sharpe Ratios及Alphas
基於 GPT 預測的交易策略比基於其他模型的策略產生更高的夏普比率(Sharpe Ratios )和阿爾法( Alphas)。
何謂財務報表分析?
財務報表分析內容
財務報表分析(Financial Statement Analysis)是指通過研究企業的財務報表資料,評估企業的財務狀況、經營成果、現金流量等,從而瞭解企業的盈利能力、償債能力、營運能力和發展前景。
財務報表分析的主要內容包括:
- 分析資產負債表,評估企業的資產結構、資本結構、流動性等。
- 分析損益表,評估企業的收入狀況、成本費用水準、利潤率等。
- 分析現金流量表,評估企業的現金流入流出情況。
- 運用財務比率分析,計算並分析各種財務比率指標,如流動比率、速動比率、資產負債率、毛利率、淨利率等。
- 結合行業對標資料,對企業的財務資料進行橫向和縱向比較分析。
- 評估企業面臨的財務風險,如經營風險、財務風險等。
財務報表分析可為企業內外部決策者提供重要資訊支援,是企業進行財務管理、融資決策、投資決策的基礎。通過對財務資料的深入解讀,可以較全面地瞭解企業的財務健康狀況。
企業徵信作業的主角-財務報表分析
銀行的企業徵信作業,通常包括蒐集企業基本資料、調查企業資信情況、分析財務報表、實地徵信調查、查詢是否合規情況、彙整資訊完成徵信報告,其中財務報表分析佔據很重要的部分。
銀行企業徵信作業的內容包括以下幾個主要方面:
- 蒐集企業基本資料 包括企業名稱、地址、法人代表、註冊資本、經營範圍、股權結構等基本資訊。
- 調查企業資信狀況 了解企業的信用記錄、償債能力、逾期情況等,確認企業的資信水準。
- 分析財務報表 審核企業近年的財務報表,包括資產負債表、損益表、現金流量表等,評估企業的經營狀況、獲利能力、償債能力等。
- 實地調查營運狀況 派員實地走訪企業,了解企業的實際經營場所、員工人數、生產線情況等,核實企業資料真實性。
- 查詢相關政府部門 向工商、稅務、環保等相關政府部門查詢企業的合法合規情況,是否存在重大違規行為。
- 核查擔保品價值 如果企業提供擔保品,銀行會對擔保品進行評估,確定其價值及變現能力。
- 整合資訊提出報告 最終將蒐集到的各項訊息整合,形成企業徵信報告,作為銀行批核貸款的重要參考依據。
研究架構
LLM進行財報分析的研究架構
研究設計
匿名化和標準化公司財務報表
為了防止大型語言模型知道公司名稱而從訓練記憶庫中找到答案。因此該研究在清理資料時刪除資產負債表和損益表中的公司名稱,並用標籤替換年份,例如 t 和 t-1。
此外,使用 Capital IQ 平衡模型(balancing model)的方式標準化資產負債表和損益表的格式。 這種方法可確保所有公司年度的財務報表格式都相同,讓LLM不知道其分析對應的是哪家公司,甚至不知道是哪個時期。
設計提示
指示模型執行財務報表分析,使用兩種主要的提示類型**:**「簡單」提示指示 LLM 分析公司的兩份財務報表並確定未來收益的方向,而「鏈式思維提示」則將問題分解為模仿人類分析師的步驟。
- 簡單提示: 僅提供標準化和匿名的資產負債表和損益表,並要求模型預測下一期收益是增加還是減少
- 思維鏈(CoT)提示: 指示模型扮演財務分析師的角色,其任務是執行財務報表分析。 任務說明如下:
(1) 識別某些財務報表項目中的顯著變化
(2) 計算關鍵財務比率,而不明確限制需要計算的比率集。 計算比率時,提示模型首先說明公式,然後執行簡單的計算
(3) 提供計算出的比率的經濟解釋
(4)使用基本的定量信息和經濟解釋,指示模型預測下一期收益可能會增加還是減少。 除了方向之外,還指示模型生成一段闡述其基本原理的段落。
總體而言,Chain of Thought(CoT)旨在複製人類分析師如何分析財務報表以確定公司的業績是否可持續。
何謂思維鏈(CoT, Chain of Thought) “Chain of thought”這個詞指的是一連串邏輯推理和思考過程,用來解決問題或作出決策。這種思維鏈由多個步驟組成,每一個步驟都是基於前一步的結果,依次遞推下去,最終得到問題的解答或結論。CoT在AI Agent的過程扮演很重要的角色。
“Chain of thought”通常包含以下幾個環節:
- 問題理解 – 清晰理解所要解決的問題,並識別關鍵信息。
- 建立假設 – 根據已知信息提出初步猜想或假設。
- 推理論證 – 使用邏輯推理、分析和演繹,證明或反駁假設,獲得新的結論。
- 信息補充 – 如果推理過程中需要更多信息,則尋找相關資料作為輔助。
- 重新評估 – 根據新獲得的結論或信息,調整和完善最初的假設。
- 持續迭代 – 重複上述步驟,形成一個連貫的邏輯鏈,直到獲得最終解決方案或結論。
在解決複雜問題時,”Chain of thought”有助於將思路清晰化、條理化,避免思維紊亂偏離主題。透過分步驟推理,可以減少中間環節遺漏,提高解決問題的準確性和可信度。這種思考方式既適用於日常生活,也常被應用於科學研究、工程設計等領域。
資料源
- 該研究使用了 Compustat 從 1968 年到 2021 年財政年度的整個年度財務數據,以及 2022 年的數據來預測 2023 年財報年度的收益。以測試使用大型語言模型進行財務報表分析時模型在 GPT 訓練資料範圍之外的表現的穩健性。
- GPT-4-Turbo 預訓練的資料期截止日是 2023 年 4 月模型無法看到 2024 年 3 月下旬發布的 2023 年的盈利數據。
- 所蒐集的每分財務報表需符合: 總資產需有值;年末資產價值超過 100 萬美元;年末股價超過每股 1 美元;資產需等於負債+業主權益;財報日期為 12 月 31 日等條件,篩選下來,總共蒐集來自15,401家公司的150,678 份財報,
- 為了評估「分析師」預測公司未來收益的能力,該研究使用了來自 IBES 的數據,該數據始於 1983 年。該研究特別側重於分析師在公司公佈上一年度收益後一個月、三個月和六個月發布的預測。為了確保分析的穩健性,該研究僅包含至少有三位分析師發布預測的公司年度數據,從而可以計算預測收益增長或減少的中位數。
Compustat資料庫 1. Compustat是一個企業財務分析資料庫,主要收錄北美和全球上市公司的財務資料。 2. 資料庫內容包括 (1)北美版:收錄自1979年美國和加拿大地區共32,090多家的公司資料,其中約9,330多家公司屬於公開交易的上市公司,另外也保留近22,760家「停止交易(下市)公司」的資料 (2)全球版:提供近20年3,180多家美加地區上市公司之財務報表與市場資料 3.收錄損益表、資產負債表、現金流量表等等,以及超過2000個數據項目;覆蓋99%全球市值,提供全球公司、市場和人員資訊 Compustat是一個功能強大且廣泛的企業財務分析資料庫,適合進行資產分析、計量分析、競爭者分析、公司資本結構、財務比率、R&D、資本及存貨投資、股市報酬、及資本市場效率等主題的研究。
IBES資料庫說明 IBES的全名是“機構經紀人估計系統”(Institutional Brokers’Estimate System),該資料庫是分析師詳細資訊、共識、可比較實際數據、匯總數據、公司指導數據和進階分析的標準。 超過 950 家公司(從全球最大的公司到區域和本地經紀商)提供數據給IBES,遍布 90 多個已開發市場和新興市場,個人分析師總數超過 19,000 名。超過 60,000 家公司的數據可追溯到 1976 年(北美)和 1987 年(其他市場)。
研究結果
LLM與人類分析師預測能力比較
測試GPT與人類分析師在預測企業未來收益的方向(預測下一年度EPS會增加或减少)正確性比較。若GPT經過思維鏈(CoT)的提示,在「正確率」及「F1 Score」的表現都優於人類分析師
- Naïve:基於當前EPS與前期EPS的比較(表示當年期的EPS走勢與下一年度相同)
- **分析師1m(3m,6m):**在盈利發布後一個月(三個月,六個月)發布的分析師預測中位數。
- GPT(無CoT) :表示GPT在沒有任何思維鏈提示的情況下的預測。僅向模型提供結構化和匿名的財務報表信息。
- GPT(有CoT) : 表示在財務報表信息的基礎上使用詳細思維鏈提示的模型。
LLM與其他機器學習算法的預測力比較
評估GPT模型(尤其是運用了思維鏈提示的GPT)相對於傳統機器學習方法(如邏輯回歸和神經網絡)在財務預測任務上的表現,由下圖可知,GPT(with CoT)的表現優於羅吉斯回歸,並與ANN(人工神經網絡)相當。
*預測指標遵循Ou和Penman (1989)的結構,使用該研究提出的59個財務預測指標。
GPT投資組合報酬率與市場報酬率比較
GPT的「多頭」投資組合的表現大幅優於空頭投資組合。
GPT的「多空」投資組合的表現優於市場投資組合,即使市場累積報酬為負,GPT的多空投資組合也優於市場投資組合。
做多(Long)策略:
1.選擇被預測為盈利“增加”,且幅度為“中等”或“大”的股票。
2.從排名最高的股票中,選擇該財報年度可用股票總數10%的股票做多。
做空(Short)策略:
1.選擇被預測為盈利“減少”,且幅度為“中等”或“大”的股票。
2.從排名最低的股票中,選擇該財報年度可用股票總數10%的股票做空。
GPT的Sharpe Ratios及Alphas
- 在等權重投資組合中,GPT 的表現(3.36)相對優於ANN (2.54)。兩者都比Logit (2.05)表現佳。
- 在價值加權投資組合中, ANN 的表現(1.79)相對優於 GPT (1.47)。兩者都比Logit (0.81)表現佳。
結論
截至目前為止,大型語言模型(LLM)的能力還有很多地方等待各界的持續挖掘與應用,「財務報表分析」只是LLM能力的一小部分,若金融機構能激發創意,努力嘗試,相信在作業流程、客戶服務、業務推展、產品設計、 投資理財、稽核作業、風險管理等方面都能有LLM大展身手的地方。