ChatGPT 及其他人工智慧廠商已取得了一些令人印象深刻的成就——例如它們可以通過律師資格考試並幫助解決醫療案件。但這些人工智慧工具現在準備好取代財務顧問了嗎?
大綱
人工智慧(AI)的優勢
人工智慧顧問的優勢乍一看是顯而易見的。專業的財務建議成本高昂,而且許多美國人都無法承受。人工智慧可以降低這些成本,併為每個人提供全天候智慧、個人化的指導。人工智慧還可以擴大顧問所涵蓋的財務決策範圍,並提供更全面的建議。如今,人們不僅需要説明將ETF混合到投資組合中,他們還必須在儲蓄、保險和債務管理等方面做出艱難的選擇。
但是,雖然人工智慧可以像財務顧問一樣做一些事情,有時甚至可以表現得更好,但它還不能取代人類顧問。(理專暫時還可以偷笑)
卓越理專的五大特質
1.去偏見
理財顧問提供的主要服務之一是消除偏見,或幫助客戶避免由行為傾向引起的代價高昂的錯誤。考慮人們過分重視短期損失和過於保守投資的傾向,即使他們的投資期限是 30 年或更長時間。在一項研究中,看到一年投資回報圖表的人將投資組合的40%分配給股票,而那些看到長期圖表的人將投資組合的90%分配給股票——儘管兩組投資者都是長期投資。
一個好的顧問可以幫助人們做出符合其長期目標的財務決策。它們引導客戶遠離那些短期圖表,或手機上不斷出現的最新市場波動,並幫助客戶選擇適合其實際時間範圍的投資。
不幸的是,加拿大皇后大學的陳洋領導的一篇工作論文表明,ChatGPT表現出許多與優秀顧問試圖最小化相同的行為傾向和偏見。例如,人類在遭受損失后傾向於選擇風險更高的選擇,因為他們試圖實現收支平衡。在拉斯維加斯,這被稱為加倍努力。ChatGPT 也有同樣的傾向,這可能會導致代價高昂的錯誤。如果投資者在加密貨幣崩盤后損失了很多錢,ChatGPT 可能會認為他們應該購買更多的加密貨幣,加倍投資風險資產。
而且情況變得更糟。這是因為人工智慧工具也非常自信。這並不是說他們有時弄錯了,而是他們經常認為自己是對的。這可能會放大現有的偏見,因為軟體不僅無法自我糾正,而且會給人類客戶一種虛假的安全感。
Yang Chen的論文: A Manager and an AI Walk into a Bar: Does ChatGPT Make Biased Decisions Like We Do? 經理和人工智慧走進酒吧:ChatGPT 會像我們一樣做出有偏見的決定嗎?
這篇2023年5月25日修訂發布的研究報告,摘要如下:
ChatGPT 等大型語言模型 (LLM) 最近引起了全球關注,有望顛覆和徹底改變業務運營。隨著管理者越來越依賴人工智慧 (AI) 技術,迫切需要瞭解人工智慧決策是否存在系統性偏見,因為他們是用人類數據和反饋訓練的,而且兩者都可能存在高度偏見。本文測試了人類中常見的與運營管理特別相關的各種行為偏差。
研究發現:
1.儘管 ChatGPT 在具有顯性數學/概率性質的問題上比人類的偏見要小得多,也更準確,
2.但它也表現出人類所擁有的許多偏見,尤其是當問題複雜、模棱兩可和隱含時。
3.它可能會受到連詞偏差和概率加權的影響。
4.它的偏好可能會受到框架、預期後悔的顯著性和參考選擇的影響。
5.ChatGPT 還難以處理模棱兩可的資訊,並評估風險的方式與人類不同。
6.它還可能產生類似於人類使用的啟發式反應,並且容易出現確認偏差。
7.更糟糕的是,ChatGPT非常自信。我們的研究描述了 ChatGPT 在決策中的行為,並展示了研究人員和企業在開發和使用人工智慧進行業務運營時需要考慮潛在的人工智慧行為偏差。
為了提高人工智慧顧問的表現,我們需要創建元規則——這是管理其他規則的規則——以幫助軟體克服這些偏見。一種可能的方法是讓人工智慧在建議特定的財務行動時,也審查該行動可能是錯誤的原因。這就像內部審計,迫使軟體考慮它可能遺漏了什麼。
元規則(Metarules):用以稱呼那些決定或選擇規則的規則,位於更高和更抽象層次的規則。
由於這些 AI 工具的學習方式,元規則通常是必要的。例如在大型語言模型(LLM)中,從互聯網中提取的大量文本數據集上訓練。因為互聯網經常以未經過濾的形式代表人性,所以該軟體反映了我們許多較小的衝動和傾向。
好消息是,通過應用元規則,人工智慧幾乎可以肯定比人類更容易消除偏見。雖然我們不能直接編輯在腦海中運行的軟體,但我們可以修改我們的人工智慧模型。
2.同理心(Empathy)
理財顧問的另一個關鍵素質是同理心(Empathy)。考慮一個對市場波動感到緊張和焦慮的投資者。研究表明,投資者的背景情緒會對他們的財務決策產生強大的影響,包括恐懼驅動、規避風險和憤怒導致更多的冒險行為。一個好的顧問的作用是在市場動蕩期間安撫和支援,這樣恐懼和其他情緒就不會損害我們的長期財務前景。
好消息是 ChatGPT 擅長同理心。最近的一項研究比較了 ChatGPT 和人類醫生對在線論壇上發佈的真實患者問題的回答。然後,由醫療保健專業人員組成的小組在資訊品質和同理心方面對答案進行了評估。
結果是人工智慧的巨大勝利。醫療保健專業人員說 ChatGPT 的回答提供了「良好或非常好」資訊的可能性幾乎是其四倍。但他們說 ChatGPT 善解人意的可能性幾乎是 10 倍。具體來說,45%的AI反應被評為同理心或非常同理心,而醫生的反應只有4.6%。
這些結果表明,人工智慧已經可以很好地執行一些關鍵的財務顧問任務。雖然顧問並不總是有時間或能力在市場調整期間讓客戶放心,但人工智慧技術可以幫助他們變得更加人性化,或者至少擴展他們的人性。例如,下次市場大幅下跌時,顧問不必局限於給最富有的客戶打幾個電話。相反,人工智慧可以為每個客戶提供量身定製的同理心回應。例如,如果客戶每天檢查他們的投資組合,人工智慧可以提供有關長期市場趨勢的令人放心的數據,以及市場時機的代價高昂的影響。
這是一篇2023年4月28日於美國醫學協會發表的期刊文章: Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum(比較醫生和人工智慧聊天機器人對發佈到公共社交媒體論壇的患者問題的回答)
1.研究目的:
人工智慧聊天機器人助手能否對患者問題提供與醫生撰寫的問題具有相當品質和同理心的回答
2.研究發現:
在這項橫斷面研究中,從社交媒體論壇中隨機抽取了 195 個患者問題,一組有執照的醫療保健專業人員比較了醫生和聊天機器人對患者在公共社交媒體論壇上公開提出的問題的回答。聊天機器人的回答比醫生的回答更受歡迎,並且在品質和同理心方面的評分明顯更高。
3.實驗設計
在這項橫斷面研究中,使用來自公共社交媒體論壇(Reddit 的 r/AskDocs)的公共且不可識別的問題資料庫從 2022 年 10 月開始隨機抽取 195 次交流,其中一位經過驗證的醫生回答了公開問題。聊天機器人的回復是通過在 2022 年 12 月 22 日和 23 日的新會話中輸入原始問題(會話中沒有提出過先前的問題)來生成的。原始問題以及匿名和隨機排序的醫生和聊天機器人的回答由一組有執照的醫療保健專業人員一式三份進行評估。評估者選擇“哪種反應更好”,並判斷“所提供信息的品質”(非常差、差、可接受、良好或非常好)和“提供的同理心或床邊方式”(不同理心、略帶同理心、中度同理心、同理心和非常同理心)。平均結果按 1 到 5 的等級排序,並在聊天機器人和醫生之間進行比較。
4.分析結果
在 195 個問題和回答中,在 585 個評估中,有 78.6%(95% CI,75.0%-81.8%)的評估者更喜歡聊天機器人的回答而不是醫生的回答。平均 (IQR) 醫生的回答明顯短於聊天機器人的回答(52 [17-62] 字對 211 [168-245] 字; t = 25.4;P < .001)。聊天機器人回復的質量明顯高於醫生回復(t = 13.3;P < .001)。例如,聊天機器人的回答被評為良好或品質非常好(≥4)的比例高於醫生(聊天機器人:78.5%,95%CI,72.3%-84.1%;醫生:22.1%,95%CI,16.4%-28.2%;))。這相當於聊天機器人良好或非常高品質的回復的發生率高出 3.6 倍。聊天機器人的回應也比醫生的反應更能感同身受(t = 18.9;P < .001)。聊天機器人被評為同理心或非常同理心(≥4)的回答比例高於醫生(醫生:4.6%,95%CI,2.1%-7.7%;聊天機器人:45.1%,95%CI,38.5%-51.8%;醫生:4.6%,95%CI,2.1%-7.7%)。這相當於聊天機器人的同理心或非常同理心反應的流行率高出9.8倍。
3.準確性
理財顧問的另一個重要品質是正確對待事實。即使人工智慧可以消除偏見,它仍然需要基於對投資、通貨膨脹、稅收等的準確表示。
更多壞消息:機器人目前非常不可靠,並且犯了很多錯誤。例如,當我要求一個領先的人工智慧工具説明我在Vanguard和富達納斯達克指數基金之間進行選擇時,它提出了一個非常令人印象深刻的答案,重點是它們的長期業績和費用比率。唯一的問題是,它使用了錯誤的基金作為分析的基礎,使用了先鋒標準普爾500指數基金和富達房地產基金的數據。它既高度自信又完全不準確。
這個問題在很大程度上可以通過外掛程式或外部工具來解決,人工智慧需要這些工具來補充其已知的弱點。當你問谷歌一個數學問題時,它會在答案旁邊拉出一個計算機;人工智慧工具也應該做同樣的事情。除了使用計算機外,人工智慧顧問還應該與可靠的金融資料庫(如晨星)集成,以確保其模型和建議基於金融世界的準確表示。
“人們經常認為語言模型是任何問題的完整解決方案,而不是智慧應用程式中的元件,”Microsoft Research的高級首席研究員Dan Goldstein說,他專門研究人工智慧和人機交互。“金融世界的優化系統和龐大數據存儲不會被人工智慧取代,它們將被人工智慧所召喚。
4.最佳利益
理財顧問必須以客戶的最佳利益行事。比如說,他們不能僅僅因為能賺到更多的錢就推薦更昂貴的基金類別。因此,從理論上講,人工智慧應該不太可能陷入利益衝突。與人類不同,ChatGPT 並沒有試圖最大化其收入。
但這只是理論——我們真的不知道人工智慧的表現如何。一種可能性是它將與人類有類似的問題。例如,一項研究發現,投資者更有可能購買營銷費用較高的共同基金,即使這些費用會因更高的費用而降低其整體業績。雖然這些基金可能是更糟糕的投資,但消費者會受到其廣告的影響。人工智慧可能會落入同樣的陷阱,因為在廣告上花費更多的基金可能會在人工智慧資料庫中出現更大的問題。
鑒於這種不確定性,人工智慧架構師必須審核數位顧問的建議。這類似於元規則,只是它不是消除偏見,而是專注於消除利益衝突。
幸運的是,人工智慧可能比人類顧問更容易監控利益衝突。如果軟體開始推薦高費用的投資或高利率的抵押貸款,而有更便宜的替代品,人工智慧工具甚至可能能夠自動更正,例如拼寫檢查修復拼寫錯誤。
5.一致性
好的財務建議應該是一致的。也就是說,如果同一個客戶將相同的投資組合交給不同的顧問,他們應該提供類似的建議,專注於相同的時間考驗原則。
然而,研究表明,理財顧問很難提供始終如一地反映客戶目標、情況和偏好的建議。最近的一項研究表明,在顧問去世或退休后,客戶傾向於投資具有不同費用和風險狀況的基金,並且他們被安排在隨機選擇的新顧問那裡。這並不是因為他們的投資偏好突然發生了變化,而是因為新顧問將自己的信念強加於他們的投資組合中。如果新顧問為自己的個人投資組合或昂貴的基金選擇風險投資,他認為他的客戶也會更喜歡這樣做。
這應該是一個可以解決的問題。人工智慧建議應該能夠通過確認它向具有相似財務需求和偏好的客戶提供相同的建議來實現一致性。一旦人工智慧工具實現了一致性,該軟體就應該向處於相同情況的客戶提供相同的建議,就像Netflix向具有相同觀看歷史的人推薦類似的內容一樣。
預見AI的未來
一種潛在的模式來自醫療領域,智慧軟體和醫生多年來一直作為一個混合團隊一起工作。特別是,醫生越來越依賴人工智慧工具來幫助他們提高護理品質,因為這些工具可以生成一長串可能的診斷,從而減少誤診或縮短診斷時間。
當然,人類醫生仍然需要過濾ChatGPT生成的可能診斷的擴展清單,並選擇最佳診斷。這表明人工智慧可以幫助我們擴展思維,即使它實際上無法自己找到答案。
雖然沒有關於混合財務建議品質的研究,但我推測,只要人類學會如何與人工智慧有效協作,混合模式將獲勝。其中一個原因是被稱為演算法厭惡的行為傾向——人們傾向於拒絕自動化軟體,除非它近乎完美。這意味著大多數客戶會更喜歡由專業人士監控的人工智慧的財務建議,就像人們期望飛行員監督駕駛艙內的自動駕駛儀一樣。
更重要的是,混合方法也可能大大增加獲得建議的機會。我希望人類顧問能夠使用人工智慧來幫助他們為更多的人服務。
那些仍然負擔不起人類顧問的美國人呢?我相信人工智慧可以用來提供全天候的建議,前提是我們解決那些涉及準確性和去偏見的關鍵問題。
如果你是一名理財顧問,我不會擔心你的工作會因為 ChatGPT 而失去。(自動駕駛儀並沒有讓飛行員失業。相反,我會專注於如何使用這項技術為更多人提供更好的建議。