應用人機對齊策略 建立可信法律AI
訪第十四屆全國政協(xié)委員王江平
□ 本報記者 張維
隨著人工智能大模型的超強能力日益顯現(xiàn),如何讓其行為和目標同人類的價值、偏好、意圖之間實現(xiàn)協(xié)調(diào)一致,即人機對齊(human-AI alignment),正成為時代命題。
法律領(lǐng)域的AI應用尤其需要極高的可信性、公平性和透明性,以確保其決策與法律價值觀、倫理規(guī)范和社會公共利益一致。就如何在法律領(lǐng)域應用人機對齊策略,《法治日報》記者近日專訪了第十四屆全國政協(xié)委員、工業(yè)和信息化部原副部長、研究員級高級工程師王江平。
不僅做準還要做對
記者:人機對齊似乎是新近出現(xiàn)的概念。公開資料顯示,人機對齊已被納入中國、歐盟等主要經(jīng)濟體的人工智能治理白皮書,同時,人機對齊技術(shù)被列為2024年人工智能十大前沿技術(shù)趨勢之一。人機對齊究竟有何特別之處?
王江平:傳統(tǒng)AI優(yōu)化目標往往聚焦于提升任務性能,比如讓模型在圖像識別中準確率更高,但忽略了“模型決策是否符合人類倫理”“是否存在偏見”等問題。而人機對齊則要求AI不僅“做得準”,還要“做得對”,例如自動駕駛系統(tǒng)不僅要快速識別障礙物,還要遵循交通規(guī)則和保護生命優(yōu)先的原則。
AI技術(shù)的快速發(fā)展對人機對齊提出了新挑戰(zhàn)。以大語言模型為例,它們通過海量數(shù)據(jù)學習,但數(shù)據(jù)中可能包含社會偏見或錯誤價值觀。此外,強化學習中“獎勵機制”的設(shè)計如果不合理,可能導致AI為了達成目標而采取有害行為。例如,若僅以“點擊率”為獎勵,推薦算法可能推送博眼球的虛假信息。這要求我們必須在技術(shù)迭代的同時,同步優(yōu)化對齊策略。
這不是說人機對齊可以徹底解決相關(guān)問題,畢竟其本身也有局限性。例如,人類價值觀復雜多樣,不同的文化、宗教、社會群體以及個人可能具有不同的價值觀和倫理觀,難以確定一套統(tǒng)一的、適用于所有情況的人類價值觀來與AI進行對齊。同時,人類的價值觀并非固定不變,而是隨著社會的發(fā)展、文化的演變以及新情況的出現(xiàn)而不斷變化。這就要求AI系統(tǒng)必須實時跟蹤并適應這些變化,為此AI模型需要動態(tài)對齊。需特別強調(diào)的是,技術(shù)實現(xiàn)存在復雜性。盡管目前有很多方法用于實現(xiàn)人機對齊,但要完全準確地將人類復雜的價值觀和意圖轉(zhuǎn)化為AI系統(tǒng)可理解和遵循的目標函數(shù)并非易事。開發(fā)者可能會尋求替代目標,從而產(chǎn)生目標偏移隱患。
由此可見,AI模型行業(yè)應用是件嚴肅的事情,需要建立一套完整的適應本行業(yè)的監(jiān)管框架,監(jiān)管部門借此發(fā)揮模型開發(fā)方、應用方、測評機構(gòu)等各方面的作用,確保AI健康有序發(fā)展。
需要全面人機對齊
記者:在實際應用中,人機對齊是如何降低AI系統(tǒng)風險?我們?nèi)绾瓮ㄟ^人機對齊建立可信AI尤其是可信法律AI?
王江平:舉個例子來說。在招聘系統(tǒng)中,模型算法可能因歷史數(shù)據(jù)中存在性別歧視,導致女性求職者被過濾。通過人機對齊,引入公平性指標(如性別比例均衡),并采用去偏技術(shù)調(diào)整算法,能顯著減少此類問題。
建立可信AI,需要全面的、動態(tài)的人機對齊策略。全面對齊需覆蓋數(shù)據(jù)集建設(shè)、技術(shù)構(gòu)架與算法、應用、檢測評估等環(huán)節(jié),但都要從技術(shù)、倫理、法律、社會層面四個維度去對標。技術(shù)上,優(yōu)化算法和數(shù)據(jù)質(zhì)量;倫理上,嵌入人類價值觀;法律上,確保合規(guī)性;社會層面,則需通過公眾反饋調(diào)整策略。例如,在醫(yī)療AI中,不僅要保證算法準確,還要符合患者隱私保護法,并通過醫(yī)生和患者的使用反饋持續(xù)優(yōu)化。
這種對齊是一種動態(tài)對齊,它依賴于實時監(jiān)測與快速迭代。以法律AI為例,當新法新規(guī)出臺時,可以通過構(gòu)建動態(tài)法律知識引擎來提高AI的適應性。一方面,通過自然語言處理技術(shù)實時抓取官方法律文本變更,自動更新知識圖譜;另一方面,結(jié)合聯(lián)邦學習讓分散在各地法院的案例數(shù)據(jù)在不泄露隱私的前提下,協(xié)同訓練模型。例如,當數(shù)據(jù)安全法修訂后,系統(tǒng)可在72小時內(nèi)完成規(guī)則更新,并通過模擬法庭測試驗證新規(guī)則的適用性。
動態(tài)對齊還體現(xiàn)在,應設(shè)置“倫理審查觸發(fā)器”,當模型輸出觸及預設(shè)風險閾值時,強制人工介入修正。
需要說明的是,法律領(lǐng)域的AI應用需要極高的可信性、公平性和透明性,以確保其決策與法律價值觀、倫理規(guī)范和社會公共利益一致。為此,需要法學家和AI專家共同推動,全過程參與,持續(xù)迭代優(yōu)化,才能不斷提高法律AI模型的可信水平。
引入“人在回路”機制
記者:將法律原則轉(zhuǎn)化為對齊技術(shù)指標的具體難點是什么?如何驗證AI是否真正“理解”法律精神?怎樣在法律AI領(lǐng)域克服對齊的局限性?
王江平:一般而言,社會管理領(lǐng)域的AI應用,其對齊指標最大難點在于語義鴻溝與語境差異。例如,司法領(lǐng)域的“正當防衛(wèi)”是一個復雜的問題,在不同案件中需結(jié)合動機、場景、傷害程度等多因素判斷,而AI難以像人類法官那樣靈活權(quán)衡。技術(shù)上,可嘗試通過知識圖譜將法律條文、司法解釋、典型案例結(jié)構(gòu)化,但仍存在局限——AI可能僅機械匹配規(guī)則,無法理解法律背后的“公平”“人權(quán)”等價值導向。驗證AI“理解”程度需結(jié)合可解釋性工具與專家評審。
從去偏技術(shù)用于司法數(shù)據(jù)處理的實踐來看,對于評估數(shù)據(jù)公平性有一定成效,但難以根治數(shù)據(jù)可能存在的偏見。例如,通過對抗訓練可減少歷史數(shù)據(jù)中的性別歧視,但新問題可能隨之出現(xiàn)——如過度修正可能導致模型忽視真實犯罪特征。量化評估需多維度指標,如計算不同群體在類案判決中的“差異影響比率”,若某群體的量刑建議顯著高于其他群體,則需排查算法是否存在偏見。最明智的做法是引入第三方檢測評估,通過獨立機構(gòu)交叉驗證數(shù)據(jù)公平性。
“人在回路”(Human-in-the-Loop,HITL)機制在法律AI領(lǐng)域中具有應用價值。這種機制是一種將人類操作或決策融入AI系統(tǒng)工作流程的概念,AI模型系統(tǒng)只給出建議,最終的決策由人類作出,法律AI應用屬于高風險領(lǐng)域,應該采取HITL模式。為了避免人類決策受AI影響而失去獨立性,可通過盲審機制與風險分級提示實現(xiàn)平衡。
例如,在量刑建議場景中,系統(tǒng)僅向法官展示證據(jù)分析結(jié)果,隱藏AI給出的具體刑期數(shù)值;同時,對高風險案件(如重刑重處案件)強制要求法官獨立完成初判,再與AI建議對比。此外,通過雙盲實驗定期評估法官決策是否因AI產(chǎn)生認知偏差,若偏差率超過閾值,則需要優(yōu)化人機交互設(shè)計。
為確保第三方評估機構(gòu)的獨立性和專業(yè)性,建議采用“多元主體+動態(tài)認證”模式。評估機構(gòu)需包含法律專家、技術(shù)學者、倫理委員和公眾代表;其資質(zhì)認證由司法部門與行業(yè)協(xié)會聯(lián)合審核,并定期進行能力評估。此外,引入?yún)^(qū)塊鏈技術(shù)存證評估過程,確保數(shù)據(jù)不可篡改。公眾參與是打破“算法黑箱”的關(guān)鍵,應該強制要求法律AI系統(tǒng)定期發(fā)布“社會影響報告”,編制第三方“對齊白皮書”,接受公眾質(zhì)詢。
編輯:李立娟