智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西9月16日報道,生成式AI幻覺問題是令人們不敢信任AI的一大痛點。對此,亞馬遜云科技將其核心云服務(wù)中長期使用的自動推理技術(shù)拿出來,作為Amazon Bedrock Guardrails中的一項功能,供客戶直接使用。
Amazon Bedrock Guardrails自動推理檢查(Automated Reasoning checks)功能已正式可用,同時新增5項功能。該功能通過基于數(shù)學(xué)和邏輯的形式化驗證機制,幫助客戶依據(jù)其領(lǐng)域知識,提高檢測和驗證模型輸出的準(zhǔn)確性,AI響應(yīng)驗證準(zhǔn)確率高達99%,能夠有效降低AI幻覺帶來的風(fēng)險。
這種方法與概率推理方法有著本質(zhì)區(qū)別。概率推理方法是通過為結(jié)果分配概率來處理不確定性,而自動推理檢查功能做到將AI輸出轉(zhuǎn)化為邏輯可驗證的命題,幫企業(yè)把數(shù)學(xué)嚴(yán)謹(jǐn)性嵌入到AI應(yīng)用的防護中。
當(dāng)模型輸出存在多種解釋時,自動推理檢查功能還能輔助檢測歧義情況。
在預(yù)覽版的基礎(chǔ)上,該功能正式版新增了多項能力:可支持處理長達80K token的文檔,保存和復(fù)用驗證測試,自動生成測試場景,以自然語言形式反饋策略優(yōu)化建議,并允許客戶自定義置信度閾值。這些增強功能讓自動推理檢查從概念性探索走向可規(guī)?;涞?,給業(yè)務(wù)層面加筑一道AI可信防線。
一、十年打磨的幕后武器,首次走向客戶應(yīng)用
幻覺是大語言模型輸出內(nèi)容不靠譜的關(guān)鍵問題之一。企業(yè)客戶希望獲得更加確定性的結(jié)果:一是語法表達和事實表達上的正確性,即不希望出現(xiàn)幻覺;二是業(yè)務(wù)表達上的準(zhǔn)確性,即希望大模型能夠真正理解業(yè)務(wù)場景,輸出符合業(yè)務(wù)邏輯的內(nèi)容。
降低幻覺的一個常見做法是把整個原始文檔作為提示詞和上下文傳給大模型,這樣方式往往會消耗大量Token,成本很高,還考驗?zāi)P湍懿荒軓拇罅績?nèi)容里準(zhǔn)確提取,成本和準(zhǔn)確性都有風(fēng)險。
通過規(guī)則補充模型能力,是大模型生產(chǎn)化落地的一個可取方法。
自動推理檢查功能相當(dāng)于“大模型的邏輯監(jiān)督員”,在模型輸出前,加了一道邏輯校驗,來進一步提升AI輸出內(nèi)容的可信度。
其背后技術(shù)原理是符號式AI(Symbolic AI),核心思想是把人類世界的各種描述抽象成邏輯表達,再通過嚴(yán)格的邏輯控制,確保AI的輸出或自動生成的內(nèi)容符合實際結(jié)果。
在Amazon S3、Amazon IAM等核心服務(wù)中,亞馬遜云科技已使用自動推理技術(shù)十余年,驗證代碼正確性、優(yōu)化性能、縮短迭代周期。
比如在Amazon S3存儲桶中客戶需要對訪問權(quán)限做嚴(yán)格控制,在Amazon VPC中涉及大量的網(wǎng)絡(luò)連接和權(quán)限控制,背后都是基于自動推理實現(xiàn)的。
通過Amazon Bedrock Guardrails,亞馬遜云科技首次將這一工具開放給客戶,提供AI安全與合規(guī)的即開即用能力,進一步改善實際業(yè)務(wù)中大模型幻覺問題。
正式推出的Amazon Bedrock Guardrails自動推理檢查功能新增5大特性:
(1)可處理大型文檔:支持在單次構(gòu)建中處理大型文檔,最多可達80K tokens長文檔,能輕松處理海量文檔資料,相當(dāng)于多達100頁的內(nèi)容。
(2)簡化策略驗證流程:可保存驗證測試并反復(fù)運行,便于隨時間推移對策略進行維護和驗證,讓策略驗證擁有類似“回歸測試”的工程屬性。
(3)自動場景生成:根據(jù)客戶的定義自動創(chuàng)建測試場景,能降低使用門檻,節(jié)省時間和精力,有助于實現(xiàn)更全面的場景覆蓋。
(4)增強的策略反饋:能夠以自然語言的形式為策略變更提供建議,從而簡化策略優(yōu)化流程,讓并非邏輯學(xué)專家的開發(fā)者和合規(guī)人員也能快速上手。
(5)可定制的驗證設(shè)置:可根據(jù)具體需求調(diào)整置信度分?jǐn)?shù)閾值,使企業(yè)對驗證嚴(yán)格程度擁有更靈活的控制權(quán)。
這些新特性的推出,意味著自動推理檢查功能已經(jīng)從一個面向?qū)I(yè)領(lǐng)域的“概念驗證工具”,發(fā)展成為可以大規(guī)模、標(biāo)準(zhǔn)化應(yīng)用的工程化能力,從實驗室走向生產(chǎn)環(huán)境。
二、判斷AI助手回答是否符合規(guī)則,精準(zhǔn)定位矛盾點
將一份自然語言寫成的政策文檔上傳到Amazon Bedrock Guardrails模塊后,系統(tǒng)會通過自動推理,把自然語言的表述轉(zhuǎn)化為符號化的邏輯表達,即自動抽取一系列規(guī)則和變量,進行符號化處理,再組合成規(guī)則。
這一過程在控制臺中包含完整的邏輯鏈路:用戶在“Automated Reasoning”下創(chuàng)建策略,輸入名稱和描述并上傳規(guī)則文檔;系統(tǒng)會自動生成由規(guī)則(Rules)、變量(Variables)和自定義類型(Custom Types)組成的邏輯結(jié)構(gòu),并應(yīng)用在Amazon Bedrock Guardrails的最終防護環(huán)節(jié)。
這些規(guī)則的作用是驗證大模型的輸出結(jié)果。大模型本身并不知道企業(yè)內(nèi)部的規(guī)則,只是基于概率生成的。通過這樣一道邏輯校驗,就能捕捉模型的輸出,判定它是有效(Valid)、無效(Invalid)還是部分滿足(Satisfiable)。
規(guī)則定義了變量之間的邏輯關(guān)系并具唯一ID以便追溯,變量抽取原文中的關(guān)鍵概念,如首付比例或信用評分,自定義類型則用于限定取值范圍,例如區(qū)分“有保險貸款”和“常規(guī)貸款”。
在“Tests”環(huán)節(jié),用戶可以先利用“自動生成場景”快速得到覆蓋全面的測試用例,再補充手動測試,并為每個用例設(shè)定預(yù)期(Valid、Invalid、Satisfiable),同時可設(shè)置置信度閾值。
前期抽象出規(guī)則的過程是自動完成的,不需要人工參與,效率更高。這個過程可能存在幻覺,所以系統(tǒng)提供了自定義接口,讓領(lǐng)域?qū)<夷軐@些規(guī)則進行修改和修訂,確保邏輯正確。規(guī)則修改完成后,就可以把它們推到線上。
當(dāng)企業(yè)員工和大模型真正交互時,這些規(guī)則會作為一道過濾器,對模型輸出進行檢查。這樣一來可以更好地控制模型輸出,避免業(yè)務(wù)邏輯上的錯誤。
運行驗證后,系統(tǒng)不僅能判斷AI助手的回答是否符合審批規(guī)則,還能在失敗時精確定位到引發(fā)矛盾的規(guī)則,幫助用戶優(yōu)化策略或修正測試。
完成驗證后,單個Guardrail最多可附加兩份自動推理策略,并能與內(nèi)容過濾、上下文基礎(chǔ)核查等其他防護機制協(xié)同工作,從而形成覆蓋邏輯、內(nèi)容與語境的多層次安全保障。
在實際應(yīng)用中,自動推理檢查功能會集成在業(yè)務(wù)流程里。該模塊可以和防違規(guī)模型一起用,也可以獨立應(yīng)用,把任何模型的輸出結(jié)果傳到Guardrails進行管控。
這些防護措施不僅適用于Amazon Bedrock的模型,還可通過API擴展到第三方模型,并能與Strands Agents及基于Amazon Bedrock AgentCore的Agent配合使用,在多Agent協(xié)作場景中同樣發(fā)揮作用。
三、優(yōu)化公用事業(yè)停電管理系統(tǒng),讓企業(yè)AI部署合規(guī)可靠
亞馬遜云科技在官方博客中以房貸審批為例,演示了Amazon Bedrock Guardrails自動推理檢查功能的實際應(yīng)用。
在示例中,用戶只需上傳房貸審批規(guī)則文檔,系統(tǒng)即可將其轉(zhuǎn)化為邏輯定義,并自動生成測試場景。隨后,用戶可以補充手動測試,為每個用例設(shè)定預(yù)期結(jié)果,并運行驗證。當(dāng)輸出與規(guī)則不一致時,系統(tǒng)能準(zhǔn)確定位矛盾點,幫助用戶調(diào)整策略。
完成驗證后,這些策略可直接應(yīng)用到Guardrails中,用于約束AI助手的回答。
這一示例表明,自動推理檢查功能能夠把日常業(yè)務(wù)規(guī)則轉(zhuǎn)化為可驗證的邏輯,并通過自動化測試和持續(xù)驗證機制,讓AI的輸出始終符合合規(guī)和業(yè)務(wù)要求。
亞馬遜云科技還與普華永道共同開發(fā)了一套解決方案。借助自動推理檢查,公用事業(yè)公司可通過以下方式實現(xiàn)運營優(yōu)化:
(1)自動協(xié)議生成:創(chuàng)建符合監(jiān)管要求的標(biāo)準(zhǔn)化流程。
(2)實時計劃驗證:確保應(yīng)急響應(yīng)計劃符合既定政策。
(3)結(jié)構(gòu)化工作流構(gòu)建:制定基于嚴(yán)重程度的分級工作流,并明確響應(yīng)目標(biāo)。
該解決方案的核心在于將智能策略管理與優(yōu)化后的響應(yīng)協(xié)議相結(jié)合,運用自動推理檢查技術(shù)來評估AI生成的回復(fù)。一旦發(fā)現(xiàn)回復(fù)無效或存在可滿足性方面的問題,便會利用自動推理檢查的結(jié)果,優(yōu)化完善或者直接重新編制答案。
這套方案體現(xiàn)了AI如何變革傳統(tǒng)公用事業(yè)運營模式,通過將數(shù)學(xué)層面的精準(zhǔn)性與實際需求相結(jié)合,使其更高效、更可靠、更及時響應(yīng)客戶需求。
Amazon Bedrock Guardrails自動推理檢查功能已在美國東部(俄亥俄州、北弗吉尼亞州)、美國西部(俄勒岡州)以及歐洲(法蘭克福、愛爾蘭、巴黎)區(qū)域正式可用,按處理文本量計費。
結(jié)語:給“AI護欄”加道“數(shù)學(xué)保險鎖”
十多年來,亞馬遜云科技在Amazon S3、Amazon IAM、加密引擎等核心云服務(wù)中,率先應(yīng)用自動推理技術(shù),用數(shù)學(xué)和邏輯的方法論驗證系統(tǒng)的正確性。這些經(jīng)驗成為支撐復(fù)雜大規(guī)模云服務(wù)實現(xiàn)安全和可靠的重要力量之一。
市面上的AI安全手段大多依賴過濾或概率閾值,難以給出確定性保障。Amazon Bedrock Guardrails自動推理檢查功能首次具備邏輯可證明的審查能力,讓AI的安全性不僅依賴概率和經(jīng)驗判斷,還增加了數(shù)學(xué)邏輯上的可驗證能力,從“可信”進一步邁向“可證明”。
這相當(dāng)于為AI加了一道“數(shù)學(xué)保險鎖”,進一步提升了AI的可靠性,讓企業(yè)能夠邏輯化地驗證AI輸出是否符合政策與規(guī)則,有助于規(guī)避因“幻覺”引發(fā)的事實性錯誤。