1.概述
1.1項目背景
隨著5G網(wǎng)絡(luò)的快速建設(shè)、AI智能技術(shù)和視頻通訊技術(shù)的快速發(fā)展,多種技術(shù)融合帶來新的解決方案,服務(wù)與更多的金融業(yè)務(wù)場景。本方案借助微信小程序視頻平臺,與AI智能雙錄平臺實現(xiàn)無縫融合,實現(xiàn)AI虛擬機(jī)器人智能雙錄系統(tǒng),提高用戶體驗、降低人工成本。
1.2方案概述
本方案采用AI智能技術(shù)、虛擬人技術(shù)、視頻通訊技術(shù)的無縫融合,提供AI智能虛擬人雙錄解決方案,通過4G/5G通訊鏈路服務(wù)于車貸用戶。
1) ASR語音識別技術(shù):通過ASR識別用戶回答的問題;
2) TTS文本轉(zhuǎn)語音技術(shù):通過TTS播報業(yè)務(wù)流程話術(shù);
3) 業(yè)務(wù)流程配置管理:可動態(tài)配置業(yè)務(wù)流程,相關(guān)業(yè)務(wù)中話術(shù)的參數(shù)自定義等;
4) 視頻客服通訊平臺:提供實時的雙向視頻交互服務(wù)能力平臺、虛擬人視頻技術(shù)、實時雙錄功能;
5) 虛擬人與視頻客服平臺融合技術(shù):虛擬人與用戶進(jìn)行視頻的技術(shù)融合,虛擬人音話同步,提供真實的用戶體驗;
6) 微信小程序接入網(wǎng)關(guān):提供微信小程序視頻與視頻客服平臺通訊接入能力;
7) 人臉識別技術(shù):實時識別用戶人臉,保證業(yè)務(wù)辦理過程中為用戶本人單獨(dú)辦理;
8) 微信小程序SDK:提供Highlevel的SDKAPI,簡單易用的與小程序快速集成;
9) 業(yè)務(wù)流程管理:智能業(yè)務(wù)流程管理,根據(jù)業(yè)務(wù)場景
1.3 技術(shù)架構(gòu)圖

2. 需求分析
2.1. 業(yè)務(wù)場景描述
用戶通過微信小程序辦理車貸業(yè)務(wù)視頻審核錄制,接通AI視頻客服后,通過人臉識別技術(shù)進(jìn)行身份核實,通過TTS技術(shù)與ASR技術(shù)的整合,回答審核過程中的問題,直到業(yè)務(wù)辦理完成。業(yè)務(wù)辦理過程全程錄音、錄像,并保留業(yè)務(wù)辦理數(shù)據(jù),提交業(yè)務(wù)系統(tǒng)進(jìn)行人工審核或智能審核。
2.2. 關(guān)鍵功能
- 人臉識別,當(dāng)用戶人臉與辦單用戶人臉不一致時,提示用戶非本人(照片1:1比對,比對源由小程序提供)
- 人臉確認(rèn),當(dāng)用戶人臉不在畫面中時提示用戶需保持人臉在畫面中央(照片1:1比對功能,確保人臉在畫面中)上述功能點存在小程序上架風(fēng)險(見4.1)
- 視頻通話及視頻錄像支持Logo水印、時間水印。(見4.2.1)
- 視頻支持480P清晰度(見4.2.1)
- 視頻錄制,支持錄制虛擬人像及用戶畫面(見4.2.2)
- 支持虛擬人像背景更換(見4.2.3)
- 視頻質(zhì)檢:每30S抓取人臉并發(fā)送人臉識別供應(yīng)商進(jìn)行比對,若不一致則提示需保持人臉一致(見4.2.4)
- 支持位置獲取并展示在頁面(見4.2.5)
- 中斷后支持彈窗通知,彈窗選擇退出或自動退出(見4.2.6小程序優(yōu)化異常處理模塊)
- 視頻錄制完成后,放置到指定位置,支持下載和在線調(diào)用(見4.3.1訂單管理)
- 支持話術(shù)配置及話術(shù)內(nèi)支持變量參數(shù)(見4.3.3)
- 客戶回答語義轉(zhuǎn)化肯定和否定的特定參數(shù)值(面簽配置管理模塊需增加語音語義轉(zhuǎn)換模塊)
- 同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調(diào)用查看,訂單管理支持一筆訂單對應(yīng)多個錄像問題。
3. 遠(yuǎn)程視頻面簽系統(tǒng)架構(gòu)設(shè)計
3.1. 系統(tǒng)設(shè)計原則
穩(wěn)定性原則:產(chǎn)品成熟穩(wěn)定,系統(tǒng)應(yīng)有健全的安全防范措施,對于關(guān)鍵應(yīng)用或模塊實現(xiàn)設(shè)備冗余,應(yīng)用集群、數(shù)據(jù)庫集群,系統(tǒng)應(yīng)能在正常和高峰業(yè)務(wù)處理中穩(wěn)定運(yùn)行,提供連續(xù)可靠的服務(wù)。實現(xiàn)流量控制、差錯處理、重發(fā)機(jī)制、超時控制,以滿足大數(shù)據(jù)量和大交易量下實時聯(lián)機(jī)交易要求,批量數(shù)據(jù)處理和聯(lián)機(jī)交易處理間不互相影響,保障系統(tǒng)7*24小時正常運(yùn)行,保證系統(tǒng)運(yùn)行的連續(xù)性和穩(wěn)定性。
安全性原則:系統(tǒng)應(yīng)采用完善的安全保密機(jī)制,保證各種數(shù)據(jù)不被破壞、非法訪問和惡意修改,保證客戶和銀行交易數(shù)據(jù)的正確性、完整性、一致性、安全性。
實用性原則:系統(tǒng)必須保證其實用性,切實符合本行的建設(shè)要求,全面滿足業(yè)務(wù)需求。系統(tǒng)應(yīng)具有友好的用戶界面,操作簡便、高效。
易于維護(hù)性原則:系統(tǒng)設(shè)計應(yīng)便于維護(hù),遵循模塊化、組件化、參數(shù)化的原則,易于改造和擴(kuò)展,可靈活設(shè)置,方便維護(hù)和管理。系統(tǒng)能夠提供全面的系統(tǒng)管理和維護(hù)平臺,便于技術(shù)人員維護(hù)。
交易監(jiān)控原則:為便于技術(shù)維護(hù)人員掌握系統(tǒng)交易運(yùn)行情況。監(jiān)控應(yīng)清晰明了,提供操作日志和交易日志等可審計數(shù)據(jù)的存儲、查詢,便于技術(shù)維護(hù)人員進(jìn)行系統(tǒng)維護(hù),應(yīng)提供完備自動的日志備份和清理機(jī)制。
數(shù)據(jù)標(biāo)準(zhǔn)化原則:系統(tǒng)建設(shè)應(yīng)符合數(shù)據(jù)管理的工業(yè)標(biāo)準(zhǔn)、金融行業(yè)規(guī)范,符合人民銀行和銀保監(jiān)會各類監(jiān)管標(biāo)準(zhǔn)要求。
開放性原則:軟硬件平臺和數(shù)據(jù)庫系統(tǒng)應(yīng)具備開放性,系統(tǒng)提供豐富的外部接口。
效率性原則:系統(tǒng)的建設(shè)應(yīng)具備業(yè)務(wù)和技術(shù)上有前瞻性,系統(tǒng)設(shè)計架構(gòu)合理,處理效率高,資源占用率低,避免過多的數(shù)據(jù)冗余。不僅能滿足現(xiàn)階段業(yè)務(wù)需求,也要充分考慮滿足未來3-5年的業(yè)務(wù)發(fā)展需要,具備一定的創(chuàng)新引領(lǐng)能力。
可擴(kuò)展原則:系統(tǒng)設(shè)計應(yīng)當(dāng)具備良好的擴(kuò)展能力,包括處理能力的擴(kuò)展和數(shù)據(jù)接入的擴(kuò)展性,系統(tǒng)開發(fā)遵循組件化、模塊化、參數(shù)化、高內(nèi)聚、松耦合的設(shè)計原則,保證軟件系統(tǒng)架構(gòu)易于改造和擴(kuò)展,提高軟件的復(fù)用性、可維護(hù)性和開發(fā)效率,以適應(yīng)我行未來發(fā)展中對系統(tǒng)性能或功能提升的要求。
對新業(yè)務(wù)的前瞻性:AI小程序視頻虛擬面簽解決方案提供的功能能完全符合現(xiàn)有需求,不增加與需求無關(guān)的冗余功能,同時還保證在未來幾年內(nèi),隨著業(yè)務(wù)的創(chuàng)新,系統(tǒng)可以適應(yīng)需求的變化,只需擴(kuò)展相應(yīng)的功能模塊或并發(fā)許可即可滿足未來業(yè)務(wù)的升級。
可升級為人工視頻客服服務(wù)平臺,為本行提供AI智能雙錄及人工視頻客服服務(wù)能力,鑒于利舊性原則,系統(tǒng)應(yīng)具備現(xiàn)有服務(wù)環(huán)境擴(kuò)展新的服務(wù)組件即可滿足未來的業(yè)務(wù)需求。
未來可和語音平臺實現(xiàn)統(tǒng)一路由、統(tǒng)一報表、統(tǒng)一排隊等功能,節(jié)省行內(nèi)建設(shè)成本。
3.1.1. 微信小程序
項目 | 建議配置 |
微信小程序 | IOS:9.0及以上、iPhone6及以上 |
Android:6.0及以上 |
3.2. AI視頻面簽系統(tǒng)網(wǎng)絡(luò)架構(gòu)

系統(tǒng)網(wǎng)絡(luò)架構(gòu)圖
3.3. 遠(yuǎn)程視頻面簽系統(tǒng)性能
3.3.1. 系統(tǒng)并發(fā)量
系統(tǒng)投入使用后,一期支持10并發(fā)在線用戶接入,系統(tǒng)要保證支持10用戶并發(fā)情況下系統(tǒng)的穩(wěn)定運(yùn)行,不能飽和擁塞;系統(tǒng)設(shè)計能力支持32用戶單機(jī)接入能力。
3.3.2. 網(wǎng)絡(luò)性能要求
1)具備智能抗丟包能力,網(wǎng)絡(luò)延時短,確?蛻粼诼(lián)通、移動、電信等運(yùn)營商網(wǎng)絡(luò)下業(yè)務(wù)辦理的流暢,畫面不卡頓;
2)正常網(wǎng)絡(luò)環(huán)境下,AI視頻開畫時間<3秒;
3)微信小程序網(wǎng)絡(luò)延時小于1000ms,保障業(yè)務(wù)辦理的流暢性;
4)接通成功率大于95%;
5)視頻清晰度支持360P-720P;
6)滿足客戶國內(nèi)以及國外主要地區(qū)發(fā)起互動視頻的能力,視頻畫面清晰流暢不卡頓;
7)系統(tǒng)所有統(tǒng)計分析功能的響應(yīng)時間不超過3秒。
4. AI視頻面簽小程序SDK主要功能
4.1. 人臉識別
用戶在視頻面簽時實時采集人臉照片,調(diào)用人臉識別接口動態(tài)對比身份證照片和人臉照片,確認(rèn)是否為用戶本人使用本人身份證辦理業(yè)務(wù)。
4.2. AI視頻面簽小程序SDK
視頻面簽小程序SDK提供能力如下:
1) 發(fā)起視頻呼叫:接通AI虛擬視頻客服,辦理面簽業(yè)務(wù)。
2) 結(jié)束視頻呼叫:結(jié)束AI虛擬視頻客服對話,完成或終止業(yè)務(wù)辦理。
3) 顯示地位位置:實時動態(tài)獲取手機(jī)的地位位置信息,提供精確的位置信息,并上傳業(yè)務(wù)系統(tǒng)。
4)視頻通話中抓取人臉照片
4.2.1. AI視頻面簽智能問答
- 視頻支持480P清晰度
- 虛擬人視頻質(zhì)量支持480P及以上,可根據(jù)網(wǎng)絡(luò)波動自動調(diào)整視頻分辨率。
- 支持視頻合成時帶水印,用戶辦理業(yè)務(wù)時,視頻顯示Logo水印及時間戳水印。
- 視頻錄像水印支持:視頻錄像合成后的錄像文件,支持預(yù)制水印與錄像合成,支持時間戳水印及地理位置信息。錄像中需包含文本或圖片水印,水印可在服務(wù)器端配置管理。
4.2.2. 視頻錄制
用戶辦理業(yè)務(wù)的過程全程錄音錄像,生成單一的MP4錄像文件。
1) 用戶視頻、音頻
2) AI虛擬人視頻、音頻
3) 用戶微信小程序UI:用戶手機(jī)位置信息
4) 用戶微信小程序UI:用戶手機(jī)中時間戳信息
5) 用戶微信小程序UI:企業(yè)logo及背景。
6) 支持虛擬人像背景更換
4.2.3. 支持虛擬人像背景更換
虛擬人像背景支持虛擬背景技術(shù),可自定義背景圖片,可在服務(wù)器端配置更換背景圖片
4.2.4. 視頻質(zhì)檢
業(yè)務(wù)場景:用戶在辦理業(yè)務(wù)錄制過程中,為保證用戶的人臉始終在視頻窗口內(nèi),可以全程錄制用戶的人像,記錄在錄像中,需要使用人臉識別,判斷用戶的人臉是否在視頻窗口內(nèi),如用戶人臉離開視頻窗口,則給出提示。
視頻動態(tài)人臉質(zhì)檢:每30S抓取人臉并發(fā)送人臉識別供應(yīng)商進(jìn)行比對,若不一致則提示用戶請保持。
4.2.5. 位置信息展示
微信小程序?qū)崟r獲取用戶當(dāng)前位置信息,并顯示在視頻通話頁面中,位置信息上傳業(yè)務(wù)系統(tǒng)進(jìn)行記錄。
4.2.6. 其他功能
中斷后支持彈窗通知,彈窗選擇退出或自動退出
業(yè)務(wù)辦理過程中,如遇到中斷(用戶回復(fù)不符合業(yè)務(wù)流程),則彈窗提醒立即手動結(jié)束,或倒計時自動結(jié)束。
4.3. AI視頻面簽業(yè)務(wù)配置模塊功能
4.3.1. AI面簽訂單管理
AI視頻平臺與行里業(yè)務(wù)系統(tǒng)集成對接,每筆呼叫攜帶隨路數(shù)據(jù),上傳業(yè)務(wù)系統(tǒng),生產(chǎn)相應(yīng)的訂單業(yè)務(wù)工單,業(yè)務(wù)工單關(guān)聯(lián)對應(yīng)的錄像錄音文件。
同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調(diào)用查看,訂單管理支持一筆訂單對應(yīng)多個錄像問題。
4.3.2. 錄像管理
AI視頻平臺提供錄像管理功能,支持錄像下載、錄像在線播放、錄像與業(yè)務(wù)系統(tǒng)關(guān)聯(lián)。
用戶在辦理業(yè)務(wù)過程中,每筆業(yè)務(wù)的錄像文件可關(guān)聯(lián)業(yè)務(wù)流水號,在業(yè)務(wù)系統(tǒng)中暖可記錄每筆雙錄業(yè)務(wù)的錄像下載地址,可關(guān)聯(lián)錄像文件,支持在業(yè)務(wù)系統(tǒng)中在線錄像播放、支持錄像下載。支持功能如下:
1) 錄像管理
2) 錄像下載
3) 在線播放
4) 生成錄音MP3文件
5) 生成錄像MP4文件
6) 錄像水印疊加,支持預(yù)制圖片水印、視頻交互中的時間戳水印、地理位置水印。
4.3.3. 話術(shù)配置及話術(shù)內(nèi)支持變量參數(shù)
系統(tǒng)統(tǒng)支持話術(shù)自定義管理配置,可以根據(jù)業(yè)務(wù)場景配置不同的業(yè)務(wù)場景話術(shù)。AI視頻平臺提供話術(shù)配置管理方法,可以按照業(yè)務(wù)需求,靈活配置對應(yīng)的話術(shù),及跟進(jìn)接入用戶的信息、業(yè)務(wù)工單,播放對應(yīng)的變量參數(shù)。
后期可結(jié)合NLP語音語義理解服務(wù),提供智能業(yè)務(wù)場景處理。
5. AI視頻面簽系統(tǒng)關(guān)鍵指標(biāo)
序號 | 類別 | 技術(shù)要求 |
---|---|---|
1 | 系統(tǒng)架構(gòu) | 系統(tǒng)支持高可靠、高并發(fā)、核心媒體組件支持負(fù)載均衡。 |
2 | 系統(tǒng)安全性 | 系統(tǒng)符合金融行業(yè)的安全要求: 支持HTTPS、TLS、RTSP等 |
3 | 跨平臺 | 支持Linux系統(tǒng):CentOS、Redhat等。 |
4 | 應(yīng)用場景 | 車貸智能雙錄 |
5 | 錄音錄像 | 錄像格式:MP4 錄音格式:MP3 |
6 | 錄像方式 | 服務(wù)器在線實施錄制 |
7 | TTS | 定制音庫:僅需要2小時錄音樣本 方言口音:粵語、湖南話、維吾爾語、藏語、四川、東北等 Mos評分在3.8以上,離線效果在3.5以上。 文本處理正確率在95%以上,平均響應(yīng)時長小于 3s/50字 |
8 | ASR | 轉(zhuǎn)寫的WER在90%以上 支持流式接口,平均響應(yīng)速度應(yīng)小于10ms 支持普通話、粵語、四川話等混合識別 需支持智能斷句匹配標(biāo)點,置信息度 需支持?jǐn)?shù)字、日期、時間等實體識別,支持詞語屬性標(biāo)記和詞&句時間戳 文法格式智能轉(zhuǎn)換包括電話號碼、車牌、日期、時間以及量詞的規(guī)整,如“五點三十”引擎會識別規(guī)整為“5:30” |
9 | 虛擬人像 | 自定義虛擬人像:支持自定義虛擬人像,提供虛擬人像錄制方式。 音唇同步:虛擬人像講話時嘴型與TTS播報的語音保持同步。 |
10 | 視頻質(zhì)量 | 360P及以上 微信小程序視頻延時不高于1m |
11 | 視頻SDK | 支持多層級SDK客戶可基于不同的層級的API與業(yè)務(wù)系統(tǒng)集成且可以深度定制開發(fā): 1) Business Scenario API 簡單易用,適合需要快速上線,不需要了解音視頻通訊原理及深度開發(fā)的客戶; 2) 協(xié)議層API : 提供協(xié)議控制、呼叫控制及業(yè)務(wù)控制API ,用戶可基于此類API 深度定制業(yè)務(wù)流程; 3) MediaEngine API: 音視頻控制API,客戶可基于API控制音視頻流、自定義音視頻控制,與AI 相整合; 4) 音視頻編碼 API :控制音視頻碼率、分辨率、幀率、音頻采樣率等; |
12 | 音視頻編碼 | 音頻編碼: G711, G722, G723, G729, AMR NW/SW, SILK NW/WB, OPUS, ISAC, GSM, ILBC 視頻編碼 : H263, H264, H264 AVC/SVC, H.265 AVC/SVC, VP9 分辨率: QCIF, CIF, QVGA,VGA, 352P, 480P, 720P, 1080P, 4K 音頻引擎: AEC(echo cancellation), AGC (Auto Gain Control), PLC, Jitter Buffer, CNG, VAD, NS 視頻引擎: Video encoding and decoding , Packet loss Recovery High level API 傳輸算法: FEC, Net Checker 傳輸協(xié)議: SIP/IMS, MRCP V2, RTP/RTCP/SRTP |