itc語音轉寫系統
概述
itc語音轉寫系統是廣東保倫電子股份有限公司(itc)自主研發、生產、設計的利用人工智能技術將語音內容轉換為文本的系統。
系統介紹
itc語音轉寫系統提供實時語音識別和錄音文件識別能力,實現語音實時轉寫、實時字幕、實時上屏、快速編輯語音轉寫紀要,并具有角色分離、錄音轉寫導出、紀要導出等功能,配合傳統會議室系統使用。
系統功能
實時語音轉寫
可將會議現場參會人員的發言內容實時快速轉寫成文字,并且可以進行文字同步編輯,在會議結束后可以快速的整理出會議記錄或紀要,讓記錄人員的錄入效率從以往最高每分鐘輸入120~150個字提升到當前每分鐘輸入250~350個字,縮短記錄時長。
歷史音頻轉寫
會議結束后,記錄人員可將會議結束后的歷史錄音文件針直接導入系統進行轉寫進行文字轉寫,確保會議記錄的準確性。系統支持wma/wav/mp3/m4a/pcm/avi等多種格式音頻,轉寫結果支持錄音文字同步調聽矯正,可快速完成文字校核。一次性支持上傳50條數據,數據總大小不超過5G,單條音頻時長不超過18小時。
實時上屏展示
可將文字轉寫內容通過大屏顯示給現場人員觀看,通過展板上屏、展示實時語音轉寫結果,字體顏色和展板背景顏色支持根據實際情況需要進行調整,實現參會人員視聽結合。
關鍵詞優化
針對會議的轉寫過程中,某些個性化或者生僻的詞語(例如人名、公司名、地名等)可能出現錯誤的情況,后臺記錄員可以提前輸入一些關鍵詞來優化語言識別模型,以便在后面的實時轉寫過程中,系統自動修正這些文字的轉寫結果,提高識別準確率。
語氣詞過濾
使用超大規模的語言模型,對識別結果語句智能預測其對話語境,提供智能斷句和標點符號的預測。能夠在實時語音轉寫開始前或者進行文稿整理時,根據需要選擇是否開啟“語氣詞過濾”功能,若開啟則能將參會人員語氣詞和多余的詞匯去除,以保證文稿的規整。
禁忌詞屏蔽
系統管理人員可將不適宜展示的敏感詞添加禁忌詞列表中,屏蔽此禁忌詞,當識別到此類詞匯時,系統提供不顯示、*號和空格三種顯示方式供選擇。
重點內容標記
當發言遇到一些重要的信息時后臺工作人員可對內容進行重點標記,同時對領導的一些決策也可以進行重點標記,便于會議結束后的記錄查詢等。
系統支持在實時語音轉寫過程、對轉寫文本結果進行編輯,對一些有疑問的內容重點標記高亮顯示,已標記的文本也可以進行修改和標記取消,方便整理會議紀要,會議結束會后即可或直接成稿。
音頻文字雙向對應
在會議過程會議結束后,若對會議當時的記錄存在異議,可對當時的歷史音頻文件進行回放并再次轉寫,轉寫過程可以任意拖動進度條,并會顯示當前進度條所轉寫的語音文字區域實現雙向對應,方便記錄人員復查會議記錄內容。
播放器、時間軸及文本區互相同步定位,更方便找到錄音時間對應的文本對照修改。語音文字雙向交互,既可通過文字定位到語音,也可通過語音定位到文字,方便進行問題針對性的查看及修改。
角色分離
通過接入不同音頻通道實現角色自動分離,每個通道對應發言角色。實現在會議過程中參會人員各方發言的內容進行角色分離并自動實時識別成文字。
快速會后紀要
在會議中記錄人員需要仔細聽現場參會人員的發言,并記錄他們發言內容,在會議過后并整理存檔,可使用語音轉寫結果進行編輯會議紀要,復制語音轉寫文本內容到會議紀要中。會議結束后,自動歸檔會議紀要文件。管理人員可前往歷史會議中查看會議紀要文件,下載會議紀要文件。
會議錄音
可實時錄制參會人員發言的現場音頻,方便記錄員回聽錄音。可對照轉寫文本回聽錄音,追根溯源。速記員在會議記錄過程中,因記錄不及時、發言人語速過快的情況,通過轉寫過程中打點標記相應的位置,在閉會時,可以通過回聽會議音頻,再快速修正記錄內容。
系統特征
依托核心語音技術,準確率最高可達95%以上。
整段錄音全自動機器轉寫,1小時音頻最快5分鐘出稿。
采用獨立專業服務器,不需聯網,避免會議內容和信息的外泄。
采用先進聲學模型和語言模型訓練,。
基于有限狀態機的解碼網絡,支持語音流實時輸出。實時轉寫,200ms內返回結果。
實現在會議過程中對會議的發起方、參與方、主席、主持人、秘書等將各方發言的內容進行角色分離并自動實時識別成文字。
通過提取上下文相關的語義特征,同時結合停頓、基頻信息等語音特征,來進行子句與段落的劃分;綜合運用上下文相關語義特征和語音學特征,解決分句與分段問題。
通過使用泛化特征并結合上下文相關語義特征和語音學特征,剔除轉寫結果中的停頓詞、語氣詞、重復詞。
會議室的會議音響系統可與智能會議語音轉寫系統統一結合、協同使用,直接對接。
會議發言、音頻擴聲、會議語音實時轉寫多項模塊靈活疊加組合,滿足不同行業、不同會議場景的多功能會議需求。
應用場景
適用于辦公會議、工作報告、學術講座、培訓、采訪等多種場景