言語交流是進行社交互動的重要方式。正常的說話過程要求臉部和頸部的大量關節(jié)肌肉協(xié)調(diào)收縮。
包含與說話活動相關的電生理信息的表面肌電圖(sEMG)信號通常被視為自動語音識別的替代輸入。
由中國科學院深圳先進技術研究所(SIAT)陳世雄教授領導的研究小組提出了一種高密度(HD)sEMG技術,該技術使用密集的單個電極陣列在相對較大的區(qū)域進行肌肉活動具有豐富的信息以進行適當?shù)倪\動分類。
在基于sEMG的語音識別系統(tǒng)中,用于記錄sEMG信號的電極位置是影響自動語音識別分類性能的主要因素。但是,在以前的研究中,電極的放置取決于各個研究人員的知識,而無需事先進行定量分析或基準標準。
Chen的團隊在用英語和中文分別對口語任務中的日常單詞進行分類時,分析了sEMG信號在面部和頸部肌肉左右兩側(cè)之間的貢獻。
在他們的研究中,高清sEMG信號由表面電極記錄,該電極有來自八名受試者的面部和頸部肌肉的120個通道。
從面部和頸部肌肉左側(cè)和右側(cè)的電極陣列記錄下來,與高清sEMG記錄的信號相比,在識別說話任務時獲得了分類精度。
結(jié)果表明,使用高清sEMG記錄從頸部的左側(cè)和右側(cè)獲得了相似的分類精度。相反,在使用來自左右面部肌肉的信號之間的分類準確性上出現(xiàn)了顯著差異。
陳教授說:“來自頸部對稱位置的高清sEMG信號在語音識別中的作用是一致的,而面部信號則不同。”