INTERSPEECH2025 多語言會話語音語言模型研討會
大語言模型(LLMs)在多種下游任務(wù)中展示了卓越的能力,成為語言理解和生成的強大基礎(chǔ)模型。此外,越來越多的研究關(guān)注將大語言模型應(yīng)用于語音和音頻處理任務(wù),如自動語音識別(ASR)、音頻描述和語音對話模型等新興領(lǐng)域。
然而,現(xiàn)實世界的對話語音數(shù)據(jù)對于開發(fā)基于LLM的語音對話模型至關(guān)重要,因為這些數(shù)據(jù)能夠體現(xiàn)人類交流的復(fù)雜性,包括自然的停頓、打斷、說話者重疊以及多樣的對話風(fēng)格。此類數(shù)據(jù)的稀缺性,尤其是在多語言環(huán)境下,成為推動該領(lǐng)域發(fā)展的重大挑戰(zhàn)。
現(xiàn)實世界對話語音的重要性不僅限于技術(shù)進(jìn)步——它對于構(gòu)建能夠在多語言、動態(tài)和豐富語境的環(huán)境中自然理解和響應(yīng)的人工智能系統(tǒng)至關(guān)重要。對于下一代人機(jī)交互系統(tǒng)尤為重要,因為在這些系統(tǒng)中,口語對話是主要的交流方式。
因此,本次研討會旨在通過舉辦構(gòu)建多語言對話語音語言模型的挑戰(zhàn),并發(fā)布一個真實世界的多語言對話語音數(shù)據(jù)集,來彌合這一差距。
正在報名