中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

    君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。

    FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。

    FunAsr和Whisper对比 Medium vs speech_paraformer

    首先配置好Python3.10的开发环境,随后在终端运行命令:

pip3 install torch torchaudio
pip3 intall funasr
pip3 install modelscope

    随后编写测试脚本,这里以Bert-vits2里面的转写环节为例子,我们知道,如果想要克隆一个人的声音,那么必须首先把克隆对象的语音转写为文字,并且标注,标注的意义在于可以增强克隆语音的语气韵律问题。

    首先看看whisper是怎么做的:

def transcribe_one(audio_path):
    model = whisper.load_model("medium")
# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
lang = max(probs, key=probs.get)
# decode the audio
options = whisper.DecodingOptions(beam_size=5)
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)
return lang, result.text

    这通过Whisper的gpu模式来进行推理,模型选择medium,硬件要求是最低6G显存,更多关于whisper的配置,请移步:闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10),这里不再赘述。

    Whisper转写后效果:

./Data\Keira\wavs\Keira_0.wav|Keira|ZH|光动嘴不如亲自做给你看
./Data\Keira\wavs\Keira_1.wav|Keira|ZH|等我一下呀迫不及待了嘛
./Data\Keira\wavs\Keira_10.wav|Keira|ZH|你还会帮我吗真没想到你对葡萄酒也这么内行啊
./Data\Keira\wavs\Keira_11.wav|Keira|ZH|差不多吧好了 聊了这么久我都饿了
./Data\Keira\wavs\Keira_12.wav|Keira|ZH|还是赶紧开动吧我自己能应付
./Data\Keira\wavs\Keira_13.wav|Keira|ZH|这些蛋啊 鸡啊 鹅啊 满地都是
./Data\Keira\wavs\Keira_14.wav|Keira|ZH|再说我的经济状况很快就要改善了
./Data\Keira\wavs\Keira_15.wav|Keira|ZH|因为我很清楚他的研究有多重要
./Data\Keira\wavs\Keira_16.wav|Keira|ZH|万一落入心怀不轨的人手里结果不堪设想
./Data\Keira\wavs\Keira_17.wav|Keira|ZH|再後悔也晚了
./Data\Keira\wavs\Keira_18.wav|Keira|ZH|抱歉这话题太丧气了
./Data\Keira\wavs\Keira_19.wav|Keira|ZH|我不應該提起來煞風景的
./Data\Keira\wavs\Keira_2.wav|Keira|ZH|現在還不是時候
./Data\Keira\wavs\Keira_20.wav|Keira|ZH|尤其是在我們的浪漫晚餐上
./Data\Keira\wavs\Keira_21.wav|Keira|ZH|你知道森瑞卡尼亚人管那个星座叫什么吗
./Data\Keira\wavs\Keira_22.wav|Keira|ZH|不對哦是個含義完全不一樣的名字
./Data\Keira\wavs\Keira_23.wav|Keira|ZH|事实上有点下流
./Data\Keira\wavs\Keira_24.wav|Keira|ZH|靠近一点我悄悄告诉你
./Data\Keira\wavs\Keira_3.wav|Keira|ZH|好了,趕緊出去
./Data\Keira\wavs\Keira_4.wav|Keira|ZH|你还挺乖的嘛现在差不多准备好了
./Data\Keira\wavs\Keira_5.wav|Keira|ZH|我不是說差不多好了嗎
./Data\Keira\wavs\Keira_6.wav|Keira|ZH|别打岔 看仔细了
./Data\Keira\wavs\Keira_7.wav|Keira|ZH|那是没错但那样我就不会把你请到这儿来了
./Data\Keira\wavs\Keira_8.wav|Keira|ZH|现在明白我为什么要那些材料了吧
./Data\Keira\wavs\Keira_9.wav|Keira|ZH|如果我说 去树林里帮我取些食材 我要做晚餐

    可以看到,medium模型对于中文的泛化效果一般,大多数素材都没有标注,但仅限于Whisper的medium模型。

    现在我们来看看阿里的FunAsr:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks



from modelscope.hub.snapshot_download import snapshot_download

# 指定本地目录
local_dir_root = "./models_from_modelscope"
model_dir = snapshot_download('damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', cache_dir=local_dir_root)

inference_pipeline = pipeline(
task=Tasks.auto_speech_recognition,
model=model_dir,
vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
#lm_model='damo/speech_transformer_lm_zh-cn-common-vocab8404-pytorch',
#lm_weight=0.15,
#beam_size=10,
)
param_dict = {}
param_dict['use_timestamp'] = False

    这里首先指定模型目录,否则FunAsr会在C盘下载模型。

    随后编写转写逻辑:

def transcribe_one(audio_path):

rec_result = inference_pipeline(audio_in=audio_path, param_dict=param_dict)

print(rec_result["text"])

return "zh", rec_result["text"]

    转写后效果:

./Data\Keira\wavs\Keira_0.wav|Keira|ZH|光动嘴不如亲自做给你看。
./Data\Keira\wavs\Keira_1.wav|Keira|ZH|等我一下呀,迫不及待了吗?
./Data\Keira\wavs\Keira_10.wav|Keira|ZH|你还会帮我吗?真没想到你对葡萄酒也这么内行啊。
./Data\Keira\wavs\Keira_11.wav|Keira|ZH|差不多吧。好了,聊了这么久,我都饿了。
./Data\Keira\wavs\Keira_12.wav|Keira|ZH|还是赶紧开动吧,我自己能应付。
./Data\Keira\wavs\Keira_13.wav|Keira|ZH|这些蛋啊、鸡啊、鹅啊的满地都是。
./Data\Keira\wavs\Keira_14.wav|Keira|ZH|再说我的经济状况很快就要改善了。
./Data\Keira\wavs\Keira_15.wav|Keira|ZH|因为我很清楚他的研究有多重要。
./Data\Keira\wavs\Keira_16.wav|Keira|ZH|万一落入心怀不轨的人,手里,结果不堪设想。
./Data\Keira\wavs\Keira_17.wav|Keira|ZH|再后悔也晚了。
./Data\Keira\wavs\Keira_18.wav|Keira|ZH|哎呀,抱歉,这话题太丧气了。
./Data\Keira\wavs\Keira_19.wav|Keira|ZH|我不应该提起来煞风景的。
./Data\Keira\wavs\Keira_2.wav|Keira|ZH|现在还不是时候。
./Data\Keira\wavs\Keira_20.wav|Keira|ZH|尤其是在我们的浪漫晚餐上。
./Data\Keira\wavs\Keira_21.wav|Keira|ZH|你知道瑟瑞卡尼亚人管那个星座叫什么吗?
./Data\Keira\wavs\Keira_22.wav|Keira|ZH|不对哦,是个含义,完全不一样的名字。
./Data\Keira\wavs\Keira_23.wav|Keira|ZH|事实上有点下流。
./Data\Keira\wavs\Keira_24.wav|Keira|ZH|靠近一点儿,我悄悄告诉你。
./Data\Keira\wavs\Keira_3.wav|Keira|ZH|好了,赶紧出去。
./Data\Keira\wavs\Keira_4.wav|Keira|ZH|你还挺乖的嘛,现在差不多准备好了。
./Data\Keira\wavs\Keira_5.wav|Keira|ZH|我不是说差不多好了吗?
./Data\Keira\wavs\Keira_6.wav|Keira|ZH|别打岔看仔细了。
./Data\Keira\wavs\Keira_7.wav|Keira|ZH|那是没错,但那样我就不会把你请到这儿来了。
./Data\Keira\wavs\Keira_8.wav|Keira|ZH|现在明白我为什么要那些材料了吧。
./Data\Keira\wavs\Keira_9.wav|Keira|ZH|如果我说去树林里帮我取些食材,我要做晚餐。

    可以看到,几乎不需要修改,而且每一条素材都进行了标注。

    对比图如下:


    FunAsr和Whisper对比 Large-v2 & Large-v3 vs speech_paraformer

    当然,Medium并非whisper的最高水平,现在我们来换成大模型:

def transcribe_one(audio_path):
model = whisper.load_model("large-v2")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
lang = max(probs, key=probs.get)
# decode the audio
options = whisper.DecodingOptions(beam_size=5)
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)
return lang, result.text

    返回结果:

./Data\Keira\wavs\Keira_0.wav|Keira|ZH|光动嘴不如亲自做给你看
./Data\Keira\wavs\Keira_1.wav|Keira|ZH|等我一下呀迫不及待了嘛
./Data\Keira\wavs\Keira_10.wav|Keira|ZH|你还会帮我吗真没想到你对葡萄酒也这么内行啊
./Data\Keira\wavs\Keira_11.wav|Keira|ZH|差不多吧好了 聊了这么久我都饿了
./Data\Keira\wavs\Keira_12.wav|Keira|ZH|还是赶紧开动吧我自己能应付
./Data\Keira\wavs\Keira_13.wav|Keira|ZH|这些蛋啊 鸡啊 鹅啊 满地都是
./Data\Keira\wavs\Keira_14.wav|Keira|ZH|再说我的经济状况很快就要改善了
./Data\Keira\wavs\Keira_15.wav|Keira|ZH|因为我很清楚他的研究有多重要
./Data\Keira\wavs\Keira_16.wav|Keira|ZH|万一落入心怀不轨的人手里结果不堪设想
./Data\Keira\wavs\Keira_17.wav|Keira|ZH|再後悔也晚了
./Data\Keira\wavs\Keira_18.wav|Keira|ZH|抱歉这话题太丧气了
./Data\Keira\wavs\Keira_19.wav|Keira|ZH|我不應該提起來煞風景的
./Data\Keira\wavs\Keira_2.wav|Keira|ZH|現在還不是時候
./Data\Keira\wavs\Keira_20.wav|Keira|ZH|尤其是在我們的浪漫晚餐上
./Data\Keira\wavs\Keira_21.wav|Keira|ZH|你知道森瑞卡尼亚人管那个星座叫什么吗
./Data\Keira\wavs\Keira_22.wav|Keira|ZH|不對哦是個含義完全不一樣的名字
./Data\Keira\wavs\Keira_23.wav|Keira|ZH|事实上有点下流
./Data\Keira\wavs\Keira_24.wav|Keira|ZH|靠近一点我悄悄告诉你
./Data\Keira\wavs\Keira_3.wav|Keira|ZH|好了,趕緊出去
./Data\Keira\wavs\Keira_4.wav|Keira|ZH|你还挺乖的嘛现在差不多准备好了
./Data\Keira\wavs\Keira_5.wav|Keira|ZH|我不是說差不多好了嗎
./Data\Keira\wavs\Keira_6.wav|Keira|ZH|别打岔 看仔细了
./Data\Keira\wavs\Keira_7.wav|Keira|ZH|那是没错但那样我就不会把你请到这儿来了
./Data\Keira\wavs\Keira_8.wav|Keira|ZH|现在明白我为什么要那些材料了吧
./Data\Keira\wavs\Keira_9.wav|Keira|ZH|如果我说 去树林里帮我取些食材 我要做晚餐

    整体上的偏差并不大,但标注上略逊FunAsr一筹。

    结语

    Funasr的模型paraformer-zh受益于60000小时的纯人工标注的数据来训练,中文参数达到220M个,它的两个模块,一个是基于前馈顺序记忆网络(FSMN-VAD)的语音活动检测模型,另外一个是基于可控时延 Transformer(CT-Transformer),相比 OpenAI 的 Whisper 这两块能力还是比较突出的。

    很难想象6w小时的数据还是纯手工标注,毕竟阿里财大气粗。

    而Whisper 则用了 68w 小时的数据,从这个层面来看,FunASR 似乎没占便宜。但Whisper 针对的是全球市场,68w小时里面有多少中文素材就很难说了,因此 FunASR 的中文语音转写效果确实比 Whisper 更优秀。