Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)by Liu Yue/2024-01-25 标签: Python3.10 Whisper 中文 优化 实践 对于 文本 识别 语音 转写 阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。 中文文本标注优化 Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。首先安装whisper:pip install -U openai......了解更多
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽by Liu Yue/2024-01-10 标签: FunAsr Whisper 中文 文字 王者 相颉 识别 语音 达摩院 阿里 君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,......了解更多
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)by Liu Yue/2023-11-03 标签: Faster Python3.10 Whisper 双语 字幕 实践 快速 持续 视频 转录 进化 进行 Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。 本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。 &nbs......了解更多
极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践by Liu Yue/2023-05-04 标签: C++ cpp Whisper 人工智能 光速 字幕 实时 实践 文字 极速 版本 识别 语音 转录 进化 业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化,根据计算大小,使用 Arm Neon SIMD instrisics ......了解更多
闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)by Liu Yue/2023-01-17 标签: ai CPU cuda M1 Mac mps Python3.10 Pytorch Whisper 人工智能 基于 本地 而知 识别 语音 闻其声 雅意 前文回溯,之前一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),利用AI技术将文本合成语音,现在反过来,利用开源库Whisper再将语音转回文字,所谓闻其声而知雅意。 Whisper 是一个开源的语音识别库,它是由Facebook AI Research (FAIR)开发的,支持多种语言的语音识别。它使用了双向循环神经网络(bi-directional RNNs)来识别语音并将其转......了解更多