Whisper

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

by Liu Yue/2024-01-25

标签: Python3.10 Whisper 中文优化实践对于文本识别语音转写

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。中文文本标注优化 Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。首先安装whisper:pip install -U openai......

了解更多

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

by Liu Yue/2024-01-10

标签: FunAsr Whisper 中文文字王者相颉识别语音达摩院阿里

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，最重要的是，FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能，也就是说，......

了解更多

持续进化，快速转录，Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

by Liu Yue/2023-11-03

标签: Faster Python3.10 Whisper 双语字幕实践快速持续视频转录进化进行

Faster-Whisper是Whisper开源后的第三方进化版本，它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等，从而减少了计算量和内存消耗，提高了推理速度，与此同时，Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等，用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践，看看效率如何。 &nbs......

持续进化，快速转录，Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

了解更多

极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

by Liu Yue/2023-05-04

标签: C++ cpp Whisper 人工智能光速字幕实时实践文字极速版本识别语音转录进化

业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者，白璧微瑕之处在于无法通过苹果M芯片优化转录效率，Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本，它具有无依赖项、内存使用量低等特点，重要的是增加了 Core ML 支持，完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化，根据计算大小，使用 Arm Neon SIMD instrisics ......

极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

了解更多

闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

by Liu Yue/2023-01-17

标签: ai CPU cuda M1 Mac mps Python3.10 Pytorch Whisper 人工智能基于本地而知识别语音闻其声雅意

前文回溯，之前一篇：含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)，利用AI技术将文本合成语音，现在反过来，利用开源库Whisper再将语音转回文字，所谓闻其声而知雅意。 Whisper 是一个开源的语音识别库，它是由Facebook AI Research (FAIR)开发的，支持多种语言的语音识别。它使用了双向循环神经网络（bi-directional RNNs）来识别语音并将其转......

闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

了解更多