MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音by Liu Yue/2024-10-28 标签: ai MaskGCT Python3.11 TTS Windows11 克隆 基于 文字 本地 模型 语音 部署 前几天,又一款非自回归的文字转语音的AI模型:MaskGCT,开放了源码,和同样非自回归的F5-TTS模型一样,MaskGCT模型也是基于10万小时数据集Emilia训练而来的,精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。 本次分享一下如何在本地部署MaskGCT项目,让您的显卡再次发烧。 安装基础依赖 首先确保本地已经安装好Py......了解更多
ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-ttsby Liu Yue/2024-05-31 标签: Azure ChatTTS TTS 媲美 对标 开源 微软 文字 模型 真人 语气 语音 韵律 魁首 前两天 2noise 团队开源了ChatTTS项目,并且释出了相关的音色模型权重,效果确实非常惊艳,让人一听难忘,即使摆在微软的商业级项目Azure-tts面前,也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型,例如大语言助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。目前在huggingface中的开源版本为4万小时训练且未SFT的版本。 本次分享一下......了解更多
OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTSby Liu Yue/2024-05-10 标签: MacOs OpenVoiceV2 TTS 响度 声音 教程 文字 本地 流程 统一 苹果 语音 部署 最近OpenVoice项目更新了V2版本,新的模型对于中文推理更加友好,音色也得到了一定的提升,本次分享一下如何在苹果的MacOs系统中本地部署OpenVoice的V2版本。 首先下载OpenVoiceV2的压缩包:OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699 该版本针对MacOs系统做了一些优化,同时针对中文语音做了响度统一的修改。&nbs......了解更多
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽by Liu Yue/2024-01-10 标签: FunAsr Whisper 中文 文字 王者 相颉 识别 语音 达摩院 阿里 君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,......了解更多
栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)by Liu Yue/2023-10-23 标签: Bert Python3.10 vits2 克隆 实践 打造 文字 栩栩如生 视频 语音 音色 鬼畜 诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语料上进行无监督预训练,学习到通用的语言表示,然后将这些表示用于下游任务的微调。相比传统的基于词嵌入的模型,BERT引入了双向上下文信息的建模,使得模型能够更好地理解......了解更多
AIGC革新,将文字或者LOGO融入AI视频基于PIKA-labs(Python3.10)by Liu Yue/2023-10-07 标签: ai AIGC labs Logo PIKA Python3.10 基于 或者 文字 融入 视频 革新 很多平台都会禁止用户使用带有网址或者二维码的头像以及文章配图,这样可以有效的防止用户的一些“导流”行为。当然,头像、文章或者视频现在都是AI来审,毕竟现在人工的成本实在太高,但是如果我们把文字元素直接融入图像或者视频之中,如此一来,AI也会很难识别出一些“导流”的元素。 本次我们依靠PIKA-labs平台,无需本地环境,直接简单粗暴输出带有文字元素的光影视频效果,基于Python3.10。 文字/图片生成视频&nbs......了解更多
极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践by Liu Yue/2023-05-04 标签: C++ cpp Whisper 人工智能 光速 字幕 实时 实践 文字 极速 版本 识别 语音 转录 进化 业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化,根据计算大小,使用 Arm Neon SIMD instrisics ......了解更多
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)by Liu Yue/2023-03-07 标签: Edge Python3.10 speech text TTS 免费 口播 合成 基于 实践 开源 微软 文字 神器 语音 不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯飞语音合成进行平替,但我们只想要最好的那一个,本次我们使用免费的开源库edge-tts来实现文本转语音操作,薅微软edge的羊毛。 TTS文本转语......了解更多