刘悦_刘悦的技术博客_LiuYue's Tech Blog

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

by Liu Yue/2024-12-09

标签: 10 ai ComfyUI dev Flux fp16 GGUF m4 Mac mini mps workflow 优点本地模型步出测试绘图能耗静音

m4 mac mini已经发布了一段时间，针对这个产品，更多的是关于性价比的讨论，如果抛开各种补贴不论，价位上和以前发布的mini其实差别不大，真要论性价比，各种windows系统的mini主机的价格其实是吊打苹果的。本次我们针对m4 mac mini的AI性能做个测试，使用目前泛用性最广的AI工作流软件:ComfyUI框架，基于MPS(fp16)模式进行测试。 Mac Os 本地部署ComfyUI &......

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

by Liu Yue/2024-12-08

标签: 15 30G 8G FP8 HunYuanVideo 体积使用分钟动画卡可玩模型混元版本甜品生成绅士腾讯视频量化需要

腾讯混元(HunYuanVideo)视频模型发布以来，视频效果有口皆碑，但由于推理门槛比较高，消费级显卡用户望而却步，最近大神Kijai发布了FP8量化版本模型，使得甜品卡用户也有了一餐秀色的可能。本次我们利用HunYuanVideo量化版模型来生成绅士视频。本地部署ComfyUI 首先需要本地部署ComfyUI框架，克隆官方项目：git clone https://github.com......

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署

by Liu Yue/2024-11-21

标签: 12G 40G ai MagicQuill Win11 修改元素动态可玩图像显存本地硬盘空间绘图部署需要

最近由 magic-quill 团队开源的 MagicQuill 项目十分引人瞩目，这个项目可以通过定制的 gradio 客户端针对不同的图像元素通过提示词进行修改，从而生成新的图像。值得一提的是，这个项目相当亲民，只需要20步迭代模型预测，甜品卡10秒钟就可以获取图片的修改效果，但是代价是至少需要40个G左右的磁盘空间。本次分享一下如何在本地(Windows11)来部署MagicQuill项目。首先需要下载依赖......

MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署

MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

by Liu Yue/2024-10-28

标签: ai MaskGCT Python3.11 TTS Windows11 克隆基于文字本地模型语音部署

前几天，又一款非自回归的文字转语音的AI模型：MaskGCT，开放了源码，和同样非自回归的F5-TTS模型一样，MaskGCT模型也是基于10万小时数据集Emilia训练而来的，精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。本次分享一下如何在本地部署MaskGCT项目，让您的显卡再次发烧。安装基础依赖首先确保本地已经安装好Py......

MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

Win11本地部署FaceFusion3最强AI换脸,集成Tensorrt10.4推理加速,让甜品显卡也能发挥生产力

by Liu Yue/2024-09-27

标签: ai FaceFusion3 Tensorrt10.4 Win11 加速发挥换脸推理显卡最强本地甜品生产力部署集成

FaceFusion3.0.0大抵是现在最强的AI换脸项目，分享一下如何在Win11系统，基于最新的cuda12.6配合最新的cudnn9.4本地部署FaceFusion3.0.0项目，并且搭配Tensorrt10.4，提高推理速度和效率，让甜品级显卡也能爆发生产力。安装最新版本Cuda12.6以及Cudnn9.4 CUDA是NVIDIA公司开发的一种技术，它能让GPU像CPU一样编程，让GPU也能参与到计算中来，......

Win11本地部署FaceFusion3最强AI换脸,集成Tensorrt10.4推理加速,让甜品显卡也能发挥生产力

Python3.11二进制AI项目程序打包为苹果Mac App(DMG)-应用程序pyinstaller制作流程(AppleSilicon)

by Liu Yue/2024-08-25

标签: ai app AppleSilicon DMG Mac pyinstaller Python3.11 二进制制作应用程序打包流程程序苹果项目

众所周知，苹果MacOs系统虽然贵为Unix内核系统，但由于系统不支持N卡，所以如果想在本地跑AI项目，还需要对相关的AI模块进行定制化操作，本次我们演示一下如何将基于Python3.11的AI项目程序打包为MacOS可以直接运行的DMG安装包，可以苹果系统中一键运行AI项目。 MacOs本地部署AI项目首先确保本地已经安装好 arm 内核的Python3.11程序，可以在Python官网进行下载和安装:pytho......

Python3.11二进制AI项目程序打包为苹果Mac App(DMG)-应用程序pyinstaller制作流程(AppleSilicon)

Win11不在C盘安装WSL2(Linux环境),安装cuda和默认使用Win11的网络代理服务

by Liu Yue/2024-08-02

标签: cuda C盘 Linux Win11 WSL2 代理服务使用安装环境网络默认

众所周知，WSL 2 为 Windows 用户提供了一个强大、高效且灵活的 Linux 环境，特别适合开发者使用。它结合了 Windows 和 Linux 的优点，为用户提供了更加全面和高效的工作环境。但缺点也很明显，那就是默认安装在本来空间就不富裕的C盘。本次我们在非C盘的盘符快速安装基于wsl2的linux开发环境，并且无痛使用Win11的网络代理服务。安装WSL 2 首先确保本机电......

Win11不在C盘安装WSL2(Linux环境),安装cuda和默认使用Win11的网络代理服务

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

by Liu Yue/2024-07-07

标签: CosyVoice Mac shot win 克隆实验室开源情感控制本地样本模型语言语音通义部署音色

近日，阿里通义实验室开源了CosyVoice语音模型，它支持自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 CosyVoice采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。 CosyVoice支持one-shot音色克隆：仅需要3~10s的原始音频，即可生成模拟音色，甚至包括韵律、情感等细节。在......

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

by Liu Yue/2024-05-31

标签: Azure ChatTTS TTS 媲美对标开源微软文字模型真人语气语音韵律魁首

前两天 2noise 团队开源了ChatTTS项目，并且释出了相关的音色模型权重，效果确实非常惊艳，让人一听难忘，即使摆在微软的商业级项目Azure-tts面前，也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型，例如大语言助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。目前在huggingface中的开源版本为4万小时训练且未SFT的版本。本次分享一下......

ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS

by Liu Yue/2024-05-10

标签: MacOs OpenVoiceV2 TTS 响度声音教程文字本地流程统一苹果语音部署

最近OpenVoice项目更新了V2版本，新的模型对于中文推理更加友好，音色也得到了一定的提升，本次分享一下如何在苹果的MacOs系统中本地部署OpenVoice的V2版本。首先下载OpenVoiceV2的压缩包：OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699 该版本针对MacOs系统做了一些优化，同时针对中文语音做了响度统一的修改。&nbs......

OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS

GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

by Liu Yue/2024-03-26

标签: 1.11 ai gpt SillyTavern SoVITS 声若女友幽兰接入教程酒馆

本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目，让让AI女友声若幽兰，首先明确一下，SillyTavern-1.11.5只是一个前端项目，它没有任何大模型文本生成能力，所以后端必须有一个api服务来流式生成对话文本，这里选择koboldcpp。首先看一下简单的项目运行架构图：这里SillyTavern作为前端负责向后端的Koboldcpp发起请求，Koboldcpp流式返回文本......

GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm

by Liu Yue/2024-03-09

标签: AppleMacOs CausalLM NSFW Sonoma 内容审查本地模型系统苹果语言部署量化

最近Mac系统在运行大语言模型（LLMs）方面的性能已经得到了显著提升，尤其是随着苹果M系列芯片的不断迭代，本次我们在最新的MacOs系统Sonoma中本地部署无内容审查大语言量化模型Causallm。这里推荐使用koboldcpp项目，它是由c++编写的kobold项目，而MacOS又是典型的Unix操作系统，自带clang编译器，也就是说MacOS操作系统是可以直接编译C语言的。首先克隆koboldcpp项目......

苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm

无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

by Liu Yue/2024-02-28

标签: 14B CausalLM Win11 中文内容审查无所不谈本地模型百无禁忌语言部署

目前流行的开源大语言模型大抵都会有内容审查机制，这并非是新鲜事，因为之前chat-gpt就曾经被“玩”坏过，如果没有内容审查，恶意用户可能通过精心设计的输入（prompt）来操纵LLM执行不当行为。内容审查可以帮助识别和过滤这些潜在的攻击，确保LLM按照既定的安全策略和道德标准运行。但我们今天讨论的是无内容审查机制的大模型，在中文领域公开的模型中，能力相对比较强的有阿里的 Qwen-14B 和清华的 ChatGLM3-6B。 &n......

无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践

by Liu Yue/2024-02-21

标签: AppleMacOs gpt Sonoma SoVITS 实践推理最新本地模型系统苹果训练

GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目，虽然在效率上没有办法和N卡设备相提并论，但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。环境搭建首先要确保本地环境已经安装好版本大于6.1的FFMPEG软件：(base) ➜ ~ ffmpeg -versionffmpeg version 6.1.1 Copyright (c) 2000-2023 the FFmpeg ......

苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

by Liu Yue/2024-02-02

标签: ai 专属云雀利用应用开发打造机器人模型自己自然语言

如今，大模型层出不穷，这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。但不能不承认的是，普通人使用大模型还是有一定门槛的，首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能的图形处理单元（GPU）或者专用的张量处理单元（TPU），以及大内存和高速存储器。说白了，本地没N卡，就断了玩大模型的念想吧。 &nb......

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope

by Liu Yue/2024-01-29

标签: ai ModelScope 一键双语基于字幕模型生成离线英双语

制作双语字幕的方案网上有很多，林林总总，不一而足。制作双语字幕的原理也极其简单，无非就是人声背景音分离、语音转文字、文字翻译，最后就是字幕文件的合并，但美中不足之处这些环节中需要接口api的参与，比如翻译字幕，那么有没有一种彻底离线的解决方案？让普通人也能一键制作双语字幕，成就一个人的字幕组？人声背景音分离如果视频不存在嘈杂的背景音，那么大多数情况下是不需要做人声和背景音分离的，但考虑到背景音可能会影响语音转文字......

离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

by Liu Yue/2024-01-25

标签: Python3.10 Whisper 中文优化实践对于文本识别语音转写

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。中文文本标注优化 Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。首先安装whisper:pip install -U openai......

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

龙蛇入笔,身不由己,码农出书以及无法控制的表达欲

by Liu Yue/2024-01-22

标签: 以及入笔出书无法控制码农表达身不由己龙蛇

拙著《Tornado（龙卷风）编程实战》结集付梓，自惟庸陋，略為芹献，积年咳唾，不入方家，聊供诸君一哂。这本书以异步框架Tornado为基底，透过一个完整的项目阐释异步框架结合Vue.js如何实现一个低成本的前后端分离架构。项目内涉及的知识点涵括：Web3.0、数据库、设计模式落地、算法和数据结构落地、跨境支付、全文检索、Websocket、以及当下时新的ChatGPT和深度学习等技术，最后以K8S部署收尾。 To......

龙蛇入笔,身不由己,码农出书以及无法控制的表达欲

如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face

by Liu Yue/2024-01-15

标签: Bert Face Hugging vits2 如何快速本地模型训练语音部署

Hugging Face是一个机器学习（ML）和数据科学平台和社区，帮助用户构建、部署和训练机器学习模型。它提供基础设施，用于在实时应用中演示、运行和部署人工智能（AI）。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub，因为它让开发人员公开分享和测试他们所训练的模型。本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。本......

如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

by Liu Yue/2024-01-10

标签: FunAsr Whisper 中文文字王者相颉识别语音达摩院阿里

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，最重要的是，FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能，也就是说，......

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 下一页