2026/1/17 13:55:56
网站建设
项目流程
合肥红酒网站建设,html网站正在建设源码,平远县建设工程交易中心网站,建什么网站#x1f680;
最近搞了一个挺有意思的项目#xff1a;用 Vue3.5 Node.js 从 0 到 1 打造一个生产级的 AI 多模态应用。
你可以在里面#xff1a; 跟 AI 实时对话#xff08;支持流式打字动画#xff09;#x1f4ac; 输入文字#xff0c;直接合成语音#xff0c;秒…最近搞了一个挺有意思的项目用Vue3.5 Node.js从 0 到 1 打造一个生产级的 AI 多模态应用。你可以在里面跟 AI 实时对话支持流式打字动画输入文字直接合成语音秒变播音员️打开麦克风“边说边写”语音实时转文字️→⌨️甚至还能用一句话生成图片先上个图镇楼 项目背景 技术选型传统 AI 应用一般只做到聊天或语音单点功能我们的目标是——多模态整合用户能在同一平台体验完整的 AI 能力。技术栈选得都是最新稳定版并且围绕“可维护性 性能 用户体验”下了不少功夫 技术栈核心前端Vue 3.5 Vite Element Plus Pinia markdown-it后端Node.js Express Prisma MySQLAI 模型接入字节的 豆包 多个模型对话模型支持快速深度思考模式图像生成Seedream 4.0语音合成TTS语音识别ASR核心亮点拆解开发者视角✅ 1. 登录 权限安全做到了极致我们不是简单写个登录接口就完事儿而是JWT HttpOnly Cookie存储前后端自动鉴权支持角色权限用户 / 管理员防 CSRF / XSS登出清除所有状态密码加密用的是 bcrypt 单向哈希体验上用户完全无感开发上也很省事。 2. AI 对话系统双模型 流式输出快速模式回答快深度模式适合复杂逻辑问题。难点是两个模型参数格式不一样还要做流式输出逐字显示。解决方案后端统一封装接口自动判断模型类型前端自定义 POST SSE 客户端支持流式渲染用户只管点按钮打字效果很丝滑~ 3. 聊天长列表不卡顿我们用了虚拟滚动聊天记录多了页面卡顿是常态我们用虚拟滚动 分页方案初始加载 20 条消息支持滚动加载更多可视区域 buffer 区渲染其他用 padding 占位自动保持滚动位置体验完全不打断性能提升效果惊人项目优化前优化后首屏加载1.8 秒0.3 秒DOM 节点200040滚动帧率30~40fps55~60fps 4. TTS 实时语音合成0.5 秒内开口说话传统 TTS 有 3~5 秒延迟这太慢了。我们做了后端用 WebSocket 中继豆包 TTS 服务前端用 Audio 标签边接收边播放文本预处理去 markdown、限制长度最终效果基本做到了“输入即说话”延迟控制在 0.5~1 秒之间 5. 富文本编辑器 AI 写作助手基于 WangEditor 二次封装支持选中文本生成续写内容也可点击工具栏触发 AI生成内容逐字输出写完自动插入到光标处优势非常适合写简历、方案、内容草稿之类的场景。 6. 语音转写ASR真正做到“边说边写”通过麦克风录音 → PCM 流传输 → 实时返回识别结果 → 实时填进文本框。支持格式转换Float32 → Int16 PCMWebSocket 通信、错误重连机制最小延迟识别结果边说边填不掉帧结果打字效率 ×2不用再手动输入长段内容。 7. 图片生成不仅能画还能保存得住豆包图像生成是在线图片 URL但 URL 1 小时就失效我们的处理方式后端自动将图片下载存到本地支持智能识别格式最多并发下载 4 张本地路径写入数据库图片长期可用✅ 工程化细节补充统一异常处理 日志记录使用 Morgan接口响应格式统一code/msg/data模块解耦清晰方便后期功能扩展Prisma 类型推导 自动生成 SQLWebSocket 与 REST 协同管理连接状态 总结一下你可以把这个项目理解成一个“轻量 AI 多模态平台”。✔ 安全性JWT Cookie 加密✔ 用户体验流式、实时、不卡顿✔ 工程质量架构清晰代码规范日志可观测✔ AI 能力对话 语音 图像多模态整合✔ 可维护性模块化开发方便继续扩展新模型、新功能从0到1打造一款具备Ai聊天AI写作文生图语音合成语音识别功能的多模态全栈项目多模态AI项目开发链接