门户网站建设 简报百度关键词排名神器
2026/4/21 12:42:49 网站建设 项目流程
门户网站建设 简报,百度关键词排名神器,做网站推广的是什么职位,做网站标题居中代码今天这篇文章#xff0c;我就带大家从零开发一个多模态Agent——它能像真人一样看懂你的截图、听懂你的语音指令#xff0c;还能自动调用工具完成任务#xff0c;全程低代码实战#xff0c;小白也能跟着做#xff01;更重要的是#xff0c;这个项目不仅能帮你搞定日常工作…今天这篇文章我就带大家从零开发一个多模态Agent——它能像真人一样看懂你的截图、听懂你的语音指令还能自动调用工具完成任务全程低代码实战小白也能跟着做更重要的是这个项目不仅能帮你搞定日常工作还能直接包装成产品变现文末给大家分享3个真实赚钱案例先给大家看个实际效果你对着手机说帮我把这张会议截图里的待办事项提取出来生成Excel并发送到邮箱Agent会自动完成图片识别、文字提取、Excel生成、邮件发送全流程全程不用你动手这种全感知智能助手现在不管是企业办公还是个人效率提升需求都超级旺。一、多模态Agent核心原理3个模块搞定感知思考执行很多人觉得多模态Agent很高深其实拆解下来就3个核心模块像搭积木一样简单1. 核心架构拆解流程图表格先看整体架构流程图一目了然每个模块的核心功能、技术选型和作用用表格给大家列得明明白白模块核心功能技术选型作用感知模块图片识别语音转文字文字理解Stable DiffusionWhisperLangChain把多模态输入转成Agent能看懂的语言思考模块任务拆解工具匹配步骤规划DeepSeek-7B微调版决定做什么、用什么工具、先做什么执行模块工具调用结果整合错误重试PythonAPI接口Excel/邮件/浏览器实际执行任务处理异常情况其实这个架构的核心逻辑很简单让Agent像人一样做事——先通过眼睛图片识别和耳朵语音识别接收信息再通过大脑大模型思考该怎么做最后用手脚工具调用完成任务。2. 关键技术选型思路新手必看很多新手容易陷入选最牛的技术的误区这里给大家分享3个实战选型原则• 优先选开源免费模型DeepSeek-7B、Whisper-base、Stable Diffusion开源版零成本就能上手• 工具优先用APIExcel用openpyxl库邮件用smtplib浏览器用selenium不用自己造轮子• 轻量化部署用PythonFastAPI搭建服务本地就能跑后续可部署到云服务器二、实战开发从零搭建多模态Agent代码步骤接下来进入实战环节全程低代码跟着复制粘贴就能跑通我们以会议截图待办提取Excel生成邮件发送为例一步步实现。1. 环境搭建5分钟搞定首先安装必要的库直接复制下面的命令到终端执行# 核心依赖库 pip install python-dotenv fastapi uvicorn langchain deepseek-ai openai # 多模态处理库 pip install openai-whisper pillow pytesseract stable-diffusion-simple # 工具调用库 pip install openpyxl smtplib selenium webdriver-manager注意事项• 安装pytesseract时需要先安装Tesseract-OCR文字识别引擎官网下载地址https://github.com/UB-Mannheim/tesseract/wiki• 国内用户如果下载慢给pip加清华源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名2. 感知模块开发让Agent看懂和听懂感知模块是多模态的基础负责处理图片、语音输入转成文本信息。1图片识别提取截图中的文字用Stable DiffusionTesseract组合既能识别图片内容又能提取文字代码如下from PIL import Image import pytesseract from stable_diffusion_simple import StableDiffusion # 初始化图片处理工具 sd StableDiffusion(model_name“realisticVisionV51_v51VAE”) def image_to_text(image_path): “” 图片转文字先通过SD优化图片清晰度再用Tesseract提取文字 “” # 1. 读取图片 img Image.open(image_path) # 2. SD优化图片提升文字识别准确率 optimized_img sd.enhance_image(img, prompt“清晰的会议截图文字清晰可辨”) # 3. Tesseract提取文字 text pytesseract.image_to_string(optimized_img, lang“chi_sim”) # chi_sim表示中文识别 print(“图片提取文字”, text) return text # 测试代码 if __name__ “__main__”: image_to_text(“meeting_screenshot.png”) # 替换成你的会议截图路径2语音转文字听懂用户指令用OpenAI的Whisper模型支持100语言免费开源代码超简单import whisper # 加载Whisper基础模型轻量快速适合实时处理 model whisper.load_model(“base”) def speech_to_text(audio_path): “” 语音转文字支持mp3、wav等格式 “” result model.transcribe(audio_path, language“zh”) text result[“text”] print(“语音提取文字”, text) return text # 测试代码 if __name__ “__main__”: speech_to_text(“user_command.mp3”) # 替换成你的语音文件路径3多模态输入整合把图片和语音的文本结果整合传给思考模块代码如下def multi_modal_input(image_pathNone, audio_pathNone): “” 多模态输入整合支持单独图片、单独语音、图片语音输入 “” input_text “” if image_path: input_text “图片内容” image_to_text(image_path) “\n” if audio_path: input_text “用户指令” speech_to_text(audio_path) “\n” return input_text # 测试图片语音输入 input_text multi_modal_input(“meeting_screenshot.png”, “user_command.mp3”) print(“整合输入”, input_text)3. 思考模块开发让Agent会思考思考模块是Agent的核心用DeepSeek-7B模型实现任务拆解和工具选择代码如下from langchain.llms import DeepSeek from langchain.prompts import PromptTemplate from dotenv import load_dotenv import os # 加载环境变量DeepSeek APIKey在官网申请https://www.deepseek.com/ load_dotenv() api_key os.getenv(“DEEPSEEK_API_KEY”) # 初始化DeepSeek模型 llm DeepSeek(model_name“deepseek-chat”, api_keyapi_key, temperature0.3) # 定义任务拆解模板 prompt_template “” 你是一个多模态Agent需要根据用户的多模态输入图片内容语音指令拆解成具体可执行的步骤并选择对应的工具。 可用工具 1. 文本提取工具提取关键信息如待办事项、时间、负责人 2. Excel生成工具将数据生成Excel文件 3. 邮件发送工具发送Excel文件到指定邮箱 任务拆解规则 1. 先理解用户核心需求如提取待办、生成文件、发送邮件 2. 拆解成3步以内的具体步骤每步对应一个工具 3. 输出格式步骤1[工具名称]参数[具体参数]步骤2[工具名称]参数[具体参数]… 用户输入 {input_text} “” def task_planning(input_text): “” 任务规划拆解用户需求生成执行步骤 “” prompt PromptTemplate(templateprompt_template, input_variables[“input_text”]) plan llm(prompt.format(input_textinput_text)) print(“任务规划结果”, plan) return plan # 测试基于多模态输入生成任务计划 plan task_planning(input_text)这里的关键是Prompt模板的设计要明确告诉模型可用工具和拆解规则避免模型胡思乱想。如果觉得生成的步骤不够精准可以微调Prompt或者用少量数据微调DeepSeek模型具体微调方法在我的AI入门教程里有详细讲解。4. 执行模块开发让Agent会干活执行模块负责执行思考模块生成的步骤调用对应的工具完成任务。1文本提取工具提取待办事项def extract_todo(text): “” 提取待办事项从整合文本中提取时间、任务、负责人 “” # 这里用简单的规则提取实际可替换成LLM提取更精准 import re # 匹配时间xxx任务xxx负责人xxx格式 pattern r时间(.*?)任务(.*?)负责人(.*?)(\n2Excel生成工具生成待办表格from openpyxl import Workbook def generate_excel(todo_list, output_path“todo_list.xlsx”): “” 生成Excel文件将待办事项写入Excel “” wb Workbook() ws wb.active ws.title “会议待办” # 写入表头 ws[“A1”] “时间” ws[“B1”] “任务” ws[“C1”] “负责人” # 写入数据 for i, todo in enumerate(todo_list, start2): ws[fA{i}“] todo[“时间”] ws[fB{i}”] todo[“任务”] ws[fC{i}“] todo[“负责人”] # 保存文件 wb.save(output_path) print(fExcel文件已生成{output_path}”) return output_path3邮件发送工具发送Excel文件import smtplib from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.base import MIMEBase from email import encoders def send_email(excel_path, recipient_email): “” 发送邮件将Excel文件作为附件发送 “” # 邮件配置替换成你的邮箱信息 sender_email “your_email163.com” sender_password “your_email_password” # 163邮箱用授权码 smtp_server “smtp.163.com” smtp_port 25 # 构建邮件 msg MIMEMultipart() msg[“From”] sender_email msg[“To”] recipient_email msg[“Subject”] “会议待办事项Excel” # 邮件正文 body “您好这是会议截图中提取的待办事项Excel请查收” msg.attach(MIMEText(body, “plain”, “utf-8”)) # 添加附件 with open(excel_path, “rb”) as f: part MIMEBase(“application”, “octet-stream”) part.set_payload(f.read()) encoders.encode_base64(part) part.add_header(“Content-Disposition”, fattachment; filename{excel_path}“) msg.attach(part) # 发送邮件 try: server smtplib.SMTP(smtp_server, smtp_port) server.starttls() server.login(sender_email, sender_password) server.send_message(msg) server.quit() print(f邮件已发送到{recipient_email}”) return True except Exception as e: print(f邮件发送失败{e}) return False4执行引擎解析步骤并执行def execute_plan(plan): “” 执行计划解析任务步骤调用对应工具 “” # 解析步骤这里简化解析实际可用正则或LLM解析 steps plan.split(“”) todo_list None excel_path None for step in steps: if “文本提取工具” in step: # 提取待办事项这里用之前的input_text实际可从步骤中提取参数 todo_list extract_todo(input_text) elif “Excel生成工具” in step and todo_list: # 生成Excel excel_path generate_excel(todo_list) elif “邮件发送工具” in step and excel_path: # 提取邮箱参数这里简化实际可从步骤中提取 recipient_email “recipientexample.com” send_email(excel_path, recipient_email) print(“任务执行完成”) # 测试执行任务计划 execute_plan(plan)5. 整体整合搭建API服务可直接部署用FastAPI搭建API服务方便后续对接前端或其他系统代码如下from fastapi import FastAPI, UploadFile, File, Form import uvicorn app FastAPI(title“多模态Agent API”) app.post(“/run_agent”) async def run_agent( image: UploadFile File(None), audio: UploadFile File(None), recipient_email: str Form(…) ): “” 多模态Agent API支持图片、语音上传返回执行结果 “” # 保存上传的文件 image_path None audio_path None if image: image_path ftemp_{image.filename} with open(image_path, “wb”) as f: f.write(await image.read()) if audio: audio_path ftemp_{audio.filename} with open(audio_path, “wb”) as f: f.write(await audio.read()) # 1. 多模态输入整合 input_text multi_modal_input(image_path, audio_path) # 2. 任务规划 plan task_planning(input_text) # 3. 执行任务这里修改execute_plan传入邮箱参数 def custom_execute_plan(plan, email): steps plan.split(“”) todo_list None excel_path None for step in steps: if “文本提取工具” in step: todo_list extract_todo(input_text) elif “Excel生成工具” in step and todo_list: excel_path generate_excel(todo_list) elif “邮件发送工具” in step and excel_path: send_email(excel_path, email) return “任务执行完成” result custom_execute_plan(plan, recipient_email) return {“status”: “success”, “message”: result} if __name__ “__main__”: uvicorn.run(app, host“0.0.0.0”, port8000)启动服务后访问http://127.0.0.1:8000/docs就能看到API文档直接上传图片、语音文件输入邮箱就能测试全流程三、优化升级让Agent更智能、更稳定跑通基础版本后我们可以从3个方面优化让Agent更实用1. 提升识别准确率• 图片识别换用更大的OCR模型如百度智能云OCR或用SD的超分功能提升图片清晰度• 语音识别用Whisper-large模型准确率更高支持方言识别• 文本提取用LLM替代正则表达式比如用DeepSeek提取待办事项支持更灵活的格式2. 增强思考能力• 加入记忆功能用LangChain的Memory模块记住用户的历史偏好如常用邮箱、Excel格式• 支持复杂任务优化Prompt模板让模型能拆解多步骤任务如提取待办→分类→生成Excel→发送给多人• 错误重试在执行模块中加入异常处理失败后自动重试如邮件发送失败重试2次3. 扩展工具库• 办公工具新增Word生成、PPT生成、PDF处理功能• 网络工具新增网页爬取、数据查询功能如查询天气、股票• 本地工具新增文件管理、系统操作功能如自动整理文件夹四、变现思路3个真实案例普通人也能赚钱这个多模态Agent不仅能自己用还能包装成产品赚钱给大家分享3个真实案例1. 办公效率工具订阅制把Agent包装成会议助手支持截图提取待办、语音记录会议纪要、自动生成Excel和邮件定价99元/月卖给企业办公人群。有人靠这个月入2万核心是解决了会议记录繁琐、待办跟踪困难的痛点。2. 自媒体辅助工具单次付费针对自媒体人开发图文转视频语音配音功能上传文章截图Agent自动提取文字、生成视频脚本、匹配图片素材、语音配音定价9.9元/次批量卖给小红书、抖音博主每月轻松赚8000。3. 定制化开发项目接单给中小企业定制专属多模态Agent比如给培训机构做题库生成作业批改Agent给电商做产品图片识别文案生成Agent单个项目收费5000-20000元一年接10个单子就能赚10万。变现的核心逻辑是聚焦某个具体场景解决用户的实际痛点不用追求大而全小而美反而更容易赚钱。五、常见问题排查新手避坑环境配置失败优先检查Python版本推荐3.9-3.11国内用户记得用清华源安装依赖模型下载慢用国内镜像源或直接下载模型文件本地加载DeepSeek模型国内镜像https://modelscope.cn/models/deepseek-ai/deepseek-chat/summary识别准确率低优化图片/语音质量如图片清晰、语音无杂音换用更大的模型工具调用失败检查API密钥、网络连接确保工具参数正确如邮箱授权码、Excel路径如果遇到其他问题可以在评论区留言我会一一回复解答六、总结多模态Agent的未来已来现在AI已经进入多模态Agent的新时代单一功能的工具已经满足不了需求能看懂、听懂、会操作的全感知智能助手才是未来的主流。今天我们搭建的多模态Agent虽然是基础版本但已经覆盖了核心流程你可以基于这个框架扩展更多功能、适配更多场景。记住AI技术并没有那么难关键是找对方法先跑通最小可行系统再逐步优化。现在就动手试试吧跑通第一个多模态Agent你会发现AI开发原来这么简单赚钱的机会也比你想象中更多 如果你成功跑通了欢迎在评论区晒出你的成果我会抽3位朋友免费提供一对一优化建议想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询