Agentic AI 赋能视频创作-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

课程将从OpenAI定义的L1-L5智能体演进范式切入，详细探讨Agent的认知架构、核心能力（自主性、规划、工具使用、记忆与反思），并重点剖析RAG与Agentic RAG如何赋能Agent进行复杂知识获取与推理。

目标收益

培训对象

课程内容

第一天：Agent技术演进与核心能力解析

上午：L1-L5智能体演进范式与Agent认知基础
•AI Agent智能体技术概述与行业背景
￮AI行业总览：技术、应用、资本视角下的AI发展趋势。
￮从LLM到Agent的必然：通用大模型能力的边界与Agent的出现。
￮OpenAI定义的AGI发展路径与L1-L5智能体：
▪L1: Chatbot (对话机器人)
▪L2: Reasoning (推理)
▪L3: Agent (智能体)
▪L4: Innovation (创新)
▪L5: Organizer (组织者)
￮Agent的智能边界：通用智能与专用型Agent的平衡。
•实战一：探索大模型推理能力的演进与应用
￮动手完成大模型各个阶段微调、训练和调参技巧。
￮理解大模型推理能力由来，动手实践模型训练。
￮实践模型强化学习和适用的场景。
￮Deepseek蒸馏实验和小样本场景下的落地探索。
•Agent的认知架构与核心能力模型
￮自主性（Autonomy）：Agent决策与行动的独立性。
￮规划能力（Planning）：任务分解、策略制定、行动序列生成。
￮工具使用（Tool Use）：让Agent调用外部API、数据库、网络工具。
￮记忆机制（Memory）：短期记忆（上下文管理）与长期记忆（知识库、经验回放）。
￮反思与学习（Reflection & Learning）：Agent如何从错误中学习，优化策略和知识。
•RAG (Retrieval Augmented Generation) 深度解析
￮大模型驱动的RAG技术架构剖析：检索器、生成器、重排器。
￮RAG技术的范式演进与核心步骤：从传统RAG到高级RAG。
￮GraphRAG的核心原理与前沿探索：知识图谱与RAG的融合。
￮优化RAG性能：Chunking策略、Embedding模型选择、向量数据库。
下午：Agentic RAG、高级工作流与主流框架

•Agentic RAG：智能体的知识增强利器
￮什么是Agentic RAG？为何它超越传统RAG？
￮Agentic RAG的核心原理：Agent如何驱动多步骤检索、筛选、重组信息并生成答案。
￮Agentic RAG与工具使用：Agent如何根据问题选择合适的检索工具、RAG策略。
￮案例解析：Agentic RAG在复杂问答、报告生成、研究分析中的应用。
•实战二：从RAG到Agentic RAG：动手构建智能知识检索系统全流程
￮在机器上构建RAG系统的核心环节（包括复杂知识库构建，检索召回）。
￮探索如何通过Agent的引入，将RAG系统升级为具备反思和迭代能力的Agentic RAG。
￮实际工作中知识库的构建和上下文工程的平衡。
•Agent典型工作流模式剖析
￮提示链（Prompt Chain）模式
￮路由（Routing）模式
￮并行化（Parallelization）模式
￮Orchestrator-Workers模式
￮Evaluator-Optimizer模式
•主流Agent框架介绍与实践基础
￮LangChain, LlamaIndex, Dify/Coze等框架对比分析。
•Agent安全框架与伦理考量
￮安全边界与风险评估：幻觉、偏见、隐私泄露。
￮行为约束与行动准则：Prompt Engineering与Guardrails。
￮可解释性与透明度保障：Agent决策过程的可追溯性。

第二天：多模态Agent的革命：重塑视频创作全流程

上午：从文本到影像——AI视频生成与图像创作
•专题：2025年AI视频生成技术全景解析
￮行业巨头与颠覆者：深入对比OpenAI Sora 2, Google Veo 3.1, Runway Gen-4.5, Kling 2.6等顶级模型的最新能力、技术架构与应用场景。
￮案例分析：迪士尼与Sora的联姻：剖析迪士尼10亿美元投资OpenAI的战略意义，探讨IP内容与生成式AI结合的商业模式与未来 [1]。
￮技术趋势：从物理世界模拟、长时序一致性到实时渲染，探讨视频生成模型的核心技术突破。
•实战三：AI视频生成工作流
￮Prompt Engineering for Video：学习如何编写高质量的视频生成提示词，控制镜头语言、场景、角色和动作。
￮多模型协同创作：实践使用Sora进行概念预演，使用Runway进行精细化制作，使用Kling进行批量化生产的工作流。
￮图生视频与视频编辑：探索使用Pika 2.1 Turbo等工具，将静态图像或现有视频片段转化为动态影像。
•专题：AI图像生成——从概念设计到营销物料
￮主流模型对比：Midjourney V7, Stable Diffusion, DALL-E 3 (via GPT-Image-1.5) 的最新进展，特别关注图像一致性、可控性和文本渲染能力。
￮Nano Banana现象：分析Google Nano Banana模型在角色一致性方面的突破及其在系列化内容创作中的价值 [2]。
￮应用场景：角色概念设计、场景氛围图、故事板绘制、海报与社交媒体营销物料制作。

下午：超越视听——语音、3D与多Agent协作

•专题：AI语音合成与实时交互
￮技术前沿：对比OpenAI Realtime API, Google Gemini 2.5 TTS, Grok Voice Agent API, ElevenLabs, MiniMax等主流语音AI的音色、情感表现力与实时性。
￮应用场景：
▪智能配音与旁白：为视频快速生成高质量、多风格的配音。
▪虚拟数字人对话：结合视频模型，打造可实时语音交互的虚拟角色。
▪本地化与翻译：快速生成多语言版本的音轨。
•专题：世界模型与AI驱动的3D内容生成
￮世界模型概念：理解“世界模型”，模拟物理世界，为Agent提供训练环境。
￮最新进展：介绍腾讯混元世界模型1.5、Google Genie 2、Spaitial AI Echo等在实时交互式3D世界生成方面的突破 [3][4]。
￮应用前景：从游戏引擎到虚拟制片，探讨AI 3D生成对影视、游戏和元宇宙产业的颠覆性影响。
•多Agent系统设计与协作机制
￮协作框架：角色分配（如“导演Agent”、“摄影Agent”、“剪辑Agent”），任务分解与冲突解决。
￮共享知识库：构建服务于视频创作流程的共享记忆和知识库，确保多Agent间的信息一致性。
案例构想：模拟一个多Agent协作场景，如“剧本分析Agent”自动生成分镜脚本，“视频生成Agent”根据脚本产出画面，“配乐Agent”匹配背景音乐。

第三天：Agent的企业落地与未来展望

上午：从自动化到自主体——Agent驱动的生产力革命

•专题：Agent驱动的Computer Use与浏览器自动化
￮技术前沿：深入了解Anthropic的Claude for Chrome等AI Agent如何通过控制浏览器和桌面应用，实现跨软件的复杂工作流自动化 [5]。
￮能力解析：探讨AI Agent在“Computer Use”方面的核心能力，如网页导航、信息提取、表单填写、文件操作等。
￮视频制作工作流自动化案例：
▪素材搜集Agent：自动监控素材网站、下载符合要求的视频/图片/音乐素材。
▪审阅流程Agent：自动将渲染好的视频上传到审阅平台（如Frame.io），并通知相关人员审阅。
▪发布Agent：自动将最终视频发布到YouTube、Vimeo等多个平台，并填写标题、描述、标签。
•专题：Agent的标准化与生态系统
￮MCP (Model Context Protocol) 的核心价值：理解MCP作为“AI的USB-C接口”，如何解决模型与工具之间连接的碎片化问题 [6]。
￮Agentic AI Foundation (AAIF)：了解AAIF的成立背景、创始成员（Anthropic, OpenAI, Block等）及其对推动开放、中立的Agent生态的意义。
￮三大通信标准：探讨MCP（工具访问）、A2A（Agent间协作）、ACP（消息传递）如何共同构建未来Agent互联网的基础设施。
•实战四：构建你的第一个视频制作流程Agent
￮低代码平台实践：使用Dify或Coze等平台，设计一个简单的自动化工作流，例如“自动为视频生成字幕并翻译”。
￮API与SDK：介绍如何通过Claude Agent SDK或OpenAI AgentKit等工具，以编程方式构建更复杂的Agent。
￮构想与设计：分组讨论，设计一个能解决团队实际痛点的Agentic AI工作流。

下午：Agent的企业实施、挑战与未来展望

•Agent企业内实战案例剖析
￮复杂问答Agent：以“Agentic RAG复杂问答框架”为例，构建企业内部的制作规范、项目历史、素材版权查询系统。
￮自适应学习型Agent：探讨Agent如何通过在线学习、经验积累与错误恢复，不断优化其在视频后期制作（如调色、剪辑风格）中的表现。
•Agent企业实施的最佳实践与挑战
￮推理型产品的崛起：从DeepSearch与MANUS等产品的成功，看Agent产品化的趋势。
￮自主Agent vs. 编排平台：探讨AutoGPT类产品与Coze/Dify类产品在企业应用中的不同定位与选择策略。
￮部署与运维：性能优化、成本控制、安全与监控。
￮投资与盈利模式：分析AI产品在ARR（年度经常性收入）、毛利和计价模式上的挑战与创新。
•AI Agent行业最新突破与未来展望
￮Agent基础设施热潮：记忆系统、上下文管理、浏览器/电脑使用等领域的投资机会。
￮硅基与碳基的融合：Agent的普及将如何影响现有的互联网生态和人类工作模式。
￮对未来的思考：AI训练AI，自我进化的可能性与挑战，以及AGI的终极愿景。

Agentic AI 赋能视频创作

HiroTan

某公司多模态大模型负责人

课程费用

5800.00 /人

课程时长

3天

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

5800.00 /人

课程时长

3天

近期公开课推荐

近期公开课推荐

LLM在软件测试领域的应用实践与大厂实战案例解读（公开课）

Agentic AI 赋能视频创作

HiroTan

某公司 多模态大模型负责人

课程费用

5800.00 /人

课程时长

3天

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

5800.00 /人

课程时长

3天

近期公开课推荐

近期公开课推荐

LLM在软件测试领域的应用实践与大厂实战案例解读（公开课）

某公司多模态大模型负责人