课程费用

5800.00 /人

课程时长

3

成为教练

课程简介

课程将从OpenAI定义的L1-L5智能体演进范式切入,详细探讨Agent的认知架构、核心能力(自主性、规划、工具使用、记忆与反思),并重点剖析RAG与Agentic RAG如何赋能Agent进行复杂知识获取与推理。

目标收益

培训对象

课程内容

第一天:Agent技术演进与核心能力解析

上午:L1-L5智能体演进范式与Agent认知基础
•AI Agent智能体技术概述与行业背景
○AI行业总览:技术、应用、资本视角下的AI发展趋势。
○从LLM到Agent的必然:通用大模型能力的边界与Agent的出现。
○OpenAI定义的AGI发展路径与L1-L5智能体:
▪L1: Chatbot (对话机器人)
▪L2: Reasoning (推理)
▪L3: Agent (智能体)
▪L4: Innovation (创新)
▪L5: Organizer (组织者)
○Agent的智能边界:通用智能与专用型Agent的平衡。
•实战一:探索大模型推理能力的演进与应用
○动手完成大模型各个阶段微调、训练和调参技巧。
○理解大模型推理能力由来,动手实践模型训练。
○实践模型强化学习和适用的场景。
○Deepseek蒸馏实验和小样本场景下的落地探索。
•Agent的认知架构与核心能力模型
○自主性(Autonomy):Agent决策与行动的独立性。
○规划能力(Planning):任务分解、策略制定、行动序列生成。
○工具使用(Tool Use):让Agent调用外部API、数据库、网络工具。
○记忆机制(Memory):短期记忆(上下文管理)与长期记忆(知识库、经验回放)。
○反思与学习(Reflection & Learning):Agent如何从错误中学习,优化策略和知识。
•RAG (Retrieval Augmented Generation) 深度解析
○大模型驱动的RAG技术架构剖析:检索器、生成器、重排器。
○RAG技术的范式演进与核心步骤:从传统RAG到高级RAG。
○GraphRAG的核心原理与前沿探索:知识图谱与RAG的融合。
○优化RAG性能:Chunking策略、Embedding模型选择、向量数据库。
下午:Agentic RAG、高级工作流与主流框架

•Agentic RAG:智能体的知识增强利器
○什么是Agentic RAG?为何它超越传统RAG?
○Agentic RAG的核心原理:Agent如何驱动多步骤检索、筛选、重组信息并生成答案。
○Agentic RAG与工具使用:Agent如何根据问题选择合适的检索工具、RAG策略。
○案例解析:Agentic RAG在复杂问答、报告生成、研究分析中的应用。
•实战二:从RAG到Agentic RAG:动手构建智能知识检索系统全流程
○在机器上构建RAG系统的核心环节(包括复杂知识库构建,检索召回)。
○探索如何通过Agent的引入,将RAG系统升级为具备反思和迭代能力的Agentic RAG。
○实际工作中知识库的构建和上下文工程的平衡。
•Agent典型工作流模式剖析
○提示链(Prompt Chain)模式
○路由(Routing)模式
○并行化(Parallelization)模式
○Orchestrator-Workers模式
○Evaluator-Optimizer模式
•主流Agent框架介绍与实践基础
○LangChain, LlamaIndex, Dify/Coze等框架对比分析。
•Agent安全框架与伦理考量
○安全边界与风险评估:幻觉、偏见、隐私泄露。
○行为约束与行动准则:Prompt Engineering与Guardrails。
○可解释性与透明度保障:Agent决策过程的可追溯性。

第二天:多模态Agent的革命:重塑视频创作全流程

上午:从文本到影像——AI视频生成与图像创作
•专题:2025年AI视频生成技术全景解析
○行业巨头与颠覆者:深入对比OpenAI Sora 2, Google Veo 3.1, Runway Gen-4.5, Kling 2.6等顶级模型的最新能力、技术架构与应用场景。
○案例分析:迪士尼与Sora的联姻:剖析迪士尼10亿美元投资OpenAI的战略意义,探讨IP内容与生成式AI结合的商业模式与未来 [1]。
○技术趋势:从物理世界模拟、长时序一致性到实时渲染,探讨视频生成模型的核心技术突破。
•实战三:AI视频生成工作流
○Prompt Engineering for Video:学习如何编写高质量的视频生成提示词,控制镜头语言、场景、角色和动作。
○多模型协同创作:实践使用Sora进行概念预演,使用Runway进行精细化制作,使用Kling进行批量化生产的工作流。
○图生视频与视频编辑:探索使用Pika 2.1 Turbo等工具,将静态图像或现有视频片段转化为动态影像。
•专题:AI图像生成——从概念设计到营销物料
○主流模型对比:Midjourney V7, Stable Diffusion, DALL-E 3 (via GPT-Image-1.5) 的最新进展,特别关注图像一致性、可控性和文本渲染能力。
○Nano Banana现象:分析Google Nano Banana模型在角色一致性方面的突破及其在系列化内容创作中的价值 [2]。
○应用场景:角色概念设计、场景氛围图、故事板绘制、海报与社交媒体营销物料制作。

下午:超越视听——语音、3D与多Agent协作

•专题:AI语音合成与实时交互
○技术前沿:对比OpenAI Realtime API, Google Gemini 2.5 TTS, Grok Voice Agent API, ElevenLabs, MiniMax等主流语音AI的音色、情感表现力与实时性。
○应用场景:
▪智能配音与旁白:为视频快速生成高质量、多风格的配音。
▪虚拟数字人对话:结合视频模型,打造可实时语音交互的虚拟角色。
▪本地化与翻译:快速生成多语言版本的音轨。
•专题:世界模型与AI驱动的3D内容生成
○世界模型概念:理解“世界模型”,模拟物理世界,为Agent提供训练环境。
○最新进展:介绍腾讯混元世界模型1.5、Google Genie 2、Spaitial AI Echo等在实时交互式3D世界生成方面的突破 [3][4]。
○应用前景:从游戏引擎到虚拟制片,探讨AI 3D生成对影视、游戏和元宇宙产业的颠覆性影响。
•多Agent系统设计与协作机制
○协作框架:角色分配(如“导演Agent”、“摄影Agent”、“剪辑Agent”),任务分解与冲突解决。
○共享知识库:构建服务于视频创作流程的共享记忆和知识库,确保多Agent间的信息一致性。
案例构想:模拟一个多Agent协作场景,如“剧本分析Agent”自动生成分镜脚本,“视频生成Agent”根据脚本产出画面,“配乐Agent”匹配背景音乐。

第三天:Agent的企业落地与未来展望

上午:从自动化到自主体——Agent驱动的生产力革命

•专题:Agent驱动的Computer Use与浏览器自动化
○技术前沿:深入了解Anthropic的Claude for Chrome等AI Agent如何通过控制浏览器和桌面应用,实现跨软件的复杂工作流自动化 [5]。
○能力解析:探讨AI Agent在“Computer Use”方面的核心能力,如网页导航、信息提取、表单填写、文件操作等。
○视频制作工作流自动化案例:
▪素材搜集Agent:自动监控素材网站、下载符合要求的视频/图片/音乐素材。
▪审阅流程Agent:自动将渲染好的视频上传到审阅平台(如Frame.io),并通知相关人员审阅。
▪发布Agent:自动将最终视频发布到YouTube、Vimeo等多个平台,并填写标题、描述、标签。
•专题:Agent的标准化与生态系统
○MCP (Model Context Protocol) 的核心价值:理解MCP作为“AI的USB-C接口”,如何解决模型与工具之间连接的碎片化问题 [6]。
○Agentic AI Foundation (AAIF):了解AAIF的成立背景、创始成员(Anthropic, OpenAI, Block等)及其对推动开放、中立的Agent生态的意义。
○三大通信标准:探讨MCP(工具访问)、A2A(Agent间协作)、ACP(消息传递)如何共同构建未来Agent互联网的基础设施。
•实战四:构建你的第一个视频制作流程Agent
○低代码平台实践:使用Dify或Coze等平台,设计一个简单的自动化工作流,例如“自动为视频生成字幕并翻译”。
○API与SDK:介绍如何通过Claude Agent SDK或OpenAI AgentKit等工具,以编程方式构建更复杂的Agent。
○构想与设计:分组讨论,设计一个能解决团队实际痛点的Agentic AI工作流。

下午:Agent的企业实施、挑战与未来展望

•Agent企业内实战案例剖析
○复杂问答Agent:以“Agentic RAG复杂问答框架”为例,构建企业内部的制作规范、项目历史、素材版权查询系统。
○自适应学习型Agent:探讨Agent如何通过在线学习、经验积累与错误恢复,不断优化其在视频后期制作(如调色、剪辑风格)中的表现。
•Agent企业实施的最佳实践与挑战
○推理型产品的崛起:从DeepSearch与MANUS等产品的成功,看Agent产品化的趋势。
○自主Agent vs. 编排平台:探讨AutoGPT类产品与Coze/Dify类产品在企业应用中的不同定位与选择策略。
○部署与运维:性能优化、成本控制、安全与监控。
○投资与盈利模式:分析AI产品在ARR(年度经常性收入)、毛利和计价模式上的挑战与创新。
•AI Agent行业最新突破与未来展望
○Agent基础设施热潮:记忆系统、上下文管理、浏览器/电脑使用等领域的投资机会。
○硅基与碳基的融合:Agent的普及将如何影响现有的互联网生态和人类工作模式。
○对未来的思考:AI训练AI,自我进化的可能性与挑战,以及AGI的终极愿景。

活动详情

提交需求