课程简介
深入剖析Agent智能体与多模态企业级应用开发。课程涵盖大模型核心技术与架构,如Transformer-XL、MoE等,讲解智能体Agent技术框架,包括规划型、记忆型、工具调用型智能体及开发框架。
目标收益
培训对象
课程内容
第一节大模型核心技术和架构分析
1.核心架构拆解
2.Transformer-XL
3.Mixture-of-Experts(MoE)
4.Sparse Attention
5.阐述DeepSeek采取的训练方法
6.大模型预训练技术
7.RoPE位置编码、FlashAttention优化
8.大模型对齐技术
9.DPO(Direct Preference Optimization)
10.RLHF(基于人类反馈的强化学习)
11.典型模型分析:GPT-4 Turbo、Claude 3 Opus、DeepSeek-R1
第二节智能体Agent技术框架
1.智能体范式的组成,不同智能体的整体介绍
2.规划型智能体
3.Tree-of-Thought(ToT)
4.Graph-of-Thought(GoT)
5.记忆型智能体
6.Vector Database(Pinecone/Chroma) + RAG(检索增强生成)
7.工具调用智能体
8.Function Calling(OpenAI)
9.Toolformer(Meta)
10.Agent典型框架
11.Agent的开发框架
12.AutoGPT、MetaGPT、Microsoft AutoGen
13.目前大模型Agent的主流企业级框架
14.LangChain Agents
15.LlamaIndex
第三节多模态技术体系的建立
1.输入模态的融合
2.视觉Vision-语言Language对齐方案
3.CLIP(Contrastive Language-Image Pretraining)模型的使用
4.多模态编码器
5.Flamingo大模型在Few-shot、上下文处理的优势
6.基于Flamingo的结构的Idefics2:SigLIP-SO400M+ Mistral-7B
7.输出控制技术
8.跨模态的生成
9.Stable Diffusion 3
10.跨语言语音生成领域标杆模型VALL-E X
11.企业级多模态数据处理流水线设计
第四节智能体核心能力开发
1.规划与推理能力
2.基于ToT的复杂任务拆解(
3.案例:供应链路径优化
4.知识图谱驱动推理
5.工具:Neo4j + SPARQL查询的使用
6.记忆与上下文管理
7.长期记忆存储
8.PostgreSQL + pgvector扩展
9.短时记忆优化
10.KV Cache压缩技术
11.工具调用开发
12.企业API集成
13.RESTful接口封装FastAPI
14.代码库:LangChain(链式编排)、LlamaIndex(企业数据索引)
15.调试工具:LangSmith(智能体行为追踪)
第五节典型行业Agent智能体案例实操
1、个性化推荐Agent
技术组合:DeepSeek-R1用户画像生成 + Faiss向量检索 + 强化学习动态调优
应用场景:实时分析用户浏览/购买行为,生成跨品类推荐策略(“母婴用品+家庭保险”组合营销)
数据源:POS交易数据 + 门店摄像头行为分析(YOLOv11)
2、合同审查Agent
技术组合:DeepSeek法律大模型 + DocParser OCR + 条款风险知识库
应用场景:百页级并购协议关键条款提取与合规性审查,耗时从40小时压缩至15分钟
3、电网调度Agent
技术组合:Fuxi气象预测模型 + 图神经网络(GNN)拓扑分析 + SCADA系统接口
应用场景:极端天气下电网脆弱节点预警,自动生成负荷转移方案
4、设备运维Agent:
技术选型:LSTM故障预测模型 + 工控系统集成
应用场景:运行商基站状态维护、去年华为力推给运营商的节能模型
第六节多模态输入输出应用落地技术
1.视觉模态处理:
2.目标检测:YOLOv11 + SAM(Segment Anything)
3.图像理解:DINOv2(自监督视觉编码器)
4.语音模态处理:
5.语音识别:Whisper Large V3(低资源语言支持)
6.语音合成:XTTS v2(情感语音生成)
7.跨模态对齐技术:
8.图文生成一致性控制:Kosmos-2(微软)
9.语音-文本同步生成:Voicebox(Meta)
10.企业级优化方案:
11.多模态缓存策略:Faiss向量索引加速
12.硬件加速:NVIDIA Triton推理服务器 + TensorRT优化
多模型企业级应用案例介绍
第七节多模型企业级应用案例介绍
1、智能客服系统:
多模态输入:用户截图+语音描述→问题定位(CLIP+Whisper)
多模态输出:工单生成(文本) + AR操作指引(3D模型)
2、工业质检系统:
视觉检测:缺陷分类(ViT-Huge)
报告生成:缺陷位置标注(SAM) + 维修建议生成(GPT-4)
3、AR辅助工业维修系统
设备故障现场视频(手机拍摄)+ 工程师语音描述 → 故障类型识别
使用 ViT-Huge 分类机械部件异常,结合 CLIP 关联语音关键词与图像特征
维修步骤图文生成、 通过Blender脚本自动化生成设备拆解流程
4、智慧交通事故处理系统
车载摄像头事故片段(视频)+ 车主语音描述 → 责任判定预分析
使用 YOLOv11 检测车辆碰撞轨迹, Whisper 提取事故时间、地点等要素
保险报案工单的生成、ARKit现场重建