课程简介
1、了解目前RAG都有哪些变体?如传统RAG、GraphRAG、DeepResearch、多模态RAG等各个变体的特点和适用场景,了解技术原理,知所以然(Know How Beyond Anything);
2、了解面向RAG的知识库的处理方案、可用工具及相关模型;
3、了解目前RAG在真实落地中的问题坑点及常见应对措施,如chunk切分、rank排序等;
4、了解当前RAG的一些实际案例,都用来做什么?哪些可以做,哪些不可以做;
5、了解当前RAG的前沿技术和发展趋势,指出后续值得关注和投入的点。
6、了解针对RAG或者大模型应用过程中特定问题做特定分析,定位并解决问题的思路。
7、掌握基于langchain框架搭建RAG知识库问答、Agent实操,包括prompt优化、文档处理、文本分块、框架流程搭建等。
目标收益
培训对象
课程内容
DAY1-RAG初阶:RAG基础实操(共6H)
1、RAG/Agent的基础认知
1.1 什么是RAG,为什么要做RAG,什么场景下应该用RAG?
1.2 RAG的实现流程是什么?每个步骤分别在解决什么问题?
1.3 常见的RAG应用场景有哪些?大家都在用RAG做什么?
1.4 目前RAG的整个技术发展是怎样的?有什么变化趋势?
1.5 Agent是个啥?跟workflow有啥区别?目前Agent是个怎样的状态?
2、LangChain简介与核心架构(2H)
2.1 LangChain核心定位:大模型应用开发的“胶水框架”,核心优势与适用场景
2.2 LangChain核心模块解析:Models(模型)、Prompts(提示词)、Chains(链)、Indexes(索引)、Agents(智能体)
2.3 LangChain与大模型API的协同逻辑:简化开发流程的核心机制
2.4 LangChain开发环境搭建
3、基于LangChain搭建RAG应用实操(2H)
3.1 文档加载(Document Loading)实操:LangChain支持的文档格式(PDF、Word、TXT、网页)加载方法、基于mineru等多模态模型进行文档解析实操;
3.2 文本分割(Text Splitting)实操:递归字符分割、语义分割策略,分割长度与重叠度调优
3.3 嵌入模型与向量生成实操:使用OpenAI Embedding/开源Embedding模型生成文本向量
3.4 向量数据库实操:ChromaDB本地部署与使用,向量存储、查询、更新方法
3.5 搭建企业产品手册知识库(加载PDF文档→分割→嵌入→存储)实操。
3.6 实战练习:基于已搭建的产品手册知识库,开发简易问答应用(用户提问→检索知识库→生成精准回答)
DAY2-RAG初阶:对RAG真是业界场景的一些案例讲解(6h)
4、RAG/Agent的应用问题-在实际企业落地时主流的RAG框架和落地场景(6H)
4.1 当前有哪些成熟的RAG/Agent框架,其特性是什么?Ragflow,dify,qanything,maxkb? n8n?langraph?
4.2 当前搭建RAG有哪些比较好的现成模型?embedding? 文本大模型,多模态大模型?文档解析模型?
4.3 RAG研发时,可以去哪儿、且合理选择合适的模型?
4.4 业界案例:RAG用于代码场景:代码检索,代码review;
4.5 业界案例:RAG用于数据场景:数据分析、ChatBI;
4.6 业界案例:RAG用于写作场景:长文写作、文配图;
4.7 业界案例:RAG用于结构化场景:表单提取、简历-人选比对、长文图谱抽取;
4.8 业界案例:RAG用于翻译场景:翻译对、术语注入;
4.9 业界案例:RAG用于分类场景:动态分类、多分类问题怎么解;
4.10 业界案例:RAG用于运维场景:测试脚本自动生成、故障运维;
DAY3-RAG中阶:对搭建好的RAG系统进行评估并进行初步优化
5、RAG系统评估与优化(1H)
5.1 RAG/Agent怎么进行评估?如何量化和捕捉是哪块出现的问题?是索引的问题?噪声的问题?检索的问题?还是生成的问题?
5.2 当前RAG在实际落地过程中有哪些典型问题?
5.3 从业务端优化RAG效果有哪些思路跟常见做法?
5.4 从技术角度优化朴素RAG都有哪些思路?query改写,query意图分类,query分解,多路召回,hyde等方式?
5.5 RAG评估核心指标进行评估实操
6、RAG中的R怎么做?如何优化(3H)
6.1 什么是RAG中的R是什么?
6.2 RAG中知识库怎么设计?怎么处理?有哪些粒度?
6.3 RAG中的文档怎么解析?不同数据来源怎么分开做处理?表格、图表、段落、标题、标题层级等如何解析?有哪些开源的工具跟案例?怎么清洗数据?如果用Agent做文档解析,有哪些方案?
6.4 RAG中的文档应该怎么切分,如何做索引?
6.5 RAG中的文档向量化应该如何做?如何选择好的embedding向量化模型?如何针对性优化自己的向量模型?
6.6 RAG中的文档检索、排序怎么做?向量化数据库怎么选?有哪些差异?重排?混合检索(多模态混排)是什么?
6.7 RAG中的query改写优化实操;
7、RAG中的A和G应该怎么做?prompt优化及生成技术 (2H)
7.1 RAG中的A和G是什么?
7.2 RAG中的prompt应该如何设计,召回后的内容如何进行组装?如何选择合适的fewshot作为ICL? 有哪些有趣的prompt-trick?
7.3 什么是Context Engineering(上下文工程)?跟prompt工程、RAG有啥区别?有哪些设计技巧?
7.4 RAG中的G通常都会有哪些常见能力?问答?引文生成?问题生成?如何设计?
7.5如何合成RAG的微调数据集?现有的合成工具有哪些,思路有哪些?
7.6 Agent中的记忆是啥?短期记忆?长期记忆?怎么针对不同的业务场景设计、构建不同的记忆索引?业界有哪些方案?多轮问题如何解决?
7.7 RAG中的prompt生成优化实操;
DAY3-RAG高阶:掌握当前RAG应用的高阶使用及前沿方案
8、方案进阶之GraphRAG,基于图谱搭桥方式提升性能(2H)
8.1 什么是GraphRAG,为什么要做GraphRAG?
8.2 GraphRAG的核心点是什么?都怎么做的?
8.3 坑是什么?适合做什么?不适合做什么?有哪些框架?
8.4 怎么降低构建成本?怎么做加速?
8.5 GraphRAG搭建实操
9、方案进阶多模态RAG,融合跨模态提升性能(2H)
9.1 什么是多模态RAG,为什么要做多模态RAG?
9.2 不同模态的信息如何组织?
9.3 如何解析?如何做生成?有哪些框架?
9.4 目前主流方式是什么?语音、视频、图像怎么做多模态RAG?
9.5 多模态RAG搭建实操
10、方案进阶AgenticRAG,基于Agent方式提升性能(2H)
10.1 什么是Deepresearch,为啥要做AgenticRAG?
10.2 其技术核心点是什么?难点是什么?
10.3 如何从数据端【如结合知识图谱】来合成复杂推理数据,增强模型的工具调用能力?
10.2 AgenticRAG搭建实操;
11、课程总结(0.5H)
11.1 在实际落地中RAG、Agent的一些业界建议
11.2 RAG在实际落地过程中的安全问题都有哪些解法?数据权限?模型输入安全,内容安全审核?
11.3 大模型应用现有总结及展望:目前处于什么阶段?目前的一些技术走向有哪些?有哪些落地建议?
近期公开课推荐