2019.01.11 丨 58架构师

58搜索效率优化平台建设实践

2019.01.11 丨 58架构师

背景

58作为国内最大的分类信息服务平台,涵盖了租房、二手房、二手车、招聘、本地服务以及二手物品等分类信息,连接了百万级的信息发布用户与亿级的信息获取用户。

目前,列表页仍是分类信息服务的主要展示模式,让用户快速高效获取信息是列表页排序需解决的问题。针对58搜索场景,搜索团队开发了综合排序框架,涵盖了粗排、精排、调序三个阶段,融合了时效性、质量因子、点击率模型、转化率模型、个性化、相关性、打散去重等多种策略。其中,点击率模型、转化率模型以提升连接效率为优化目标,是综合排序中最为关键的排序因子,是分类信息服务平台的关键竞争力,能有效提升用户体验与效率,进而提升平台效率与收入。目前,基于机器学习的点击率/转化率预估是连接效率优化的通行手段,《连接效率优化实践》介绍了策略层面的优化路径以及每个阶段的主要策略,本文将主要介绍效率优化平台化建设方面的实践。

技术角度上,效率优化中的策略构建需要基于底层基础数据流程,包括日志合并、样本生成、特征工程、模型训练、上线实验等。因此,怎么进行流程整合衔接,实现模块复用,让算法同学从这些复杂的流程中解脱出来,将精力聚焦于策略优化,这就在技术层面上对平台建设提出了要求。

业务层面上,58作为综合的分类信息服务平台,提供了租房、二手房、二手车、招聘、本地服务等多种分类信息,而且每个类目的列表页又按照区域划分为不同产品形式。以租房为例,列表页从上往下依次分为精选、置顶、精品、普通等多个产品。这就要求效率优化针对不同业务、不同产品进行。怎么在多业务多产品形态上快速推广,避免流程重复建设,这在业务层面上对效率优化的平台能力提出了进一步要求。

综上所述,效率优化的平台化建设在实践中需要解决如下几个方面的问题:

  • 业务定制:针对多业务、多产品场景,怎么提炼业务与产品共性,实现针对业务的定制化支持。

  • 流程管理:针对日志合并、样本生成、特征工程、模型训练、上线实验等流程,怎么抽象整合以实现无缝衔接、定制、复用等管理能力以及针对策略优化的开放能力。

  • 迭代构建:平台建设需要做到不断与策略优化同步迭代,不仅仅在单个模块上需要不断迭代升级,整体流程随着新策略引入也需不断更新。

  • 专属流程:通常在效率优化早期因效果需要等原因,会形成针对不同业务不同产品独立维护的多套专属流程。怎么实现这些专属流程与平台建设相结合,并完成到平台的切换迁移也是需要考虑的问题。

    为解决这些挑战,我们构建了覆盖全流程的效率优化平台,通过配置抽象实现了定制化业务支持,通过平台整合实现了流程管理的规范化,建设过程中在模块与流程两个层面同步迭代,最终实现了全部专属流程到通用平台的切换迁移。

    本文主要介绍效率优化平台化建设实践,以实现业务定制、流程规范、能力开放为目标,涵盖了日志样本、机器学习、上线实验、平台化整合等模块,并对平台建设路径与流程切换实践进行了探讨。

    整体架构

    效率优化平台涵盖了日志样本、机器学习、上线实验三大基础模块以及平台化整合,其中:

    • 日志样本模块主要完成日志样本生成,包括日志合并,反作弊,帖子特征抽取,个性化特征生成,样本合并等基础数据流程。

    • 机器学习模块则是以样本为输入,经过采样,特征工程,模型训练以及离线评估等,最终产出可上线模型。

    • 上线实验模块完成模型的上线与验证,涉及推送工具,模型表达式生成,一致性验证,实验系统,报表系统等。

    • 平台化整合则实现了各个流程模块的衔接,提供了统一的操作管理界面,通过配置化实现对不同业务与产品的支持。

    效率优化平台建设遵循三个基本架构原则:

    • 端到端流程:效率优化平台实现了以原始日志为输入,最终产出模型的端到端全流程。区别于各种机器学习平台,它不仅仅只包含算法模块,还包括了日志合并,清洗,特征构建等。

    • 场景通用化:通过对业务与产品的配置化抽象,可以实现了对不同业务,不同产品的通用化支持。不以超越业务的通用化支持为目标,而是针对58业务产品在搜索场景下进行通用化支持。

    • 迭代构建:流程迭代上,从日志样本构建,逐步开展模型训练,上线实验相关工具的开发,最后进行平台化整合。具体模块上,也是持续迭代优化的过程,以模型支持为例,从LR, GBDT等基础模型,到逐步再支持GBDT+LR,FM等融合模型,进一步对深度学习模型进行了支持。

    效率优化平台是针对多业务多产品场景的解决方案,大幅减低了在多业务多产品上的扩展推广代价,降低了效率优化的门槛,提高了效率优化流程的规范化管理能力,实现了模型训练策略的沉淀、分享与复用。算法工程师们可以做到快速上手,并聚焦到特征构建、业务结合、新模型探索等效果优化上来。

    效率优化平台VS机器学习平台

    随着人工智能/机器学习商业价值的凸显,涌现出了大量的机器学习平台/框架,有针对传统基础模型的,也有针对深度学习的,它们一般都具备较强的通用能力,聚焦于具体的算法组件或者算法框架,也有部分涉及特征工程逻辑。Spark MLlib与Tensorflow是其中最具代表的两个:Spark MLlib作为机器学习框架,以传统模型(LR,GBDT等)为主,在Spark集群的支持下,可以作为支持模型训练的机器学习平台;Tensorflow是Google开源的深度学习框架,可用于构建深度神经网络的点击率/转化率预估模型,也提供较好的平台化配套能力,不少公司通过包装改造构建了自己的深度学习平台。

    如前所述,效率优化平台是针对具体业务场景支持到端流程的通用平台,与业界开放的机器学习平台/框架存在较大的区别:

    • 流程范畴:机器学习是效率优化平台的组成部分,效率优化平台中的机器学习包括了采样,特征工程,模型训练以及评估分析等,其中模型训练是基于Spark MLlib与Tensorflow构建的。因此机器学习框架是效率优化平台的组成部分,更确切的,是机器学习模块的组成部分。

    • 通用化程度:机器学习框架聚焦算法组件与框架,具备很强的通用性,而效率优化平台是针对具体业务场景的,其依赖的日志样本,上线实验都是业务相关的。

    • 优化目标:机器学习框架提供标准化组件,降低了开发门槛,但在日志合并,样本生成、特征提取、上线验证等基础流程上仍需花大量时间与精力。效率优化平台则致力于在特定业务场景下实现流程规范化,将注意力从这些繁琐的数据流程中解放出来,进一步聚焦特征挖掘与模型优化。

    日志样本

    日志样本模块是模型效果的基础,它以用户行为日志为输入,生成可供机器学习的样本,包含日志预处理、帖子特征抽取、用户个性化、样本生成等数据流程。其中,日志预处理对曝光日志、点击日志、转化日志进行合并清洗,形成原始样本;帖子特征抽取包括帖子结构化信息抽取,反馈特征统计以及文本图像特征;用户个性化进行用户偏好统计;样本生成对原始样本、帖子特征、用户个性化特征合并,形成完整的样本数据。

    日志预处理

    日志合并按照特定字段(搜索请求ID与帖子ID)对曝光、点击与转化三种日志进行关联。第一个迭代版本综合考虑了三端(PC、M、App)用户行为日志,开发了20+条数据流来支持,导致了维护与运行代价较大,日志异常排查困难。进一步流程梳理发现,因兼容PC、M端转化日志而引入了复杂的数据解析与校对逻辑。考虑到58流量已经主要来自APP端,业务层面也在实施PC、M端流量到APP端的导引,因此在后续日志合并流程迭代中,舍弃了PC、M端转化日志,将数据流简化到10条以内,通过减法迭代,有效降低了流程负债。

    日志清洗主要通过流量反作弊过滤无效数据,提升原始样本质量。基本思路是通过挖掘IP与用户黑名单来决定哪些日志不进入样本生成与效果统计中。实践中,我们引入了多指标判别机制与作弊标记机制。其中,多指标判别机制相比于之前基于曝光量单指标阈值判别方法,综合了曝光量、点击量、转化量、点击率、转化率五个维度联合判定,有效提升了反作弊准确率与数据质量;作弊标记机制保留了作弊日志数据,通过特定的字段来标识作弊类型,相比于之前将作弊日志直接删除,标记机制为效果数据的分析以及回溯追踪提供了良好保证。

    帖子特征抽取

    帖子维度包含三大类主要特征:基础特征、反馈特征、文本图像特征。基础特征主要指帖子结构化信息,比如租房帖子的面积、房型,二手车帖子的动力类型、车型车系等。针对帖子结构化信息的业务相关性,基础特征抽取采用了基于帖子类型的定制化抽取机制,可以根据不同帖子类型,加载相应的配置文件进行结构化信息抽取。离线样本生成与在线预测共用同样的基础特征抽取逻辑。

    反馈特征包括了历史反馈与准实时反馈。其中,历史反馈特征从当天0点往前推30天进行统计,每天计算一次;准实时反馈特征则从当前时间点往前推7天进行统计,每10分钟计算一次。反馈特征除了离线用于样本生成外,还需刷到特征中心,供线上预测使用。需要注意的是,为了保证离线样本与反馈特征的时效一致性,样本合并时会根据日志曝光时间与准实时特征统计时间进行对齐关联。

    帖子标题/描述以及图片对用户点击转化行为起着关键的影响作用,因此,文本与图像也是重要的帖子维度特征。文本特征抽取基于词向量实现帖子标题向量化,包含在基础特征抽取模块中。图像特征抽取涵盖了传统图像特征与深度图像特征,由于在线抽取性能问题,最终采用了离线抽取方式,抽取的特征一方面用于样本生成,另一方面刷入特征中心,供线上预测用。

    用户个性化特征

    用户个性化根据点击转化行为统计用户在帖子特征上的偏好度。与反馈特征类似,同时支持了历史个性化与准实时个性化化,其中历史个性化特征以30天为周期进行统计,准实时个性化特征以7天为周期,20分钟间隔进行滚动统计。

    流式计算虽能较好保证时效性,但在处理周期与资源消耗上难以兼顾,因此准实时个性化仍采用批处理架构进行计算,按时间片批量生成数据,再对固定数目的时间片合并形成固定周期滚动的准实时个性化数据,架构相对简单,操作性强,在资源允许的前提下,也能进一步提升实时性。

    个性化特征同样既用于离线样本生成,也需导入线上特征中心供预测用。针对准实时个性化,为了减少线上刷入量,每个批量的准实时个性化数据会先与历史数据进行比对过滤,只增量刷入有变化的数据。

    样本生成

    样本生成将原始样本、帖子特征、用户个性化特征按照帖子ID、用户ID进行合并,生成可用的样本数据。其中,准实时反馈特征需要根据日志曝光时间与该反馈特征的统计时间先进行时间对齐再按照帖子ID合并,准实时个性化特征同样需要按时间对齐后再按用户ID合并。

    为了方便新特征尝试,样本生成通过自动合并机制提供了开放能力,简化了特征接入流程:1)在特征注册平台上进行注册,完善特征的元数据描述,比如特征维度(帖子,用户)、特征时效性(是否需要按时间戳对齐)、特征类型、数据存储位置等,2)按规范格式与约定时效性在给定存储位置生成数据,样本生成流程就会自动合并。这种自助的特征接入方式,一方面简化了算法同学对新特征的尝试,另一方面,也提供了对外开放的能力,允许业务将特色数据接入进来作为特征,参与模型优化。实践中,二手车业务就通过接入用户标签数据作为个性化特征的补充,实现了转化效果的提升。

    特征注册形成的特征描述文件是样本的元数据,它描述了每部分特征的生成流程、时效性、存储路径等,进一步给出了每个具体特征的名称、类型、缺省取值、线上取值逻辑等。样本生成根据时效性与存储位置进行合并,特征描述文件的其他元数据在特征选择、特征工程、模型表达式生成中会进一步用到。

    样本生成上,由于业务的差异性,不同业务之间的帖子特征难以对齐,进而个性化特征也不能对齐,因此,样本数据在业务大类上进行了区分,按天生成,目前支持了租房,二手车,二手房,黄页,商业地产,招聘等业务大类。

    机器学习

    机器学习阶段以样本为输入,产出模型,包括样本采样、特征工程、模型训练几个主要步骤。其中,样本采样基于样本数据根据模型目标(点击/转化)选择标注,并做必要的正负样本采样;特征工程根据配置的特征工程逻辑,对特征进行预处理,为学习算法提供直接输入;模型训练选择具体的学习模型与算法,以特征工程的结果为输入,产出模型,并进行离线效果评估。

    样本采样

    采样的目的是形成符合模型训练需求的数据,提供了基于表达式配置的灵活采样方式,实践中用的比较多的主要有标注选取、实例采样、样本过滤。

    • 标注选取,针对样本数据中的点击转化行为事件,可以根据需要对标注进行选取。训练点击率模型可以将表征点击事件的数据列作为标注;训练转化率模型可以将表征转化事件的数据列进行处理形成相应的转化标注。特别的,在58的场景下,转化包括微聊、电话、收藏等多种类型,因此转化模型可以基于某类具体行为进行训练,也可以基于组合行为进行训练,实践中,主要关注电话转化模型与电话微聊组合转化模型。

    • 实例采样,无论是点击事件,还是转化事件,相对于曝光而言,比例通常都比较低,而正负样本不均衡会影响模型训练效果。因此支持了负样本下采样。同时,还支持了正样本上采样,应用于将点击转化融合在一个模型中的情况,对转化事件在点击维度上进行上采样,再训练点击率模型。同时,实例采样是在一个搜索列表页内进行的,以更好保证数据的有效性。

    • 样本过滤,在58场景下,当用户当前筛选条件过于宽泛,召回结果无法满足用户具体需求时,也就不会产生点击转化行为。在构建样本数据时,可以选择将没有用户点击行为的列表页曝光样本过滤掉,以保证数据更符合用户的行为特性。

    特征工程

    特征工程模块是保证模型效果的关键步骤,涉及特征分析与选择、特征变换、特征组合等。实践中实现了特征工程插件化,可以基于特征属性与优化需求配置相应的特征处理逻辑。目前提供了三种形式的组件,这些组件之间可以进一步在满足适配需求的前提下进行组合。

    • 特征选择:特征选择基于重要性分析,选择相关性强的特征作为输入,以提升模型效果与性能。支持单特征重要性分析,通过计算单维特征的相关性指标(信息增益,相关系数)来确定其重要性,同时实现了FCBF算法,它不仅考虑特征重要性,也考虑特征的互补性。基于模型的特征分析,也是特征选择的重要参考,比如基于LR特征权重,XGB特征重要度等。

    • 特征变换:提供对单维特征进行变换的能力,包括离散化,归一化,编码以及其他的函数变换。特征离散化对连续特征进行分段离散化处理,可手动配置,也提供基于决策树自动学习离散化分段的能力。特征归一提供了将数值特征规约到特定分布或特定范围。特征编码则主要支持热独编码,实现离散特征的向量化表示。

    • 特征组合:提供了两种主要的特征组合能力:笛卡尔组合,匹配组合。其中,笛卡尔组合相当于将两维特征的取值拼接来构建新特征,比如租房帖子信息的价格(区间)与面积(区间)组合,相当于在帖子维度进行了更精细的刻画。匹配组合则要求被组合的两维特征之间存在逻辑关联,通常应用于帖子特征与用户个性化特征,比如个性化偏好特征将帖子价格与用户对该价格的个性化偏好匹配,取匹配的偏好作为特征,该组合特征反应了用户对该帖子价格上的偏好度。

    模型训练与评估

    基础模型上支持了LR、GBDT、FM,使用Spark MLlib作为实现,特征工程阶段的结果可以直接作为输入。在此基础上,支持了融合模型与深度学习模型。

    模型融合是被广泛应用的优化策略,包括bagging,boosting,堆砌等多种融合方式。目前开发了融合模型框架,能够通用的支持两种形式的多模型融合:结果融合,特征融合。结果融合是通过训练一个或多个模型,将每个模型的预测结果作为新特征,与原有特征合并,再训练模型。特征融合是利用训练好的模型来构建特征,进一步将特征引入样本进行模型训练,比如基于GBDT模型构建叶子节点编码特征。

    模型融合框架配置灵活,支持多种形式的组合,保证了模型训练流程的统一性与可复用性。以LR+GBDT结果融合方式为例:1)在效率优化平台上按照正常流程训练好LR,2)训练GBDT模型时,根据融合框架的配置为每条样本计算LR模型预测得分,合并形成新的样本数据,3)进行正常的GBDT模型训练。在批处理框架下,为了将待融合模型的产出(预测结果或提取特征)与每条样本数据对齐,采用了样本唯一标识机制来进行合并。实践中,采用了搜索请求ID+帖子ID+展示位置三者组合的MD5值作为唯一标识。

    深度学习模型上探索了FNN,W&D,DeepFM几种模型。从模型的通用性上考虑,模型训练流程最终基于TensorFlow支持了W&D。模型训练阶段调用TensorFlow进行集成,由于Tensorflow对数据的输入有明确的规范,因此特征工程上针对W&D增加了相应的数据格式转化模块。

    上线实验

    模型离线效果符合预期的前提下,需将其推送至线上生效,涉及推送流程、实验系统与报表系统。在线预测模块通过热加载机制装载模型,当线上请求命中相应模型分流时,根据用户ID从特征中心获取个性化特征,从正排索引中获取帖子维度特征,构建在线样本数据,完成预测。

    推送流程

    推送流程整合了模型表达式生成、打分一致性验证、推送工具。其中,模型表达式生成将离线训练好的模型转换成可线上计算的表达式,包括特征取值表达式与模型计算表达式,特征表达式通过相应的组件从帖子索引或者特征中心获取数据,并完成特征工程计算,模型表达式则基于取值根据模型逻辑计算预测结果。打分一致性验证工具会验证线上线下模型逻辑的一致性,同时也会验证特征取值的一致性与时效性。推送工具提供规范化上线流程,目前上线流程包括测试环境验证,生产环境验证,以及分流灰度放量等过程,在引入新模型或者模型规模发生数量级膨胀时,还需要进行性能压测。

    实验系统

    模型在线效果验证需要实验系统支持。目前的实验系统主要支持按用户ID分流,提供召回与精排两个实验层。这样,每个流量(用户请求)过来时,首先访问实验系统,确定相应的召回与精排策略并进行染色,染色后的流量进一步下发到后台系统生成排序列表返回给用户,最终落地的用户行为日志会包含相应的染色标识,报表系统就可以根据染色标识统计不同模型的效果数据。

    平台化整合

    通过日志样本、机器学习、上线实验三个环节,已经完整的实现了从日志到模型产出的全流程支持。算法同学可以自由的基于上述模块搭建自己的模型训练流程,并根据优化需要,进行流程适配。

    这种模式下,容易形成多个流程版本、难以合并沉淀、同时历史优化策略由于缺乏记录而无法分享、追溯与验证。这也就导致了流程维护代价大,新人上手与工作交接困难,优化路径没有积累沉淀等问题。

    针对这些问题,平台化整合通过对各个流程模块进行包装衔接,形成了统一的前端平台。最终,所有的模型训练流程操作都在平台上完成,包括日志样本的选取,机器学习流程的配置,打分验证与上线推送。

    平台化整合实现了各阶段流程的无缝衔接,通过引入工作空间保证每个流程实例都能独立运行。目前,效率优化平台主要提供了三个层面的能力:

    • 流程能力:涵盖了任务创建,任务配置,运行监控,模型适配,推送上线,报表关联的全流程。以任务创建为例,用户可以首先选定业务,设定相应周期的样本数据,确定算法类型,然后进行相应的特征工程配置与模型参数配置,就可以启动训练了。

    • 管理能力:支持数据管理,流程管理,报表管理,实验管理几种基本能力。其中,数据管理包括对例行样本的查看、统计与监控;流程管理支持对模型训练流程的查询、修改、克隆以及归档;报表管理可以实现按业务按日期按模型查看效果数据;实验管理提供AB分流策略的配置,管理与查看。

    • 开放能力:特征开放平台提供灵活的特征接入能力,方便特征挖掘与尝试。新特征接入只需在特征注册平台上填写特征的元数据描述,然后将数据按照规范生成在给定路径下,样本合并流程就会例行的进行合并。除了特征开放,通过融合模型框架可以实现灵活的融合模型配置;通过训练流程的数据格式规范与接口规范,方便算法同学对新模型的探索与尝试。

    目前,所有业务相关产品的效率优化流程都已运行在整合后的平台上,实现了优化策略的沉淀与复用,有效的降低了维护代价,降低了优化门槛。

    • 策略沉淀复用:平台化后,模型的训练策略与结果在平台上实现了统一管理,便于参考、分享与复用,便于形成效率优化的经验沉淀;流程上,新功能新策略的引入门槛会提高,但保证了流程的整体质量,也便于策略模块的沉淀与共用。

    • 降低维护代价:后端只维护一套流程模块,无需每个人自己维护,显著降低了维护代价。

    • 降低优化门槛通过在前端配置即可完成样本数据生成,模型训练,大幅降低了效率优化的参与门槛。

    实践路径

    效率优化平台建设是一个迭代的过程,从日志合并建设,到形成内部可用版本,到完成所有专属流程到通用平台的迁移与切换,经历将近9个月的时间。

    • 首先,效率优化平台建设与策略优化是同步迭代开展的。一方面保证平台的早期能力能够被先用起来,得到验证,比如,一开始完成的通用日志模块与报表系统,专属流程也能使用;另一方面保证平台的可用性,算法同学在实践过程中,对平台需求点有更好的把握,也就能更好的满足实际需求。

    • 其次,平台各个模块的完善也是逐步迭代的过程。比如日志合并模块第一版做的比较复杂,维护代价大,问题排查也困难,进一步迭代时根据业务现状进行简化;日志清洗也是同样,刚开始,作弊日志全部被过滤掉,这样回溯、问题排查、作弊策略更改都会存在问题,第二版迭代时就采用了标识机制,进一步作弊策略也进行了多维度判别机制的升级与优化。

    • 最后,平台化整合后,需要将内部的多条专属流程迁移到通用平台上来。流程迁移是一个复杂的过程,涉及多个业务,并且有明确的切换标准,也是验证与实现平台化的关键一环。因此,这里重点介绍一下我们在流程切换上面临的挑战以及相应的解决思路。

    实现专属流程到效率优化平台的全面切换与对齐,面临如下几个主要挑战:

    • 切换涉及面广,存在5套专属流程,涵盖二手房,二手车,租房多个业务,涵盖精选,普通,优先推送多个产品。

    • 效果对齐要求高,由于精选业务涉及收入,效果对齐上误差需低于1%。

    • 切换流程涉及多个阶段,大的阶段就包括日志合并,样本生成,模型训练,模型上线,最终的效果对齐依赖每个阶段的对齐结果

    针对这种现状,对切换工作进行了详细规划:

    • 将整个对齐工作分拆成了数据量对齐、数据匹配度对齐、特征效果对齐、离线效果对齐、在线效果对齐几个子阶段。

    • 明确具体细化到每个子阶段的对齐衡量指标,明确每个子阶段对齐的标准是什么,而且要求在完成前置阶段的对齐后,才能进行后续阶段的对齐,保证对齐过程的可追溯。

    历时一个月时间,最终完成了二手车,二手房,租房以及这些业务涉及的不同产品形态的流程迁移,实现了效率优化流程的统一管理,通过效率优化平台:

    • 加快了特征与模型的优化迭代速度,方便新特征添加与新模型引入。

    • 实现效率优化策略与流程的统一管理,能够快速的实现复用,分享与沉淀。

    • 它显著提升了工作效率,在新业务拓展,维护代价以及工作接手上,工作量大幅下降。

    总结

    在效率优化平台建设的过程中,工程能力、数据建设以及迭代优化是三点主要的实践体会:

    • 工程能力:算法同学以及算法团队需要具备良好的工程能力,尤其是以算法应用为主的团队。离不开代码开发,比如各种数据流程的建设,特征开发,算法开发等。实践中,算法同学或多或少的存在一些误区,不重视工程能力的培养,从而限制了算法的发挥空间。

    • 数据建设:数据重要性在平台建设上体现为数据流程的构建,除了通过策略保证数据质量外,还需形成例行化的数据监控预警机制,在数据发生异常波动时,能够及时感知。

    • 迭代优化:无论平台建设也好,效率优化也好,都是一个迭代的过程,清晰的规划是达成最终结果的重要保障,比如,在存在大量专属流程的情景下,怎么兼顾好平台建设与效果优化,离不开清晰的系统设计与迭代规划。

    效率优化平台目前已服务于58所有业务的列表页排序,在提升工作效率的同时,实现了效果指标的提升。后续平台建设上将进一步夯实流程,实现新技术的探索与整合,并在日志层面丰富用户行为数据,主要包括以下几个方面:

    • 深度学习:目前深度学习流程基于Tensorflow,只在模型训练阶段进行对接,后续在丰富深度学习算法的同时,将进一步的适配整合。

    • 在线学习:在线学习与批量离线学习在流程架构上存在较大差异,在线学习需要能够准实时的获取样本数据与模型更新。构建在线/离线学习一体化平台,将作为平台建设的一个探索方向。

    • 配置抽象:目前平台上,各个阶段的配置项,以及某个阶段内部的配置项关联仍需算法同学手动配置维护。进行配置抽象、实现智能化配置也是降低平台门槛,提高工作效率的重要手段。

    • 丰富数据:目前转化行为定义为发起电话或微聊,缺乏有效性界定,后续将接入深层次的转化数据,以实现更接近交易的转化率预估。

    文章来源:58架构师微信公众号

    作者:罗景

    原文链接:https://mp.weixin.qq.com/s/CItxivMA4fCBMgpYGfcrxw 

    媒体联系

    票务咨询:赵丹丹 15802217295

    赞助咨询:郭艳慧 13043218801

    媒体支持:景    怡 13920859305

    提交需求