纠音级语音评测、NLP助力打造的知识图谱,详解作业帮AI如何落地

栏目:义务教育  时间:2022-12-01
手机版

  AI悄然改变着生活方式,如何将通用的AI能力有效供给特定领域下的不同业务?如何看待国内外AI领域开源现状?大模型、多模态这些研究热点,是昙花一现,还是百炼成钢?本文访谈了作业帮首席算法专家宋旸,看看这些技术在作业帮是如何落地的。

  记者:首先请宋老师介绍一下自己,目前在做哪些方面的工作,关注的领域有哪些?

  宋旸:我最早从事算法研发工作是从搜索开始的,从Spider到互联网的数据挖掘,到站点的价值分析,再到推荐算法,这部分经历主要是在百度期间进行的。到作业帮之后,主要开展的业务首先是题库建设相关。

  2019年,直播课兴起之后,又参与到直播课做一些为业务赋能的算法工作,包含NLP、语音等。目前NLP这块支持的业务场景会较广一些,包括翻译、作文批改、文本分类、题库里面题目的智能打标,还有知识图谱的建设等等。语音方面,主要是识别、评测、合成三大技术方向支撑现有业务。包括质检,语音检索,语音翻译,直播课场景里面的语音弹幕,评测,以及语音合成读题与AI交互发音等。

  AI赋能业务场景

  记者:语音弹幕,听起来是一个有意思的应用,能讲一下是怎样的业务场景吗?

  宋旸:语音弹幕本质上就是语音识别技术的一个具体场景的落地。在作业帮直播课的场景中,直播间的受众大多是偏低龄的学员,一般还不会打字输入,有的字甚至还不太认识。如何在这个场景下进行互动、满足他们爱回答问题的欲望,是一个有挑战的事情。如果只是做单纯的比如“A/B/C/D”、“?/×”的选择类的问题的话,形式过于单一。我们希望能为他们提供一些自由充分的表达,所以我们专门研发了仅通过一个点击就可以直接语音输入的功能。

  这个功能的主要难点在于,低龄儿童有时吐字不太清晰标准,同时缺少上下文的语境,可能还是跟领域相关的。所以针对这些问题,研发团队做出了一些改进和优化工作,比如短文本的语音识别技术的改进,以及针对特定场景的语言模型的引入等等。

  再比如,针对上课的场景,语文阅读课,老师需要搜集跟这个课程相关的阅读材料,来整理与该堂课相关的问题,这就可能会涉及一些精准的关键字等,这个场景一方面需要单独的语音模型,另外也要通过热词的方式叠加到该语音模型上。

  记者:NLP方面,在作业帮有哪些赋能的落地场景呢?

  宋旸:NLP方面,作业帮也做了一些重点的工作。一个是机器翻译,我们新上了一个拍照翻译的功能,学生在阅读大篇幅的英文段落时,需要有辅助翻译的工具。通过拍照翻译的功能,省去了手动输入、语音输入的麻烦。具体到K12的场景,例如拍照内容是一道题目,比如完形填空题,含有一些空格或者下划线上有特定的序号,如果使用通用的翻译软件得到的结果就会很差,序号、下划线的部分就会被翻译得有些糟糕。这时,就需要把这类难题单独抠出来,同时确保题面和一些特定的结构信息不丢失而不至于翻译错误。

  当然,针对语料场景上面的优化研究也是必不可少的步骤。所以说,研发团队考虑的是如何去做特定的优化和适配。再一个,机器翻译跟语音结合的场景,作业帮近期推出的一个学习硬件,亮点就是短句翻译的功能,其中也会引入语音的能力,实现中英文之间ASR和翻译的结合。这其中,把实现这些功能的算法去做到硬件本地化,解除云端的依赖,这是下一步的事,因为这个硬件本身的算力没有那么强,要把效果做好,还是有一些挑战的。

  另外,在题库辅助建设方面,其实也应用了很多NLP的能力,比如知识图谱。知识图谱其实就是把我们的整个知识点去做一个有机的组织,一是树状结构,二是知识节点之间也会有联系,比如谁是谁的前驱,谁是谁的后继。此外,这些知识点与题目的挂钩,因涉及到不同的知识体系,需要有教研的投入和参与。但对于作业帮5.8亿体量的题库更新而言,需要精加工的题目量级基本也是在千万的规模,这千万道题如果都单靠人手动打知识点标签,基本是不现实的。

  所以我们通过人做一些少量的标注,NLP模型训练的方式,能够实现模型辅助自动打标签。目前是多标签的任务,已经在多学科、多学龄段达到80%以上,甚至90%以上的适用率,可以基本替代教研来自动完成任务。当然,针对重点的场景,依旧需要老师做审核工作。

  记者:语音技术和NLP技术二者之间的融合,有哪些比较成熟的探索?

  宋旸:如果说语音和NLP的结合,质检是一个特别典型的场景。在直播课业务中,有大量涉及到语音沟通的内容都需要去做质检。而质检的话,技术上看就是去做一个语音的文本转写,转写完之后,通过NLP的方式,在里面找到疑似有问题的部分,结合自身的业务规则。比如通过关键词预发现的方式来做业务粗筛,为质检系统提供判断依据。

  再之后,根据质检业务同事的实际反馈信息,我们会把一些典型的质检,像数据比较丰富的、标准比较一致的,把它训练成模型,落地为机器质检。目前,已经形成了一套较完善的自动质检的流程。通过这个自助平台,业务侧的老师完全可以在平台上进行自主配置。精确率方面,不会要求特别高,因为我们还是更多想发现问题,只要在人力可控范围内,比如精确率10%、20%。假如系统发现了100个点,这里面有10个点确实有问题,就已经能很大程度辅助解决每天的质检问题了。因为纯人工的话,可能是从上万、几十万的点里面挑了这10个。所以它不会对精确率有很高的要求,更多的可能是希望有问题的尽量去召回。

  AI预期:有差距不代表不可用 

  记者:将AI能力融入实际场景的过程中,目前有哪些挑战?

  宋旸:挑战来源于业务侧的需求本身对AI的预期。AI领域一个最大的问题就在于,它不太可能有一个算法能做到100%,有的时候并不能达到需求侧的预期。比如,作文批改这个场景就比较典型,虽然说在学术界、工业界,都做了很多探索,但实际上AI最终的效果离老师的预期还是有很大的差距的。当然,有差距不代表不可用,某些场景下可能就是适用的。

  比如,我们的产品里的作文批改的功能,对于家长来说,就非常实用,能够帮助家长来判断孩子作文的质量情况。因为这些作文的批改评价,虽说不如老师更准确,但还是能够提出一些初步的评定:好、特别好、特别不好,这都是较客观的分析结果。对于低年级的学生,这个功能也会帮助他们减少乱写、瞎写的情况。这都在一定程度上能够解决家长的诉求。

  对老师来讲,能够帮老师去做哪些事呢?比如说错别字、病句,AI能够帮老师筛选出来,但老师自己来挑的话,时间上来不及,还不一定能够挑得全。老师使用这个功能时,基本上扫一眼就能确认这些。这样老师可以节省出时间去做更高级别的事情,比如评价作文的立意,哪部分文字还有待优化等等。

  记者:这是一个改作文的场景,还有一些别的场景吗?这个场景辅助的作用更大一些,哪些可以基本上替代老师的呢?有哪些案例吗?

  宋旸:在批改作业的场景中,客观题和填空题,基本上已经可以用AI来做了。主观题的话是智能做到部分替代,这方面AI的能力和作文批改差不多,都在逐渐迭代中,不能完全解决,但是部分已经实现一定程度的自动化。

  其实我们还有一个场景就是语音里面的TTS,就是语音合成,语音合成这个场景其实在有些地方已经用上了,直播课里面有很多读题的场景,也还是面向小学低年级的孩子,出一个作业题的时候,还是要给他念一念,有一些孩子的字还不是认得全的,每一道题都念一遍的话,要找人配音的,成本非常高,所以目前的语音合成已经完全能够解决,因为小学低年级的课程设有卡通人物题,我们的思路是直接用合成卡通角色的声音,将每道题念出来,实际效果上非常自然,基本上和配音演员的不会差得特别多,已经完全能够很好的覆盖解决这样一个场景了。还有许多场景,我们也都在不断地迭代优化。

  记者:目前语音合成方面,如何才能做到非常自然的输出?

  宋旸:现在优秀的语音合成框架非常多,算法模型角度上看已经比较成熟了。语音合成的原理可以看成是一个ASR语音识别的逆向过程,关键还是需要训练数据得足够好。因为合成任务的输出非常依赖它的输入,所以对输入的要求是噪音干扰要尽可能的小。

  早期的时候,我们合成的结果经常伴有一些杂音、机器声等等,最后发现就是我们的训练语料存在局部的数据质量问题,噪音稍微多一些。当输入的质量提升后,这块问题很大程度上就能得到缓解。除了训练数据的质量,再一块就是训练数据本身的丰富程度,我们需要把要合成的内容相关的因素做到尽量全面覆盖。

  在语音领域,发音的最小的单元就是音素,有点类似于拼音中的音节。我们对收集的语料的要求都会细分到到每一个音素的覆盖,某个音素不能出现太多,也不能出现某个音素太少。这就要求我们选语料的时候,保证音素以及两个音素之间的连接,都能尽量达到均衡的覆盖。这样,效果会好一些。

  同时,语音情感方面,合成的输出下一步要实现“情感可选择”,就是用户可以选择需要什么样的情感,模型就去合成这样的情感。当前的研究还是针对不同的场景来做,比如阅读题目,训练数据里面就不要包含感情特别丰富的语料,然而在讲故事的场景下,就不能将“干巴巴”像读新闻内容那样放进来。语音合成对于不同领域还是要相应的适配,因为情感、语调、语气目前阶段对它的依赖会比较强的。这块研究在游戏领域里应用得更多一些,国外公司投入的较多。

  具体来讲,游戏领域,尤其3A大作,都需要优质的配音,这种配音很多是通过合成来解决的,但是对于语句情感有相应的要求,可以预制不同的情感来合成相应的脚本,然后软件里做一些简单的微调即可。

  记者:那如何评判这个语音合成的效果呢?有专门的指标吗?

  宋旸:合成整体其实还都是通过人主观的评分来解决的,主观评分一般都会定一个标准,让评估人员先确认一下多档的标准,明确档级的要求,通常需要找多个评分人员分别判断,然后将他们的平均分来作为这个指标评分。

  记者:在语音评测这方面,作业帮积累了哪些经验?

  宋旸:语音评测这个领域相对比较成熟,但现在也有一些很难解决的问题,比如一些极相似的音素,单靠技术手段不太能区分。比如说英文里“th”和“s”的发音,很多时候在AI模型里面很难能区分出这两种发音的差异。再有单词末尾的“s”,读轻音还是浊音也非常难判断。这个时候除非你刻意去读它,否则在正常读句子的时候,这个“s”到底发哪个音,有时我们人都不能听清,所以机器识别的话,效果就没有那么好。

  除了这些很难区分的读音之外,其他很多中国学生易犯的错误都已经可以比较好的区分识别。现在有一些纠音识别的方案,比如,你读一个音之后,不是仅仅给你做一个评分,而是告诉你这一个单词里面每一个音素的发音,标注哪个对,哪个不对。不对的话,你是错误的把它发成了什么音,会明确的给出提示并针对这个错误再去预制一些训练的方法。现在市面上更多的就是单独打分,作业帮目前能够做到纠音级别。目前我们在纠音这块已经有了不错的demo,这个demo后面会找到相应的场景来应用落地,可能更多会在B端的业务场景里进行。

  未来:AI能以较低调的姿态发展

  记者:您认为未来智能语音技术会出现哪些新场景?

  宋旸:智能语音场景,很难有一个特别大的突破,更多还是在现有的基础上再去做一些迭代。它体验上面,包括之前的同声传译,听起来比较“性感”,但是真正能落地的场景却比较少,很难用在日常生活中。可能对于出国群体,更有用武之地。

  所以,本人可能对于智能语音并没有特别高的预期,它可能不会特别火爆。随着技术的发展,很多事物都会以一种“低调”的姿态走进并影响我们的生活。比如TDS语音合成技术,可能某一天你就会发现很多场景下的声音都是技术合成出来的,但你并没有违和感。我相信,在未来的几年里,这都能够实现。

  记者:您是如何看待数字人的发展?

  宋旸:数字人是一个更大的挑战。在娱乐领域比较火爆,但还是偏小众一些,没法在大众场景里面普及。洛天依那么火,但其实影响的是个小众圈。当然,不少企业都在开发数字人,但不得不说现在依旧还不够成熟,更多还是做demo的阶段。有点像“拿着锤子去找钉子”的感觉,技术虽然有,但需要找场景去落地。

  大模型:语音领域值得一试

  记者:智能语音这块,您觉得未来您关注的哪些发展趋势觉得还值得研究一下的?

  宋旸:智能语音这块,现在整个AI界,预训练大模型是非常火的,预训练大模型基本上是新的摩尔定律,基本上每一年这个模型的参数规模翻一个数量级,至少已经连续几年是满足这个趋势的。这个还是很了不起的。预训练大模型最早是在NLP里面应用,图像里面现在逐渐有了这样的趋势,语音的话也是最近这一两年开始有一些好的实验结果出来,同时也有一些相应的预训练模型出来。

  我们其实下半年也会更重点在这个方向上发力,将尝试预训练大模型这块的一些探索与积累,至少相比于传统的训练方式会有所提升,原因上一个是它的基础的模型效果就好,第二是在领域适配训练的时候,需要的数据量和时间相对是更少的。当你有一定的算力规模的时候,这块还是有它的优势。

  记者:现在大模型的能力如何下沉到业务里边去,调用起来比较方便,这块咱们有什么初步的设想吗?

  宋旸:主要问题是训练的成本比较高,如果要做到和OpenAI一样,去刷新业界内知名的大模型的参数量,需要特别大的投入。相较而言,更可行的是,针对自身业务相对的去做一些较大的模型的训练。作业帮的有一定的算力优势,GPU的机器集群规模很大,但这些集群在夜间凌晨时段一定程度上是闲置的,所以我们可以做一个分布式训练的平台,去自由调度这些算力,以便于利用闲置的时段来服务于模型训练。所以现在来看,如果能把闲置资源利用好,由自己来实现一个大模型的预训练的工作,还是可以做到的。

  端到端、多模态:有热度不代表易突破

  记者:在一些基础的深度学习模型上改进,端到端、多模态也比较热,您是如何看待的?

  宋旸:端到端已经不是一个新概念了,但效果上一直没有特别突出。最近随着端到端模型本身的迭代,以及数据量的一些提升,端到端整体上是在更多的地方,比如说和目前流行的Kaldi的框架相比,很多的任务上能够做得更好些。所以作业帮现在大部分模型都已经切换到端到端的工具上了。

  语音评测上,下半年我们也将在端到端模型上去做一些探索和优化工作,并把整个语音评测的框架切换到端到端的模型上。另一个是多模态方面。多模态比较火,但在语音方面个人判断短期不会有大的突破性进展。

  多模态目前是文本与图像的结合最多,比如基于文本描述生成一张图,或者根据图像生出成文本描述,它的背后可以去实现文本和图像在同一个模型空间里面,用同一个向量同时表征它的文本和图像信息,融合在一起。

  但语音不一样,因为语音本身其实和文字是有映射关系的,它是文字的声音信号的表示。它可能产生增量收益的地方,就是语音所包含的语气、语调,会有额外的信息增加到里面来。所以说现在研究的三模态融合的模型,整体上看,语音在这里面表现偏弱些。因此从语音方面上看,多模态虽说是一个研究上的趋势,但不一定能真正有特别好的、突破性的进展项目。

  从JAX看框架流行的因素

  记者:您是如何看待谷歌最近推出的新一款JAX框架?

  宋旸:JAX这个框架,Tensorflow易用性这些方面还是差一些的,JAX从易用性角度会比Tensorflow稍微好一些,Deep mind在去年年底宣布全公司都切到这个框架了,谷歌系的很多公司都已经切到这个框架了。我感觉它现在的流行性在稳步发展,但还没有特别爆火,不像PyTorch推出之后的火爆,但是有明显优势。

  从作业帮的技术栈来讲,更多在用PyTorch。不管是学术界还是工业界,PyTorch都具备公认的易用性。再比如之前的Keras,非常方便接入到原有技术栈之中,而不需要对底层做太多改动、不需要设计一些很新的网络结构算子,所以Keras是一个非常棒的框架。这也是为什么Tensorflow2.0把Keras直接封装进去的原因。

  然而Tensorflow在编程、模型方面会相对难一些。PyTorch基本就是很Python化,跟Python编程非常相似。一个框架能流行有两方面因素,首先是看背后公司的推广的力度,社区的运营和丰富的程度,其次是领先的巨头公司是不是在用它做研究、出Paper、研发项目。有没有基于某个框架非常出名的项目,将对框架的推广产生非常大的助力。综合看这三种,未来AI开发栈的易用性会越来越好、越来越简化,这是一个趋势。

  如何看待AI开源

  记者:有一种声音认为现在AI在开源方面有些问题,认为巨头只是开放了他们觉得适合开放的。您认为应该如何对待开源的模型或框架?

  宋旸:选择把技术开源本身就是件值得点赞的事情,已有的一些开源其实已经很大程度上帮助了整个AI产业界和学术界的发展。如果没有开源的这些框架或相应的项目,很多事情我们都需要重新开始做,那将花费大量的成本。

  比如我们最早做机器翻译的时候,其实公司就是两个研发花了两个月的时间,一套东西基本就成型了,而且效果基本和我们对标的竞品是不差的。又经过两个月时间,基本上项目就已经完全超越了。能够实现这样一个效果,还是得益于现在的技术、框架的开源。否则,重新把训练和推理的架构写出来,不仅效果未必能保证,而且时间和人力的成本都将是巨大的负担。开源能让更多的人参与到AI领域,让大家更多的精力集中在赋能业务上。

  记者:有人认为国内开源的代码存在注释少,可解释性比较差的问题。国外的话就比较标准一些。您是如何看待这个事的?

  宋旸:开源是从国外流行起来的,社区的开源文化氛围也更浓厚些。目前国内的开源还没有那么的原生化,大家可能更关注是开源的东西能不能解决实际的业务问题。国内部分工程师并不是全职写开源项目,如果精力集中的话,会把代码、文档写得完善一些。可能即便写业务代码的时,除非外界有特别的要求,否则注释也比较少。这可能还是一个文化或者规范的问题。

  记者:有关将模型、能力本地化,您觉得需要注意哪些?

  宋旸:关于AI能力本地化这块,作业帮目前还在起步阶段,之前更多的用的还是云端的服务。

  本地化的好处,第一,能够解决云端计算资源的成本压力的问题,因为作业帮业务有大量的用户调用,云端资源难免出现吃紧的情况,尤其是像最典型的直播课的业务,不管是语音弹幕,还是语音评测,孩子都是同一时间上课,大部分时间是不调用那些服务的,可能就只有10秒钟会开启一次,瞬间流量就会涌来。它是一个大部分时间闲置,但是瞬时的并发又非常大的一个场景,云端其实特别不划算。所以第一是解决云端资源压力的问题。

  第二就是体验问题,当本地化模型和效果做得足够好的时候,它的延迟就能做得比云端要好很多。本地如果你做到位的话,它体验基本上是零延迟的,不管是评分还是ASR还是云合成,它的实时性上都会有更好的体验。

  记者:本地化可以理解成把训练好的模型封装到硬件里面去吗?

  宋旸:这需要针对业务侧的硬件平台去做一些定制化的工作。一些通用的模型,比如TensorLite,只要能够基于自身的平台的计算架构,进行交叉编译,你的模型基本都可以成功运行。但是有一些硬件平台比较特殊,比如它仅支持自身的TPU或者深度学习处理单元,就要针对它再去做一些定制的开发。

  概括来说,第一,本地化时的算力,其实是不像云端这么充沛的。第二,并不是所有算力都是全场景通用的,你还需要结合自身业务和平台去做一些改造或适配。

  记者:有关注到作业帮提出“订正推荐优先级”的作业方案,能详细介绍下吗?

  宋旸:这块属于自适应学习领域,就是根据学生做题的来源和历史数据,作业帮推出的作业方案。数据来源有多种,首先,我们把学生的日常作业电子化进行收集,得到作业的情况。第二,需要拿到考试的结果数据,比如具体答题的对错情况。第三,自主学习的平台上会产生自主学习的行为,也能够成为输入。

  不同来源的数据输入之后,我们就能够对学生的学习状况做一个预判,比如各个知识点的掌握程度、能力水平达到了一个什么级别,能完成多大难度的题目等等。有了这些东西之后,我们就可以去对学生做一个整体的知识图谱的描绘,优先推荐欠缺的知识点相关的题目,去着重巩固和提升。

  简单来讲,就是基于学生作题的数据,对学生做一个能力刻画,基于刻画以及所在群体进行比较来进行知识推荐。

  记者:AI能力方面,您认为作业帮有哪些优势?

  宋旸:AI能力的话,基于作业帮的场景,一是有很丰富的数据,二是有在场景下多年迭代的经验,能够把体验做到极致。我们不大可能像谷歌、Facebook那样去做非常Journal的研究,我们更务实一些,针对我们服务的业务、场景,真正把它能够打透。这些点其实都是在这些场景下做了很多的针对性优化,像OCR相关的拍照批改、NLP方面的质检、语音识别等等,都是针对我们的场景数据集的一些特定的问题和翻译,做了很多优化。

  虽说市面上通用的一些服务能力不少,比如质检和翻译,为什么还要自己做呢?还是在一种不同的领域场景下,通用的虽然它能做,但是你只要是有一个场景细分,你只要做一些针对性的优化和改进,就能够做到比通用的要好。并且这样的一个体验还是能够让用户有一些明确的感知的,对用户来讲是有必要的。

  记者:您觉得对于一家成熟的互联网公司而言,如何采用有效的组织和协调技术能力,才能去到驱动业务?

  宋旸:整体来讲,技术还是要服务于业务。尤其于AI技术而言,绝对不能脱离场景,而去单纯追求特别Journal的优化和迭代。解决业务问题,就需要技术贴合业务来展开,组织结构也要做出一些相应的调整和变化。原则上看,优先业务,其次再追求沉淀和效率。

  没必要刻意追求中台

  记者:现在AI中台非常流行,您是怎么理解中台的?跟我们平时说的数据中台、其他的技术平台有哪些显著不同?

  宋旸:中台本质上是把通用的东西剥离、抽象出来,将统一的团队去维护。做中台出于两个目的,一个是成本上,如果每人都独立干的话,成本会成倍的增加。第二,将不同业务下的同样的问题进行归类,交给更专业的人来解决,会做得更好。是否上中台,个人觉得还是取决于公司的发展阶段和公司的整体目标。比如公司规模非常小的时候,一个公司可能也就干一件事,三五个人、十来个人,谈不上中台化。

  但实际上,它也是用中台的,因为业务/能力都需要外部采购,可以将外部公司理解成“中台”的角色,为它提供了这些服务,小公司本身则专注在做业务。当公司发展到一定程度,业务扩张了多条线,但人力并没有那么充裕,这时,上中台是比较合适的。因为,不太可能把在每条业务线都分别都把所有的工种都配全,这里面的确有一些通用的东西值得抽象出来。尤其孵化新业务的时候,有很多跟之前业务共通的部分,这些部分可以抽象出来,形成一个“中台”的部门,来支持多个业务的发展。这其实是一个自然的过程。

  成长为一家大型公司之后,中台其实不是特别适用,为什么呢?因为大公司的资源其实相对是比较充足的,更多追求的是业务本身的效果。虽说有通用的技术可以抽象,大家可以共用。但不同业务部门,对业务的优先级判断和指标效果要求是不一样的,对于中台部门,并不是一件容易取舍的事情。例如,业务方ABC,提出了三个要求,同时满足这三方的要求的可能性并不大。即便中台部门能满足这三方要求,但交付时间的进度上或者其他一些细节上又不达不成一致。这时候中台又不得不为这几个部门分别拆分出一部分人力,去单独适配各自的诉求。这样虽说是中台,但实际上也在为不同的业务单独匹配部分人力来完成,离中台真正的目标就会存在一些差距。

  “去中台”:没必要纠结名词

  记者:目前存在这样一种做法,比如字节、阿里,他们会把一些技术部门的成员拆分到业务里边去,这种做法算是中台做法吗?

  宋旸:这种做法其实有点“去中台化”的感觉,我虽然想做一个中台,这几个人用同样的一套模式去同时支持所有业务,但是发现业务需求都不同,业务优先级也不同,很难将每个业务都支持得很好。那中台只能又把人力分出来。所以中台就变成了这个部门储备了一些模块、代码的基础能力,你可以去用,但实际上,人力的分配还是分散在各个地方。

  中台最看得见的好处,就是为大家提供可复用的能力,比如经过验证的代码、沉淀的经验等。在这种同样的技术领域下,大家交流更充分一些,有些时候是会有一定的专业度的,在这里面的这些人的专业度会比业务部门的人要好一些。所以说,中台如果做得不好,可能还不如业务部门。记者:我们注意到字节近期提出了一个“数据BP”的概念,把数据部门拆分到不同的业务组,做法类似于HRBP。宋旸:很多公司都采取这样的做法,作业帮现在基本上也在往这条路上走,因为不同的业务部门往往存在不同的数据诉求,不太可能统一来做,统一能做的只是基础架构的事。

  目前中台化更多的是提供统一的数据的底层的服务,并协助建立一些标准,而这些标准可以把数据管理变得更规范。但如果真正做数据分析和决策,必然要分到各个业务部门去做。记者:您觉得人工智能中台相比于数据中台,有哪些不一样的地方?宋旸:其实本质是相同的,只是提供的能力是数据还是AI的差别。于AI领域而言,外界可能会觉得它的门槛相对高一些。

  但实际从从业者角度来看,这个门槛一定程度上也是有下降的。一方面本身AI的研究非常热,另一方面开源的技术也越来越多,相信也会有更多的从业者加入进来。所以我们没必要将AI看得非常特殊。但是,门槛降低不意味着通过简单的培训就可以,还是需要一定的专业度,在真实的场景里一步步做到实处。

  记者:智能中台方面,未来会出现哪些发展趋势?

  宋旸:中台化后续会越来越务实,各家公司会基于自身的发展阶段来考虑。当然也有一些大厂也在慢慢放弃,并不是所谓的去中台,因为中台有自己适用的场景。企业处于不同的阶段,每个阶段的目标决定了到底该选择什么样的组织方式。所以说不必对“名词”过于纠结。我一直觉得自然就好,适合的就是最好的。

  嘉宾介绍

  宋旸:作业帮首席算法专家、智能中台负责人,在百度工作7年,从事算法研发工作。2015年加入作业帮,为智能中台部负责人,为公司各业务输出包括数据挖掘、NLP、语音在内的中台技术能力,先后负责题库建设、个性化推荐、智能质检、语音评测、服务智能化调度等方向。

上一篇:2020年高考暨7月选考科目命题思路
下一篇:威海职业学院助力巾帼创业,助推乡村振兴

最近更新义务教育