纠音级语音评测、NLP助力打造的知识图谱，详解作业帮AI如何落地

栏目：义务教育时间：2022-12-01

　　AI悄然改变着生活方式，如何将通用的AI能力有效供给特定领域下的不同业务？如何看待国内外AI领域开源现状？大模型、多模态这些研究热点，是昙花一现，还是百炼成钢？本文访谈了作业帮首席算法专家宋旸，看看这些技术在作业帮是如何落地的。

　　记者：首先请宋老师介绍一下自己，目前在做哪些方面的工作，关注的领域有哪些？

　　宋旸：我最早从事算法研发工作是从搜索开始的，从Spider到互联网的数据挖掘，到站点的价值分析，再到推荐算法，这部分经历主要是在百度期间进行的。到作业帮之后，主要开展的业务首先是题库建设相关。

　　2019年，直播课兴起之后，又参与到直播课做一些为业务赋能的算法工作，包含NLP、语音等。目前NLP这块支持的业务场景会较广一些，包括翻译、作文批改、文本分类、题库里面题目的智能打标，还有知识图谱的建设等等。语音方面，主要是识别、评测、合成三大技术方向支撑现有业务。包括质检，语音检索，语音翻译，直播课场景里面的语音弹幕，评测，以及语音合成读题与AI交互发音等。

　　AI赋能业务场景

　　记者：语音弹幕，听起来是一个有意思的应用，能讲一下是怎样的业务场景吗？

　　宋旸：语音弹幕本质上就是语音识别技术的一个具体场景的落地。在作业帮直播课的场景中，直播间的受众大多是偏低龄的学员，一般还不会打字输入，有的字甚至还不太认识。如何在这个场景下进行互动、满足他们爱回答问题的欲望，是一个有挑战的事情。如果只是做单纯的比如“A/B/C/D”、“?/×”的选择类的问题的话，形式过于单一。我们希望能为他们提供一些自由充分的表达，所以我们专门研发了仅通过一个点击就可以直接语音输入的功能。

　　这个功能的主要难点在于，低龄儿童有时吐字不太清晰标准，同时缺少上下文的语境，可能还是跟领域相关的。所以针对这些问题，研发团队做出了一些改进和优化工作，比如短文本的语音识别技术的改进，以及针对特定场景的语言模型的引入等等。

　　再比如，针对上课的场景，语文阅读课，老师需要搜集跟这个课程相关的阅读材料，来整理与该堂课相关的问题，这就可能会涉及一些精准的关键字等，这个场景一方面需要单独的语音模型，另外也要通过热词的方式叠加到该语音模型上。

　　记者：NLP方面，在作业帮有哪些赋能的落地场景呢？

　　宋旸：NLP方面，作业帮也做了一些重点的工作。一个是机器翻译，我们新上了一个拍照翻译的功能，学生在阅读大篇幅的英文段落时，需要有辅助翻译的工具。通过拍照翻译的功能，省去了手动输入、语音输入的麻烦。具体到K12的场景，例如拍照内容是一道题目，比如完形填空题，含有一些空格或者下划线上有特定的序号，如果使用通用的翻译软件得到的结果就会很差，序号、下划线的部分就会被翻译得有些糟糕。这时，就需要把这类难题单独抠出来，同时确保题面和一些特定的结构信息不丢失而不至于翻译错误。

　　当然，针对语料场景上面的优化研究也是必不可少的步骤。所以说，研发团队考虑的是如何去做特定的优化和适配。再一个，机器翻译跟语音结合的场景，作业帮近期推出的一个学习硬件，亮点就是短句翻译的功能，其中也会引入语音的能力，实现中英文之间ASR和翻译的结合。这其中，把实现这些功能的算法去做到硬件本地化，解除云端的依赖，这是下一步的事，因为这个硬件本身的算力没有那么强，要把效果做好，还是有一些挑战的。

　　另外，在题库辅助建设方面，其实也应用了很多NLP的能力，比如知识图谱。知识图谱其实就是把我们的整个知识点去做一个有机的组织，一是树状结构，二是知识节点之间也会有联系，比如谁是谁的前驱，谁是谁的后继。此外，这些知识点与题目的挂钩，因涉及到不同的知识体系，需要有教研的投入和参与。但对于作业帮5.8亿体量的题库更新而言，需要精加工的题目量级基本也是在千万的规模，这千万道题如果都单靠人手动打知识点标签，基本是不现实的。

　　所以我们通过人做一些少量的标注，NLP模型训练的方式，能够实现模型辅助自动打标签。目前是多标签的任务，已经在多学科、多学龄段达到80%以上，甚至90%以上的适用率，可以基本替代教研来自动完成任务。当然，针对重点的场景，依旧需要老师做审核工作。

　　记者：语音技术和NLP技术二者之间的融合，有哪些比较成熟的探索？

　　宋旸：如果说语音和NLP的结合，质检是一个特别典型的场景。在直播课业务中，有大量涉及到语音沟通的内容都需要去做质检。而质检的话，技术上看就是去做一个语音的文本转写，转写完之后，通过NLP的方式，在里面找到疑似有问题的部分，结合自身的业务规则。比如通过关键词预发现的方式来做业务粗筛，为质检系统提供判断依据。

　　再之后，根据质检业务同事的实际反馈信息，我们会把一些典型的质检，像数据比较丰富的、标准比较一致的，把它训练成模型，落地为机器质检。目前，已经形成了一套较完善的自动质检的流程。通过这个自助平台，业务侧的老师完全可以在平台上进行自主配置。精确率方面，不会要求特别高，因为我们还是更多想发现问题，只要在人力可控范围内，比如精确率10%、20%。假如系统发现了100个点，这里面有10个点确实有问题，就已经能很大程度辅助解决每天的质检问题了。因为纯人工的话，可能是从上万、几十万的点里面挑了这10个。所以它不会对精确率有很高的要求，更多的可能是希望有问题的尽量去召回。

　　AI预期：有差距不代表不可用

　　记者：将AI能力融入实际场景的过程中，目前有哪些挑战？

　　宋旸：挑战来源于业务侧的需求本身对AI的预期。AI领域一个最大的问题就在于，它不太可能有一个算法能做到100%，有的时候并不能达到需求侧的预期。比如，作文批改这个场景就比较典型，虽然说在学术界、工业界，都做了很多探索，但实际上AI最终的效果离老师的预期还是有很大的差距的。当然，有差距不代表不可用，某些场景下可能就是适用的。

　　比如，我们的产品里的作文批改的功能，对于家长来说，就非常实用，能够帮助家长来判断孩子作文的质量情况。因为这些作文的批改评价，虽说不如老师更准确，但还是能够提出一些初步的评定：好、特别好、特别不好，这都是较客观的分析结果。对于低年级的学生，这个功能也会帮助他们减少乱写、瞎写的情况。这都在一定程度上能够解决家长的诉求。

　　对老师来讲，能够帮老师去做哪些事呢？比如说错别字、病句，AI能够帮老师筛选出来，但老师自己来挑的话，时间上来不及，还不一定能够挑得全。老师使用这个功能时，基本上扫一眼就能确认这些。这样老师可以节省出时间去做更高级别的事情，比如评价作文的立意，哪部分文字还有待优化等等。

　　记者：这是一个改作文的场景，还有一些别的场景吗？这个场景辅助的作用更大一些，哪些可以基本上替代老师的呢？有哪些案例吗？

　　宋旸：在批改作业的场景中，客观题和填空题，基本上已经可以用AI来做了。主观题的话是智能做到部分替代，这方面AI的能力和作文批改差不多，都在逐渐迭代中，不能完全解决，但是部分已经实现一定程度的自动化。

　　其实我们还有一个场景就是语音里面的TTS，就是语音合成，语音合成这个场景其实在有些地方已经用上了，直播课里面有很多读题的场景，也还是面向小学低年级的孩子，出一个作业题的时候，还是要给他念一念，有一些孩子的字还不是认得全的，每一道题都念一遍的话，要找人配音的，成本非常高，所以目前的语音合成已经完全能够解决，因为小学低年级的课程设有卡通人物题，我们的思路是直接用合成卡通角色的声音，将每道题念出来，实际效果上非常自然，基本上和配音演员的不会差得特别多，已经完全能够很好的覆盖解决这样一个场景了。还有许多场景，我们也都在不断地迭代优化。

　　记者：目前语音合成方面，如何才能做到非常自然的输出？

　　宋旸：现在优秀的语音合成框架非常多，算法模型角度上看已经比较成熟了。语音合成的原理可以看成是一个ASR语音识别的逆向过程，关键还是需要训练数据得足够好。因为合成任务的输出非常依赖它的输入，所以对输入的要求是噪音干扰要尽可能的小。

　　早期的时候，我们合成的结果经常伴有一些杂音、机器声等等，最后发现就是我们的训练语料存在局部的数据质量问题，噪音稍微多一些。当输入的质量提升后，这块问题很大程度上就能得到缓解。除了训练数据的质量，再一块就是训练数据本身的丰富程度，我们需要把要合成的内容相关的因素做到尽量全面覆盖。

　　在语音领域，发音的最小的单元就是音素，有点类似于拼音中的音节。我们对收集的语料的要求都会细分到到每一个音素的覆盖，某个音素不能出现太多，也不能出现某个音素太少。这就要求我们选语料的时候，保证音素以及两个音素之间的连接，都能尽量达到均衡的覆盖。这样，效果会好一些。

　　同时，语音情感方面，合成的输出下一步要实现“情感可选择”，就是用户可以选择需要什么样的情感，模型就去合成这样的情感。当前的研究还是针对不同的场景来做，比如阅读题目，训练数据里面就不要包含感情特别丰富的语料，然而在讲故事的场景下，就不能将“干巴巴”像读新闻内容那样放进来。语音合成对于不同领域还是要相应的适配，因为情感、语调、语气目前阶段对它的依赖会比较强的。这块研究在游戏领域里应用得更多一些，国外公司投入的较多。

　　具体来讲，游戏领域，尤其3A大作，都需要优质的配音，这种配音很多是通过合成来解决的，但是对于语句情感有相应的要求，可以预制不同的情感来合成相应的脚本，然后软件里做一些简单的微调即可。

　　记者：那如何评判这个语音合成的效果呢？有专门的指标吗？

　　宋旸：合成整体其实还都是通过人主观的评分来解决的，主观评分一般都会定一个标准，让评估人员先确认一下多档的标准，明确档级的要求，通常需要找多个评分人员分别判断，然后将他们的平均分来作为这个指标评分。

　　记者：在语音评测这方面，作业帮积累了哪些经验？

　　宋旸：语音评测这个领域相对比较成熟，但现在也有一些很难解决的问题，比如一些极相似的音素，单靠技术手段不太能区分。比如说英文里“th”和“s”的发音，很多时候在AI模型里面很难能区分出这两种发音的差异。再有单词末尾的“s”，读轻音还是浊音也非常难判断。这个时候除非你刻意去读它，否则在正常读句子的时候，这个“s”到底发哪个音，有时我们人都不能听清，所以机器识别的话，效果就没有那么好。

　　除了这些很难区分的读音之外，其他很多中国学生易犯的错误都已经可以比较好的区分识别。现在有一些纠音识别的方案，比如，你读一个音之后，不是仅仅给你做一个评分，而是告诉你这一个单词里面每一个音素的发音，标注哪个对，哪个不对。不对的话，你是错误的把它发成了什么音，会明确的给出提示并针对这个错误再去预制一些训练的方法。现在市面上更多的就是单独打分，作业帮目前能够做到纠音级别。目前我们在纠音这块已经有了不错的demo，这个demo后面会找到相应的场景来应用落地，可能更多会在B端的业务场景里进行。

　　未来：AI能以较低调的姿态发展

　　记者：您认为未来智能语音技术会出现哪些新场景？

　　宋旸：智能语音场景，很难有一个特别大的突破，更多还是在现有的基础上再去做一些迭代。它体验上面，包括之前的同声传译，听起来比较“性感”，但是真正能落地的场景却比较少，很难用在日常生活中。可能对于出国群体，更有用武之地。

　　所以，本人可能对于智能语音并没有特别高的预期，它可能不会特别火爆。随着技术的发展，很多事物都会以一种“低调”的姿态走进并影响我们的生活。比如TDS语音合成技术，可能某一天你就会发现很多场景下的声音都是技术合成出来的，但你并没有违和感。我相信，在未来的几年里,这都能够实现。

　　记者：您是如何看待数字人的发展？

　　宋旸：数字人是一个更大的挑战。在娱乐领域比较火爆，但还是偏小众一些，没法在大众场景里面普及。洛天依那么火，但其实影响的是个小众圈。当然，不少企业都在开发数字人，但不得不说现在依旧还不够成熟，更多还是做demo的阶段。有点像“拿着锤子去找钉子”的感觉，技术虽然有，但需要找场景去落地。

　　大模型：语音领域值得一试

　　记者：智能语音这块，您觉得未来您关注的哪些发展趋势觉得还值得研究一下的？

　　宋旸：智能语音这块，现在整个AI界，预训练大模型是非常火的，预训练大模型基本上是新的摩尔定律，基本上每一年这个模型的参数规模翻一个数量级，至少已经连续几年是满足这个趋势的。这个还是很了不起的。预训练大模型最早是在NLP里面应用，图像里面现在逐渐有了这样的趋势，语音的话也是最近这一两年开始有一些好的实验结果出来，同时也有一些相应的预训练模型出来。

　　我们其实下半年也会更重点在这个方向上发力，将尝试预训练大模型这块的一些探索与积累，至少相比于传统的训练方式会有所提升，原因上一个是它的基础的模型效果就好，第二是在领域适配训练的时候，需要的数据量和时间相对是更少的。当你有一定的算力规模的时候，这块还是有它的优势。

　　记者：现在大模型的能力如何下沉到业务里边去，调用起来比较方便，这块咱们有什么初步的设想吗？

　　宋旸：主要问题是训练的成本比较高，如果要做到和OpenAI一样，去刷新业界内知名的大模型的参数量，需要特别大的投入。相较而言，更可行的是，针对自身业务相对的去做一些较大的模型的训练。作业帮的有一定的算力优势，GPU的机器集群规模很大，但这些集群在夜间凌晨时段一定程度上是闲置的，所以我们可以做一个分布式训练的平台，去自由调度这些算力，以便于利用闲置的时段来服务于模型训练。所以现在来看，如果能把闲置资源利用好，由自己来实现一个大模型的预训练的工作，还是可以做到的。

　　端到端、多模态：有热度不代表易突破

　　记者：在一些基础的深度学习模型上改进，端到端、多模态也比较热，您是如何看待的？

　　宋旸：端到端已经不是一个新概念了，但效果上一直没有特别突出。最近随着端到端模型本身的迭代，以及数据量的一些提升，端到端整体上是在更多的地方，比如说和目前流行的Kaldi的框架相比，很多的任务上能够做得更好些。所以作业帮现在大部分模型都已经切换到端到端的工具上了。

　　语音评测上，下半年我们也将在端到端模型上去做一些探索和优化工作，并把整个语音评测的框架切换到端到端的模型上。另一个是多模态方面。多模态比较火，但在语音方面个人判断短期不会有大的突破性进展。

　　多模态目前是文本与图像的结合最多，比如基于文本描述生成一张图，或者根据图像生出成文本描述，它的背后可以去实现文本和图像在同一个模型空间里面，用同一个向量同时表征它的文本和图像信息，融合在一起。

　　但语音不一样，因为语音本身其实和文字是有映射关系的，它是文字的声音信号的表示。它可能产生增量收益的地方，就是语音所包含的语气、语调，会有额外的信息增加到里面来。所以说现在研究的三模态融合的模型，整体上看，语音在这里面表现偏弱些。因此从语音方面上看，多模态虽说是一个研究上的趋势，但不一定能真正有特别好的、突破性的进展项目。

　　从JAX看框架流行的因素

　　记者：您是如何看待谷歌最近推出的新一款JAX框架？

　　宋旸：JAX这个框架，Tensorflow易用性这些方面还是差一些的，JAX从易用性角度会比Tensorflow稍微好一些，Deep mind在去年年底宣布全公司都切到这个框架了，谷歌系的很多公司都已经切到这个框架了。我感觉它现在的流行性在稳步发展，但还没有特别爆火，不像PyTorch推出之后的火爆，但是有明显优势。

　　从作业帮的技术栈来讲，更多在用PyTorch。不管是学术界还是工业界，PyTorch都具备公认的易用性。再比如之前的Keras，非常方便接入到原有技术栈之中，而不需要对底层做太多改动、不需要设计一些很新的网络结构算子，所以Keras是一个非常棒的框架。这也是为什么Tensorflow2.0把Keras直接封装进去的原因。

　　然而Tensorflow在编程、模型方面会相对难一些。PyTorch基本就是很Python化，跟Python编程非常相似。一个框架能流行有两方面因素，首先是看背后公司的推广的力度，社区的运营和丰富的程度，其次是领先的巨头公司是不是在用它做研究、出Paper、研发项目。有没有基于某个框架非常出名的项目，将对框架的推广产生非常大的助力。综合看这三种，未来AI开发栈的易用性会越来越好、越来越简化，这是一个趋势。

　　如何看待AI开源

　　记者：有一种声音认为现在AI在开源方面有些问题，认为巨头只是开放了他们觉得适合开放的。您认为应该如何对待开源的模型或框架？

　　宋旸：选择把技术开源本身就是件值得点赞的事情，已有的一些开源其实已经很大程度上帮助了整个AI产业界和学术界的发展。如果没有开源的这些框架或相应的项目，很多事情我们都需要重新开始做，那将花费大量的成本。

　　比如我们最早做机器翻译的时候，其实公司就是两个研发花了两个月的时间，一套东西基本就成型了，而且效果基本和我们对标的竞品是不差的。又经过两个月时间，基本上项目就已经完全超越了。能够实现这样一个效果，还是得益于现在的技术、框架的开源。否则，重新把训练和推理的架构写出来，不仅效果未必能保证，而且时间和人力的成本都将是巨大的负担。开源能让更多的人参与到AI领域，让大家更多的精力集中在赋能业务上。

　　记者：有人认为国内开源的代码存在注释少，可解释性比较差的问题。国外的话就比较标准一些。您是如何看待这个事的？

　　宋旸：开源是从国外流行起来的，社区的开源文化氛围也更浓厚些。目前国内的开源还没有那么的原生化，大家可能更关注是开源的东西能不能解决实际的业务问题。国内部分工程师并不是全职写开源项目，如果精力集中的话，会把代码、文档写得完善一些。可能即便写业务代码的时，除非外界有特别的要求，否则注释也比较少。这可能还是一个文化或者规范的问题。

　　记者：有关将模型、能力本地化，您觉得需要注意哪些？

　　宋旸：关于AI能力本地化这块，作业帮目前还在起步阶段，之前更多的用的还是云端的服务。

　　本地化的好处，第一，能够解决云端计算资源的成本压力的问题，因为作业帮业务有大量的用户调用，云端资源难免出现吃紧的情况，尤其是像最典型的直播课的业务，不管是语音弹幕，还是语音评测，孩子都是同一时间上课，大部分时间是不调用那些服务的，可能就只有10秒钟会开启一次，瞬间流量就会涌来。它是一个大部分时间闲置，但是瞬时的并发又非常大的一个场景，云端其实特别不划算。所以第一是解决云端资源压力的问题。

　　第二就是体验问题，当本地化模型和效果做得足够好的时候，它的延迟就能做得比云端要好很多。本地如果你做到位的话，它体验基本上是零延迟的，不管是评分还是ASR还是云合成，它的实时性上都会有更好的体验。

　　记者：本地化可以理解成把训练好的模型封装到硬件里面去吗？

　　宋旸：这需要针对业务侧的硬件平台去做一些定制化的工作。一些通用的模型，比如TensorLite，只要能够基于自身的平台的计算架构，进行交叉编译，你的模型基本都可以成功运行。但是有一些硬件平台比较特殊，比如它仅支持自身的TPU或者深度学习处理单元，就要针对它再去做一些定制的开发。

　　概括来说，第一，本地化时的算力，其实是不像云端这么充沛的。第二，并不是所有算力都是全场景通用的，你还需要结合自身业务和平台去做一些改造或适配。

　　记者：有关注到作业帮提出“订正推荐优先级”的作业方案，能详细介绍下吗？

　　宋旸：这块属于自适应学习领域，就是根据学生做题的来源和历史数据，作业帮推出的作业方案。数据来源有多种，首先，我们把学生的日常作业电子化进行收集，得到作业的情况。第二，需要拿到考试的结果数据，比如具体答题的对错情况。第三，自主学习的平台上会产生自主学习的行为，也能够成为输入。

　　不同来源的数据输入之后，我们就能够对学生的学习状况做一个预判，比如各个知识点的掌握程度、能力水平达到了一个什么级别，能完成多大难度的题目等等。有了这些东西之后，我们就可以去对学生做一个整体的知识图谱的描绘，优先推荐欠缺的知识点相关的题目，去着重巩固和提升。

　　简单来讲，就是基于学生作题的数据，对学生做一个能力刻画，基于刻画以及所在群体进行比较来进行知识推荐。

　　记者：AI能力方面，您认为作业帮有哪些优势？

　　宋旸：AI能力的话，基于作业帮的场景，一是有很丰富的数据，二是有在场景下多年迭代的经验，能够把体验做到极致。我们不大可能像谷歌、Facebook那样去做非常Journal的研究，我们更务实一些，针对我们服务的业务、场景，真正把它能够打透。这些点其实都是在这些场景下做了很多的针对性优化，像OCR相关的拍照批改、NLP方面的质检、语音识别等等，都是针对我们的场景数据集的一些特定的问题和翻译，做了很多优化。

　　虽说市面上通用的一些服务能力不少，比如质检和翻译，为什么还要自己做呢？还是在一种不同的领域场景下，通用的虽然它能做，但是你只要是有一个场景细分，你只要做一些针对性的优化和改进，就能够做到比通用的要好。并且这样的一个体验还是能够让用户有一些明确的感知的，对用户来讲是有必要的。

　　记者：您觉得对于一家成熟的互联网公司而言，如何采用有效的组织和协调技术能力，才能去到驱动业务?

　　宋旸：整体来讲，技术还是要服务于业务。尤其于AI技术而言，绝对不能脱离场景，而去单纯追求特别Journal的优化和迭代。解决业务问题，就需要技术贴合业务来展开，组织结构也要做出一些相应的调整和变化。原则上看，优先业务，其次再追求沉淀和效率。

　　没必要刻意追求中台

　　记者：现在AI中台非常流行，您是怎么理解中台的？跟我们平时说的数据中台、其他的技术平台有哪些显著不同？

　　宋旸：中台本质上是把通用的东西剥离、抽象出来，将统一的团队去维护。做中台出于两个目的，一个是成本上，如果每人都独立干的话，成本会成倍的增加。第二，将不同业务下的同样的问题进行归类，交给更专业的人来解决，会做得更好。是否上中台，个人觉得还是取决于公司的发展阶段和公司的整体目标。比如公司规模非常小的时候，一个公司可能也就干一件事，三五个人、十来个人，谈不上中台化。

　　但实际上，它也是用中台的，因为业务/能力都需要外部采购，可以将外部公司理解成“中台”的角色，为它提供了这些服务，小公司本身则专注在做业务。当公司发展到一定程度，业务扩张了多条线，但人力并没有那么充裕，这时，上中台是比较合适的。因为，不太可能把在每条业务线都分别都把所有的工种都配全，这里面的确有一些通用的东西值得抽象出来。尤其孵化新业务的时候，有很多跟之前业务共通的部分，这些部分可以抽象出来，形成一个“中台”的部门，来支持多个业务的发展。这其实是一个自然的过程。

　　成长为一家大型公司之后，中台其实不是特别适用，为什么呢？因为大公司的资源其实相对是比较充足的，更多追求的是业务本身的效果。虽说有通用的技术可以抽象，大家可以共用。但不同业务部门，对业务的优先级判断和指标效果要求是不一样的，对于中台部门，并不是一件容易取舍的事情。例如，业务方ABC，提出了三个要求，同时满足这三方的要求的可能性并不大。即便中台部门能满足这三方要求，但交付时间的进度上或者其他一些细节上又不达不成一致。这时候中台又不得不为这几个部门分别拆分出一部分人力，去单独适配各自的诉求。这样虽说是中台，但实际上也在为不同的业务单独匹配部分人力来完成，离中台真正的目标就会存在一些差距。

　　“去中台”：没必要纠结名词

　　记者：目前存在这样一种做法，比如字节、阿里，他们会把一些技术部门的成员拆分到业务里边去，这种做法算是中台做法吗？

　　宋旸：这种做法其实有点“去中台化”的感觉，我虽然想做一个中台，这几个人用同样的一套模式去同时支持所有业务，但是发现业务需求都不同，业务优先级也不同，很难将每个业务都支持得很好。那中台只能又把人力分出来。所以中台就变成了这个部门储备了一些模块、代码的基础能力，你可以去用，但实际上，人力的分配还是分散在各个地方。

　　中台最看得见的好处，就是为大家提供可复用的能力，比如经过验证的代码、沉淀的经验等。在这种同样的技术领域下，大家交流更充分一些，有些时候是会有一定的专业度的，在这里面的这些人的专业度会比业务部门的人要好一些。所以说，中台如果做得不好，可能还不如业务部门。记者：我们注意到字节近期提出了一个“数据BP”的概念，把数据部门拆分到不同的业务组，做法类似于HRBP。宋旸：很多公司都采取这样的做法，作业帮现在基本上也在往这条路上走，因为不同的业务部门往往存在不同的数据诉求，不太可能统一来做，统一能做的只是基础架构的事。

　　目前中台化更多的是提供统一的数据的底层的服务，并协助建立一些标准，而这些标准可以把数据管理变得更规范。但如果真正做数据分析和决策，必然要分到各个业务部门去做。记者：您觉得人工智能中台相比于数据中台，有哪些不一样的地方？宋旸：其实本质是相同的，只是提供的能力是数据还是AI的差别。于AI领域而言，外界可能会觉得它的门槛相对高一些。

　　但实际从从业者角度来看，这个门槛一定程度上也是有下降的。一方面本身AI的研究非常热，另一方面开源的技术也越来越多，相信也会有更多的从业者加入进来。所以我们没必要将AI看得非常特殊。但是，门槛降低不意味着通过简单的培训就可以，还是需要一定的专业度，在真实的场景里一步步做到实处。

　　记者：智能中台方面，未来会出现哪些发展趋势？

　　宋旸：中台化后续会越来越务实，各家公司会基于自身的发展阶段来考虑。当然也有一些大厂也在慢慢放弃，并不是所谓的去中台，因为中台有自己适用的场景。企业处于不同的阶段，每个阶段的目标决定了到底该选择什么样的组织方式。所以说不必对“名词”过于纠结。我一直觉得自然就好，适合的就是最好的。

　　嘉宾介绍

　　宋旸：作业帮首席算法专家、智能中台负责人，在百度工作7年，从事算法研发工作。2015年加入作业帮，为智能中台部负责人，为公司各业务输出包括数据挖掘、NLP、语音在内的中台技术能力，先后负责题库建设、个性化推荐、智能质检、语音评测、服务智能化调度等方向。

上一篇：2020年高考暨7月选考科目命题思路
下一篇：威海职业学院助力巾帼创业，助推乡村振兴

纠音级语音评测、NLP助力打造的知识图谱，详解作业帮AI如何落地

最近更新义务教育