腾讯ToB挽起裤脚下田去,打开大门交朋友
「剪辑师崩溃瞬间,没有一个塌房明星是无辜的。」熟悉内娱的朋友应该能秒懂,尤其是节目临上线前的塌房,全世界都会心疼后期又要熬夜加班打码。
随着媒体行业节奏加快、内容翻新,急需科技助力的,远不止剪辑师一个职业,而是整个传统媒体行业。
在媒体渠道匮乏的年代,主导权在传统媒体之手,播什么看什么。融媒体时代,时间、注意力碎片化,主导权在观众之手,喜欢什么看什么。
无论是哪个时代的媒体,都是内容为王。而内容,又不仅仅只是内容。媒体也要考虑:
内容的生命力怎样体现?
如何提高用户观看质感?
怎样跳脱出线性内容编排和传统实况转播形式、通过小型垂直内容抓住观众?
有哪些可以开发应用的技术能提升内容表现维度、达到用户预期?
传统媒体行业,在等待一场数字化革命。
一款B端产品为什么2年迭代十几次?
凑近看,才能发现传统媒体的困扰。以视频标签为例,对于人工,媒体机构海量的、未经结构化的视频、图像、音频素材就是一座沉默的金山。而且,当高清、超高清成为市场主流,传统媒体大量历史素材分辨率很低。
同时,时效性是媒体的命门,尤其在快节奏时代,抓不住热点,无法最快速度多平台多渠道视频发布就是“事故”。
对于传媒的采编存管播发全流程,人工的方式显然已经难以为继,传媒机构迫切需要AI等新技术加持变身。
但这并不是简单的AI能解决,核心之一的视频理解与管理就是一个极为复杂的多模态问题。
与人对视频的理解过程一样,通过画面和声音的多维度信息获取,大脑会在时域维度的累积上加工信息,完整地理解视频。
“就像看电影时我们没法听清视频里面讲话的每一个字,但是结合画面信息内容,还是可以轻松理解到视频要表达的含义。多模态理解不是各个模态各自为政、机械叠加,而且相互补充相互校验,输出最终核心的内容信息。”腾讯云智能AI解决方案行业咨询总监黄晶莹解释。
相比于纯图形或者纯NLP,多模态AI处于发展初期,最难的部分是发挥各模态优势的基础上,把各模态信息有机结合。
在新闻拆条场景,需要对完整的新闻内容按照讲述的主题段落进行切分,需要结合画面信息、主持人播报的内容、画面标题的切换来进行综合的理解,最终输出预测的切分点。
技术只是一个维度,当时市面上的AI产品,不少空有技术,缺乏业务温度。
比如视频的文字提取,有的AI产品通过抽帧、OCR提取画面的文字,这就不可避免会输出很多重复和无效的文字内容,比如多次输出台标和节目栏目名称,后期需要删除大量文本才可使用。
相比大洋、索贝等国际公司,国内相关企业在媒体领域起步时间并不早,但牌技的好坏有时与上桌时间无关。譬如腾讯云智能针对融媒体行业就发布了一个媒体AI中台,对资源的调配上能做到0.1卡调整。
资源调配有什么用?更灵活的调配能力意味着客户有更大的自主配置资源的空间,资源利用率更高。
当客户需要增加一个语音识别能力时,往期都是找交付厂商进行API组合调用,如今这闲置的0.1卡就能来支持NLP能力,不仅成本降低,方式也更便捷,直接拖拉拽就能实现,不需要复杂的API对接。
这些功能都来自腾讯媒体AI中台,过去2年多,这个中台经历了3个大版本、十几个小版本的迭代。作为一个B端产品,本不需要如此频繁的迭代,腾讯大概只是想更贴近业务,解决更多痛点。
以智能编目应用为例,腾讯云智能深入调研了人工编目业务和相关标准,将新闻内容结构化为节目层、片段层、场景层和镜头层,如此细致的编目下,客户不需要再重新进行一套复杂的开发流程,可以一键实现四层编目的结果输出。
他们还优化了超50种传媒定制算法,景别标签、镜头拆分、字幕识别、智能摘要、智能封面、地标识别、语音识别、实体识别......甚至对判断近景、远景、拍摄手法等关键镜头的算法也做了定制开发。
不断迭代的媒体AI中台逐渐产品12大应用,标签、编目、拆条、智能擦除、转码、超分、老片修复、横竖屏转换、视频质检、智能审核等等,摸索出越来越多媒体业务的潜在需求。
凭借业务虚心和技术实力,这个媒体数字化领域的后来者逐渐俘获了江苏电视台、央视、北京台等的芳心,还与央视和北京台共建人工智能开放平台,打磨更多适合媒体的AI能力。
金融数字化:技术要精,服务要细
“金融级”三个字,出现在其他行业时是极高的褒奖,也是安全、可靠的代名词。
作为强监管行业,安全性是金融行业的第一要务,数据安全、交易安全、决策安全.....包括我们能想到的一切安全。其次是可靠性,RPO/RTO指标尽可能小。
科技飞轮让其他行业的服务越来越简化、便捷时,金融行业为抵御各种高科技可能导致的漏洞是谨慎再谨慎。于是,金融成为千行万业数字化的领头羊。
金融数字化场景和需求极其丰富,极其碎片化,腾讯云智能最开始选择从图像领域切入,比如人脸核身和OCR。
OCR并非新鲜事物。、年是各大银行大量引入OCR模型的高潮期,其替代人工,让银行票据处理效率搭上直升机。
近年来,身份证、银行卡等证件、增值税专用发票、增值税普通发票等票据板式标准固定且日流水量极大,样本量大,效果明显,这些标准场景基本实现了全覆盖。
但银行票据种类、版式多如牛毛,银行对长尾场景下偏复杂的识别需求也与日俱增,普通的OCR技术逐渐无能为力。
尤其是票据版式不固定、样本量少、数据标注质量不佳、排版复杂,或者文档中含有手写体、中英韩法等多种语言、特殊字符等情况,OCR识别准确率大大降低。
过往,为应对这些棘手问题,银行只能在前端继续投入人力进行录入和校验,在后端增加开发人员,对新出现的版式进行模型的重新配置,但开发人员不断“打补丁”的方式也只是杯水车薪、隔靴搔痒。
革新技术是根本。
OCR是腾讯优图实验室最早探索的方向之一,近年来也一直在尝试攻克版式不固定、识别准确性的问题。
腾讯云智能通过提升OCR模型的泛化能力,推出了多模态融合技术以及TI-OCR训练平台。
多模态融合技术能解决什么问题?
就好比培养人的运动技能,基于常规多模态进行大规模训练的模型,只是针对一项基本能力,比如腿部力量,进行重点训练;而基于智能结构化基础模型,则是提前教会你足球、篮球、网球多项等运动的关键动作,这样人们就能在日常生活中参与不同的运动。
多模态是融合视觉信息、语义信息、布局排版信息等单一模态的集合体。
腾讯云智能OCR多模态预训练的技术路线,是利用了文本、图像和布局三个天然对齐的模态信息,在多模态文档预训练的基础上,进一步统一了文档结构化信息提取范式,形成智能结构化基础模型,使得单一模型支持种以上版式,提高泛化性。
放在金融文档识别场景,基于这种方式训练出来的模型,泛化能力得到了极大提升,不论是银行单据、票证、凭证等,它都能进行高精度的信息提取。
TI-OCR训练平台,则是基于腾讯云智能的授人以鱼不如授人以渔的心态。
考虑到银行最迫切的需求就是以接近人工的准确率前提下,尽可能地降低成本,包括人工识别成本、审核成本、IT建设成本、管理成本等,TI-OCR训练平台诞生了,它通过提供低门槛的训练工具,使得客户也可以自己训练非标准化文档OCR模型。
原本的流程,是客户给到腾讯云数据,腾讯云内部标注后进行模型定制,再回到客户内部验证,根据验证结果不断调整,客户对OCR技术开箱即用,是处于无感知的黑盒状态。
如今,腾讯云智能将OCR自训练工具直接给到客户,客户自己标准数据、训练和调整。
对于银行来说,不仅节省定制模型的成本,缩短业务周期,而且能自主训练出效果针对性更强的模型,提升运营效率同时降低人力成本,另外,银行也不再需要完全依赖外部厂商,保证了技术能力自主可控。
据悉,腾讯云智能的多模态融合技术和IT-OCR产品在某国有大行落地后,其前端录入环节从单OCR录入改为双OCR录入,减少了至少1/3左右的成本投入。
而后端开发上,以前开发人员需花上两三天时间进行新版式的开发,如今只需要拿几张图进行标注训练,一小时就能够完成整体的训练和上线的流程,极大提升了训练效率,减轻了开发人员负担。
除了图像视觉领域,风靡各行各业的数智人,腾讯云智能也有大量落地案例。
数智人可以应用于几乎所有产业之中,但金融业是目前商业化前景最为明朗的行业之一。
能在金融领域广泛落地的数智人门槛不低。技术层面,数智人是计算机图形学、图形渲染、视觉、动作捕捉、自然语言处理、知识图谱、语音识别、语音合成、语音语义理解、对话交互等综合能力的集合体。
换句话,数智人其实是一场AI技术投入和积累的比拼。
腾讯云智能此前多年的AI实践和游戏业务积累了强大的数智人建模技术,智能交互技术等,拥有肢体动作的模型、唇形算法模型、形象生成模型写实逼真度,2D/3D形象的实时渲染能力。
原来支撑C端、服务于内部和生态伙伴的AI技术,如今都可为B端所用。
在此基础上,腾讯云智能数智人团队还攻克了众多技术难点,尤其是在3D建模,语音合成、文本及语音驱动、动作及表情捕捉、场景渲染、多模态输入感知、多模态交互等方面获得较大的技术突破。
腾讯云智能本身拥有大量金融客户,先前已经在云计算,云储存,数据库和AI技术等方面开展了多方面的合作。
如今,AI底层技术构建了腾讯数智人的底座,腾讯云智能最大程度发挥服务特长,打造了中国金融领域第一批数智人成功案例。
在信贷业务,数智人和人工共同服务期间数字员工成本占整体审核成本12%,却贡献了总审核量的56%,单位审核成本虚拟审核是人工审核的1/10,提升效果显著。
OCR和数智人只是腾讯云智能落地金融的冰山一角,其金融领域的技术和产品矩阵已经相当庞大,涉及数智人、人脸核身、OCR识别及OCR自训练、语音语义、机器学习建模、AI中台、智能客服、智能分析与增长等多个细分领域,相关的产品在头部银行、头部券商、头部保险等等领域默默运行。
腾讯云智能的产业落地之路怎么走?
孙子说:古之善战者,无智名、无勇功。
如果用更通俗的比喻,就像有一种斯诺克高手,一场胜利下来基本没有高难度进球,因为他们打完每个球都能让白球停在容易进下个球的位置,从而使每个进球都很容易。
真正的胜战,看上去往往平淡无奇。腾讯云智能媒体、金融等领域数字化的成果背后,都有这样一个“让每个进球都容易”的角色——腾讯云智能。
腾讯云智能并非全新物种,是腾讯赋予此前一直强调的AI与云融合一个更具象的名字。
它是腾讯AI技术、多年产业实践经验的综合体,能为数实经济提供从底层算力支撑到AI开发平台、到AI产品解决方案、再到顶层数智化转型方法的四级全链条服务。
产业数字化,腾讯云智能润物无形却又无处不在。
1、自上而下保证顶层视野,自下而上兼顾具体难点
B端产业极具个性化,链条长,流程复杂,而且主体众多。
过去,绝大多数B端业务以一把手为核心,侧重从上至下的数字化改革,以顶层设计为核心,各环节、各参与者配合,这种方式可以最直接、最简单地下达改革策略,推进进程,但也容易忽略诸多细节,模式散装,不成体系。
进军B端者成百上千,腾讯似乎开辟了一条不一样的路径。紧贴用户,以人为本的路子,腾讯过去走了二十多年,如今进攻B端,在服务基础上,腾讯云智能提炼出一种C2B的能力:「以人为本,上下兼容」的数智化转型方法论。
前文所言,宏大的规划难以取得满意的效果往往是最终端的需求和问题没有解决,日积月累成了堵点、痛点。
数字化要“大处着眼、小处着手”,要有系统观念,做好顶层规划,也要仔细研究每个业务场景下最细枝末节的问题和需求。
于是他们在主流方法论之外,重点
转载请注明:http://www.abuoumao.com/hytd/4324.html