百摩网
当前位置: 首页 生活百科

ai公众号抠图(快手打造用户兴趣建模盛宴)

时间:2023-05-28 作者: 小编 阅读量: 3 栏目名: 生活百科

快手打造用户兴趣建模盛宴雷刚发自凹非寺量子位出品|公众号QbitAI千图易读,一video难读或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很。

雷刚 发自 凹非寺

量子位 出品 | 公众号 QbitAI

千图易读,一video难读。

或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很困难的事情。

挑战无非三方面

首先,信息量大,不是简单的词语就能概括视频的内容。

一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。

其次,维度多,视频是视觉听觉多模态信息融合载体。

多模态深度语义理解能让机器更深地理解短视频背后的含义,然而也面临着很多挑战,例如图像像素如何与语音波形或声谱图产生相关性。

最后,业内始终缺乏大规模的数据集

更大、更具挑战性的数据集,必然会对学术界和工业界研究和实践方向的推动起着重大作用,如图像分类里的ImageNet,目标检测里的COCO,而对于短视频,一直没有大规模的数据集。

用户兴趣建模

顾名思义,该比赛围绕用户兴趣进行建模,核心是充分挖掘AI理解的视频内容来挖掘用户兴趣数据,使得推荐给用户的视频更加精准,最终以AUC得分高者胜。

作为主办方,快手提供了一批脱敏之后的用户点击、点赞和关注等交互行为数据,同时提供这批作品封面的视觉特征、人脸特征和文字描述特征,这些数据特征共计3w 用户、920w 视频,以及6000w 行为数据

而且为了激发更多参赛者,快手还特地设置了30w 奖金池。3人结队,为期3个月,分为初赛和复赛,最后取前10名嘉奖,一等奖20万元,二等奖5万,三等奖3万,另外还有2个极客奖1万元和5个优胜奖各3千元,总奖金池高达31.5万元。

此外,复试排名的前30,还能在毕业前随时直通快手面试。

听起来就一颗赛艇。

本次大赛提供的训练数据

具体任务中,选手要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测用户在另一视频数据集上的点击行为。

值得注意的是,这两个数据集的视频ID交集为空。

这使得本次大赛和以往大多数用户兴趣建模大赛有很大的区别,选手必须充分利用AI算法提供的视频理解结果,对视频内容进行提炼,从而建立两个数据集的关联点。

无论在学术界,还是工业界,这都是一个难且新的问题。

内容理解在快手

不过,这样的问题在快手其实每天都在得到训练和解决。

现在整个快手平台,已经累计拥有超过50亿条视频,日活跃用户超过1.2亿,其核心产品逻辑是视频内容的个性化推荐。

一方面,这需要机器对内容的理解足够极致,从多种维度、综合利用多种技术对短视频进行分析理解,再把理解应用到推荐模型中去。

另一方面,内容安全是悬在每家互联网公司头上的达摩克里斯之剑,在非法违规内容监测上,机器对内容的理解将大大减少审核所需的人力,原创视频的保护亦然。视频搜索、商业化也需要机器对视频的深度理解。

而上述原因,也是为什么快手愿意花费人力、拿出数据、重金激赏参赛项目的核心原因。

快手之脑

在快手内部,用AI来理解视频的团队叫做多媒体内容理解部门(Multimedia Understanding),简称MMU ,这个团队正在试图打造“快手之脑”。

该部门负责人李岩,也在此次比赛中,分享了部门技术建设的核心思路。

理解视频之所以难,是因为目前AI展示的诸多能力,还停留在图像、语音等感知层面, 然而视频则是二者的叠加,所谓多模态,在此体现得最为充分,而AI在这个领域才刚刚开始起步。

此外,对高层语义的识别理解也是AI亟待解决的问题。

而解决思路方面,李岩认为,视频内容理解从大方面分为感知和推理两个阶段。

感知阶段,快手目前主要从四个维度分析理解视频内容,分别是人脸、图像、语音,和音乐。

其中,人脸信息在社交视频中占据重要地位,需要对视频中的人脸进行检测、跟踪、识别,并分析出视频中人物的年龄、性别等属性,挖掘其中的3D形状、表情等信息。

图像维度,通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。

语音方面,不仅要识别语音,还要识别说话人,对说话人的情绪、年龄等语音属性进行信息分析。

音乐方面,则要进行音乐识别、歌声、伴奏分离、歌声美化打分等分析任务,对音乐信息进行结构化。

基于以上四个维度,来完成对视频低级语义信息的感知。

在完成上述任务后,机器才进入到推理阶段。机器需要基于感知阶段的输出,将视频看做一个整体,进行分类、描述、检索。

此外,像人将学到的知识存到大脑一样,令机器把视频内容整理并存储到知识图谱中,也是目前快手的主要做法,这样融合感知内容和知识图谱,使得理解视频高层语义及情感成为可能。

值得一提的是,为了实现对视频内容的理解,还有一大拦路虎要克服。

挑战和未来

非常直接而现实的是,当前AI技术还处于严重依赖人工标注的阶段。

这需要人类坐在电脑前,一个个画框打标签,以帮助机器更好地理解。该做法不仅成本高,效率低,而且对标注员而言非常枯燥。未来减少人类标注,或者让机器能够更智能地去理解新内容,是AI算法进化的核心方向之一 。

这也是快手发起此次用户兴趣建模大赛的核心原因之一,希望培养、吸引更多年轻力量,加入到这场AI未来变革的先锋部队之中。

在过去几年中,快手的多媒体内容理解团队拥有近百名资深算法研究员和研发工程师,大部分研发人员具有多年 BAT 工作经历,核心算法研究员拥有超过十年的研发经验。

也有清华、中科院、港科大、南京大学、上交、京都大学等国内外高校学生加入快手,实现产学研一体,打造了人才梯队培养的机制。

但李岩强调,一切还远远不够。

快手还希望找到更多有志于计算机视觉、语音识别、视频内容理解、人脸识别&3D重建等相关领域的人才。

李岩相信,快手目前拥有的数据资源,以及正在尝试的攻坚,都会是吸引人才的重要砝码。

One more thing

最后,也附上本次兴趣建模大赛的答辩干货

这次比赛Top10的答辩选手解决方案,一句话总结:一个框架、两类思路。

一个框架

这里说的框架并不是算法框架,而是在处理这类问题时的通⽤代码。这个框架能够使算法在处理不同数据时能够简单快速地完成验证。

框架设计的整体思路就是特征群分离,并且不同数据类型进⾏分离。特征群分离主要指的是不同的数据来源。

提取的特征进行分类,例如用户行为特征群、视觉特征群等。每个特征群又可以分为连续特征或者离散特征,例如视觉特征群可以包括连续的降维特征以及离散的视频聚类特征等。

这样做有三点好处:

  1. 对于新发现的特征可以快速知道适用于哪一侧的模型,方便特征扩容。
  2. 特征群分开,可以快速定位哪些特征对线上效果增益最大。代码与特征分离,框架一次开发,后期添加特征的成本大大降低。

下图为一个典型的框架设计图:

总体来看,比赛的特征分为:原始特征、Embedding特征,⼿⼯特征。这些特征又可以分成连续特征和离散特征。所以一个好的框架,在设计之初就可以充分考虑到这些数据,从而在后期对这些特征进行很好的扩容。

大部分选手针对大赛提供的数据把特征分成了了若干个特征群,每个特征群对应一大类数据的输入,然后分别针对每个特征群进行特征提取。

在框架设计的时候,会把特征按照不同的类别进行划分。这样做可以尽可能复⽤代码框架。

两大类思路

选手的思路大致可以分为两大类,⼀个是以特征工程加模型调参为代表的传统机器学习算法。

另⼀类是以模型构造加注意力机制的深度学习算法。

特征工程主要是以第一名为代表的伏地魔团队,模型主要是第二、三名团队。

当然这两种算法在具体的实现过程中存在一定的交叉,但是不同的实现都有所侧重。

第一名“ 伏地魔团队”的特征工程

第二、三名的网络结构

总体来说,特征工程需要对数据极其敏感,而且需要对快手App本身有更深入的了解,知道用户的使用习惯,并且对数据具有极强嗅觉。

设计模型最多的工作则是调整网络参数,需要对模型不同层、不同网络之间有极高的能力。深度模型可以隐式地提取数据的特征,具有很好的数据抽象能力 。

当然,如果还希望了解更多相关比赛和多媒体内容理解信息,欢迎移步快手招聘公众号。

也希望能有更多类似的数据集开放、类似的比赛举办,不管是为解决行业难题,还是实现人才培养,最终都能促进整个产学研向前进步。

嗯,一举多得,值得鼓励~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

,
    推荐阅读
  • 徐州医保中心咨询电话 徐州医保中心咨询电话号码

    徐州医保中心咨询电话市医保中心地址:徐州市泉山区王陵路72号电话:0516-85809161泉山区政务服务中心地址:泰山路52号中关村信息谷文化创意园1号楼2层电话:0516-83821775云龙区政务服务中心地址:绿苑路9号云龙区政务服务中心(民祥园农贸市场南侧50米)电话:0516-80277805鼓楼区政务服务中心地址:鼓楼奔腾大道数字产业园4A栋(金博星城小区西门对面)电话:0516-87

  • 筷子和鱼的简笔画(一盘子鱼的简笔画)

    尖鱼简笔画步骤盘盘子简笔画,今天小编为大家选几款不错的筷子和鱼的简笔画?接下来我们就一起看看这些简笔画作品吧!筷子和鱼的简笔画尖鱼简笔画步骤盘盘子简笔画熟食鱼简笔画筷子碗简笔画彩色深海鱼简笔画步骤图精美的筷子简笔画怎么画筷子简笔画亲子画画简笔画:鱼和筷子鱼简笔画3

  • 围棋入门必背13个定式图(围棋知识教你一个快速记住定式的方法)

    今天这个定式,很简单:星位小飞挂一间低夹·点三三我给这个定式取个名字叫做:小白兔偷萝卜文章末尾有动态图解大家可以保存看看动图。星位小飞挂一间低夹·点三三下面,我们来看看分解动作吧。图2:白2小飞挂角如图2,白2小飞挂。第四回合:黑7-黑9图7:黑7长如图7,黑7长。被黑9扳住之后,不能和外面的小白兔汇合,白10只能让里面的小白兔手拉手。黑11为了防止被分断,也要连接起来。

  • 朱日和火车站距离基地多远(神秘的朱日和基地与苏尼特右旗朱日和镇)

    朱日和镇朱日和镇位于苏尼特右旗南部,是苏尼特右旗新兴工业重镇和唯一一个集工业、牧业、农业为一体的综合镇。全镇总面积2735平方公里,辖10个嘎查5个居委会。朱日和镇交通发达,集二线铁路、208国道穿镇而过。朱日和火车站朱日和火车站是一个集二线上的铁路车站,位于内蒙古自治区苏尼特右旗朱日和镇,建于1954年,隶属于呼和浩特铁路局集宁车务段管辖,目前为四等站,邮政编码为012516。

  • 百足之虫死而不僵的意思(怎么理解百足之虫死而不僵的意思)

    百足之虫,死而不僵的意思:比喻势家豪族,虽已衰败,但因势力大,基础厚,还不致完全破产百足:虫名,又名马陆或马蚿,有十二环节,切断后仍能蠕动,今天小编就来聊一聊关于百足之虫死而不僵的意思?接下来我们就一起去研究一下吧!用来比喻被打倒或镇压的反动或敌对势力,余孽尚存,如不彻底肃清,还会兴风作浪。很有针对性和现实意义。

  • 为什么壁挂炉起动一会就停机(两种故障情况)

    为什么壁挂炉起动一会就停机?我们一起去了解并探讨一下这个问题吧!为什么壁挂炉起动一会就停机如果是过热保护故障,那多半是主板有问题,少数是过热保护器有问题,极少数是把限流环(有的话)去掉就没事了。如果报的是点火故障,那一般情况下不是主板有问题,就是燃气阀有问题,再就是火焰感应针有问题,都能排除的话,看火排的燃烧情况,如果有的火排火焰比其它的要小,那就有可能是因为燃气喷嘴堵了。

  • 和女生聊天晚安该怎么说(女人说我睡了晚安)

    国宝就是大熊猫,说的是熬夜会得黑眼圈,这样就不漂亮了。而如果你只是回复一个“嗯,晚安”,那可能就会被这个原本还愿意跟你说话的女生打入冷宫,拉入拒谈的黑名单,再也不理你了,这就更不要想着彼此之间的关系再进一步了。他们的回复可能是这种类型,“嗯,晚安,我稍后就来”。情商高的高出不仅体现在恋爱中,还会体现在生活里的点点滴滴中。

  • 上古卷轴5mod怎么用(用法内容介绍)

    下面内容希望能帮助到你,我们来一起看看吧!上古卷轴5mod怎么用到网上找到《上古卷轴5》游戏安装后,进入游戏先玩一会儿,会自动创建MyGame文件夹。找到路径双击打开。在里面找到在其末尾处加上,点击加载mod就进入mod管理系统了。激活了游戏自带的mod管理后,到网上找一个mod文件解压到游戏目录里面的DATA文件下面。运行游戏,检查mod的安装是否成功即可。

  • 2022年云南省博物馆五一劳动节开放公告(附开放时间)

    云南省博物馆2022年五一劳动节开放公告为丰富广大人民群众的精神文化生活,更好地满足观众参观精彩展览的需要,现将云南省博物馆2022年五一劳动节期间开放时间公告如下:一、4月30日—5月4日正常开放,5月2日(星期一)不闭馆;二、开放时间为9:00—17:00。支持个人观众当天预约,每部手机最多可预约3人;未预约者不得入馆。

  • 尿不干净总感觉有尿意的偏方(小便不通畅湿热堵的)

    在现代医学里,这种情况称为前列腺增生证。造成癃闭的原因有很多,比如肾虚、中气不足、肝郁、湿热都会导致癃闭。调理恢复也是找准病因,从根本上针对性的调理恢复。之前坐诊遇到的一位患者年龄65岁,患有小便不畅已经有四、五年的时间,去医院检查为前列腺增生。期间也是一直服用药物调理。但因前一段时间喝酒,病症明显加重。当归医生建议手术恢复。等湿热之邪消退之后,再适当的补虚养身,患者问题就会得到恢复。