百摩网
当前位置: 首页 生活百科

ai公众号抠图(快手打造用户兴趣建模盛宴)

时间:2023-05-28 作者: 小编 阅读量: 2 栏目名: 生活百科

快手打造用户兴趣建模盛宴雷刚发自凹非寺量子位出品|公众号QbitAI千图易读,一video难读或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很。

雷刚 发自 凹非寺

量子位 出品 | 公众号 QbitAI

千图易读,一video难读。

或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很困难的事情。

挑战无非三方面

首先,信息量大,不是简单的词语就能概括视频的内容。

一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。

其次,维度多,视频是视觉听觉多模态信息融合载体。

多模态深度语义理解能让机器更深地理解短视频背后的含义,然而也面临着很多挑战,例如图像像素如何与语音波形或声谱图产生相关性。

最后,业内始终缺乏大规模的数据集

更大、更具挑战性的数据集,必然会对学术界和工业界研究和实践方向的推动起着重大作用,如图像分类里的ImageNet,目标检测里的COCO,而对于短视频,一直没有大规模的数据集。

用户兴趣建模

顾名思义,该比赛围绕用户兴趣进行建模,核心是充分挖掘AI理解的视频内容来挖掘用户兴趣数据,使得推荐给用户的视频更加精准,最终以AUC得分高者胜。

作为主办方,快手提供了一批脱敏之后的用户点击、点赞和关注等交互行为数据,同时提供这批作品封面的视觉特征、人脸特征和文字描述特征,这些数据特征共计3w 用户、920w 视频,以及6000w 行为数据

而且为了激发更多参赛者,快手还特地设置了30w 奖金池。3人结队,为期3个月,分为初赛和复赛,最后取前10名嘉奖,一等奖20万元,二等奖5万,三等奖3万,另外还有2个极客奖1万元和5个优胜奖各3千元,总奖金池高达31.5万元。

此外,复试排名的前30,还能在毕业前随时直通快手面试。

听起来就一颗赛艇。

本次大赛提供的训练数据

具体任务中,选手要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测用户在另一视频数据集上的点击行为。

值得注意的是,这两个数据集的视频ID交集为空。

这使得本次大赛和以往大多数用户兴趣建模大赛有很大的区别,选手必须充分利用AI算法提供的视频理解结果,对视频内容进行提炼,从而建立两个数据集的关联点。

无论在学术界,还是工业界,这都是一个难且新的问题。

内容理解在快手

不过,这样的问题在快手其实每天都在得到训练和解决。

现在整个快手平台,已经累计拥有超过50亿条视频,日活跃用户超过1.2亿,其核心产品逻辑是视频内容的个性化推荐。

一方面,这需要机器对内容的理解足够极致,从多种维度、综合利用多种技术对短视频进行分析理解,再把理解应用到推荐模型中去。

另一方面,内容安全是悬在每家互联网公司头上的达摩克里斯之剑,在非法违规内容监测上,机器对内容的理解将大大减少审核所需的人力,原创视频的保护亦然。视频搜索、商业化也需要机器对视频的深度理解。

而上述原因,也是为什么快手愿意花费人力、拿出数据、重金激赏参赛项目的核心原因。

快手之脑

在快手内部,用AI来理解视频的团队叫做多媒体内容理解部门(Multimedia Understanding),简称MMU ,这个团队正在试图打造“快手之脑”。

该部门负责人李岩,也在此次比赛中,分享了部门技术建设的核心思路。

理解视频之所以难,是因为目前AI展示的诸多能力,还停留在图像、语音等感知层面, 然而视频则是二者的叠加,所谓多模态,在此体现得最为充分,而AI在这个领域才刚刚开始起步。

此外,对高层语义的识别理解也是AI亟待解决的问题。

而解决思路方面,李岩认为,视频内容理解从大方面分为感知和推理两个阶段。

感知阶段,快手目前主要从四个维度分析理解视频内容,分别是人脸、图像、语音,和音乐。

其中,人脸信息在社交视频中占据重要地位,需要对视频中的人脸进行检测、跟踪、识别,并分析出视频中人物的年龄、性别等属性,挖掘其中的3D形状、表情等信息。

图像维度,通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。

语音方面,不仅要识别语音,还要识别说话人,对说话人的情绪、年龄等语音属性进行信息分析。

音乐方面,则要进行音乐识别、歌声、伴奏分离、歌声美化打分等分析任务,对音乐信息进行结构化。

基于以上四个维度,来完成对视频低级语义信息的感知。

在完成上述任务后,机器才进入到推理阶段。机器需要基于感知阶段的输出,将视频看做一个整体,进行分类、描述、检索。

此外,像人将学到的知识存到大脑一样,令机器把视频内容整理并存储到知识图谱中,也是目前快手的主要做法,这样融合感知内容和知识图谱,使得理解视频高层语义及情感成为可能。

值得一提的是,为了实现对视频内容的理解,还有一大拦路虎要克服。

挑战和未来

非常直接而现实的是,当前AI技术还处于严重依赖人工标注的阶段。

这需要人类坐在电脑前,一个个画框打标签,以帮助机器更好地理解。该做法不仅成本高,效率低,而且对标注员而言非常枯燥。未来减少人类标注,或者让机器能够更智能地去理解新内容,是AI算法进化的核心方向之一 。

这也是快手发起此次用户兴趣建模大赛的核心原因之一,希望培养、吸引更多年轻力量,加入到这场AI未来变革的先锋部队之中。

在过去几年中,快手的多媒体内容理解团队拥有近百名资深算法研究员和研发工程师,大部分研发人员具有多年 BAT 工作经历,核心算法研究员拥有超过十年的研发经验。

也有清华、中科院、港科大、南京大学、上交、京都大学等国内外高校学生加入快手,实现产学研一体,打造了人才梯队培养的机制。

但李岩强调,一切还远远不够。

快手还希望找到更多有志于计算机视觉、语音识别、视频内容理解、人脸识别&3D重建等相关领域的人才。

李岩相信,快手目前拥有的数据资源,以及正在尝试的攻坚,都会是吸引人才的重要砝码。

One more thing

最后,也附上本次兴趣建模大赛的答辩干货

这次比赛Top10的答辩选手解决方案,一句话总结:一个框架、两类思路。

一个框架

这里说的框架并不是算法框架,而是在处理这类问题时的通⽤代码。这个框架能够使算法在处理不同数据时能够简单快速地完成验证。

框架设计的整体思路就是特征群分离,并且不同数据类型进⾏分离。特征群分离主要指的是不同的数据来源。

提取的特征进行分类,例如用户行为特征群、视觉特征群等。每个特征群又可以分为连续特征或者离散特征,例如视觉特征群可以包括连续的降维特征以及离散的视频聚类特征等。

这样做有三点好处:

  1. 对于新发现的特征可以快速知道适用于哪一侧的模型,方便特征扩容。
  2. 特征群分开,可以快速定位哪些特征对线上效果增益最大。代码与特征分离,框架一次开发,后期添加特征的成本大大降低。

下图为一个典型的框架设计图:

总体来看,比赛的特征分为:原始特征、Embedding特征,⼿⼯特征。这些特征又可以分成连续特征和离散特征。所以一个好的框架,在设计之初就可以充分考虑到这些数据,从而在后期对这些特征进行很好的扩容。

大部分选手针对大赛提供的数据把特征分成了了若干个特征群,每个特征群对应一大类数据的输入,然后分别针对每个特征群进行特征提取。

在框架设计的时候,会把特征按照不同的类别进行划分。这样做可以尽可能复⽤代码框架。

两大类思路

选手的思路大致可以分为两大类,⼀个是以特征工程加模型调参为代表的传统机器学习算法。

另⼀类是以模型构造加注意力机制的深度学习算法。

特征工程主要是以第一名为代表的伏地魔团队,模型主要是第二、三名团队。

当然这两种算法在具体的实现过程中存在一定的交叉,但是不同的实现都有所侧重。

第一名“ 伏地魔团队”的特征工程

第二、三名的网络结构

总体来说,特征工程需要对数据极其敏感,而且需要对快手App本身有更深入的了解,知道用户的使用习惯,并且对数据具有极强嗅觉。

设计模型最多的工作则是调整网络参数,需要对模型不同层、不同网络之间有极高的能力。深度模型可以隐式地提取数据的特征,具有很好的数据抽象能力 。

当然,如果还希望了解更多相关比赛和多媒体内容理解信息,欢迎移步快手招聘公众号。

也希望能有更多类似的数据集开放、类似的比赛举办,不管是为解决行业难题,还是实现人才培养,最终都能促进整个产学研向前进步。

嗯,一举多得,值得鼓励~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

,
    推荐阅读
  • 鲽鱼头的正宗做法(教你鲽鱼头的正宗做法)

    鲽鱼头的正宗做法食材:碟鱼头2个,葱适量,姜适量,蒜适量,植物油适量,盐适量,蒜蓉辣酱适量,鸡汤适量,白糖适量,鸡粉适量,花椒油适量。把碟鱼头洗干净,从后脑勺下刀,把碟鱼头劈开,下巴相连。把清洗好的碟鱼头放油锅中中。浸炸,记住,油温不要太高。加入适量的鸡汤,下鱼头,加少许白糖和鸡粉,放中火上烧开,然后小火煨炖。把收好汁的鱼头淋上少许的花椒油装在铁板上的锡纸里就可以了。

  • 宫灯长寿花花语是什么(给大家介绍一下)

    宫灯长寿花花语是什么健康长寿:宫灯长寿花的花形很奇特,样子很像是宫灯,看起来好像是一个个小灯笼,它的花语是健康长寿,寓意着能给人们带来健康,使人的寿命延长。趁着春季期间,可以在家中养一盆,能衬托福寿吉庆的好兆头。

  • 高考出成绩后应该做什么(高考出成绩后的做法)

    下面内容希望能帮助到你,我们来一起看看吧!高考出成绩后应该做什么了解高考录取批次分数线。查看整体排名情况。在查看完分数之后,也要看看自己的整体排名情况,这样可以预估接下来的资源该怎么填写。你可以根据自己的分数线,来选择能够上的院校,这样省的在填写自愿的时候比较节省时间。了解相关学校招生计划。为了避免掉档,这样可以先看一下相关学校的招生计划,然后再根据自己的分数评估填写自愿。考虑想学的专业。

  • 电动车闯红灯罚款在哪里交钱(电动车闯红灯罚款怎么交)

    自收到罚单后15日内,必须完成罚款的缴纳,若是逾期未交罚款,从16日开始以3计算滞纳金,但根据规定,最终的滞纳金不会超过罚金总额,比如,罚款200元,逾期未交后的滞纳金总额≤200元。本法另有规定的,依照规定处罚。

  • 女人吃韭菜作用与功效(盘点吃韭菜的好处)

    以下内容希望对你有帮助!女人吃韭菜作用与功效通便,韭菜含有大量维生素和粗纤维,能增进胃肠蠕动,治疗便秘,预防肠癌。助性,事实上适当的吃些韭菜也有滋阴补肾之功效,女人适当的吃些韭菜有利于提高性欲。散瘀活血,韭菜有散瘀、活血、解毒的功效,有益于人体降低血脂,防治冠心病、贫血、动脉硬化。杀菌消炎,韭菜所含的硫化合物有一定杀菌消炎的作用,可抑制绿脓杆菌、痢疾、伤寒、大肠杆菌和金黄色葡萄菌。

  • 粉底沾在衣服上怎么洗(粉底沾衣服清洗方法介绍)

    粉底沾在衣服上怎么洗可以用卸妆棉或者湿巾沾适量的卸妆水,然后擦拭脏污的地方,因为粉底液本身就是彩妆,所用卸妆水是可以有效的清理干净的,也不会留痕迹。清洗干净后可以把衣服晾在阴凉通风的位置,避免放在阳光直射的地方暴晒,在阳光直射的地方暴晒,很容易造成衣服脱色的情况,影响衣服的穿着效果。涂上清洁液之后不要着急清洗,要让衣物静置十分钟左右再清洗,这样可以让去污效果变得更好。

  • 网红王莎莎个人资料(童星王莎莎走到今天)

    试镜后,尚敬当场便拿出了合同。2006年,《武林外传》正式播出。共同成就了《武林外传》幽默搞笑的江湖地位,成为一代人永远的回忆。2006年,王莎莎趁热打铁,主演了《十三岁女孩》,获得了第十四届大学生电影节的入围影片。032018年12月,王莎莎参加了《演员的诞生》,再现了《武林外传》的经典情景。所以在2020年,王莎莎开始挑战自己,她与张耀主演的爱情轻喜剧《爱上邻家主厨》,饰演女主许开开。

  • 荷兰风车最初是用来干什么的(荷兰风车有什么作用)

    荷兰风车最初是用来干什么的荷兰风车的作用是用来碾谷物、粗盐、烟叶、榨油,压滚毛呢、毛毡、造纸,以及排除沼泽地的积水。对于荷兰风车来说,最大的有好几层楼高,风翼长达20米。荷兰的风车,最早从德国引进。到了十六、七世纪,风车对荷兰的经济有着特别重大的意义。随着荷兰人民围海造陆工程的大规模开展,风车在这项艰巨的工程中发挥了巨大的作用。这种风车,被称为荷兰式风车。

  • 进来越南没有钱只有微信有钱怎么办(一看你就知道)

    下面希望有你要的答案,我们一起来看看吧!进来越南没有钱只有微信有钱怎么办可以去中国银行兑换,但是可能要收取一定手续费。可以去越南当地的大银行进行兑换。可以去直接去银行ATM机上面进行取款,带有这两种标识Cirrus、Plus,银联的都是可以的。可以去机场或者海关进行货币兑换。

  • 什么发色显皮肤白(显皮肤白的发色有哪些)

    什么发色显皮肤白红棕色头发;在众多发色中,红棕色性感出位,也很百搭,而且能让发色看起来莹润有分量。红棕色稳重而不失时尚,当大气的棕色邂逅热情的红色,交融后产生的暖棕色使发质看起来莹润饱满,非常衬托肤色白皙的人。与淡淡的亚麻色、金黄色相比,红棕色更显华丽低调美;与魅惑的霓虹色、亮蓝色等高饱和色相比,红棕色不突兀,而且与整体造型百搭。红棕色是最能展现女人味的颜色之一,不轻浮,有种耐人寻味的美。