百摩网
当前位置: 首页 生活百科

ai公众号抠图(快手打造用户兴趣建模盛宴)

时间:2023-05-28 作者: 小编 阅读量: 3 栏目名: 生活百科

快手打造用户兴趣建模盛宴雷刚发自凹非寺量子位出品|公众号QbitAI千图易读,一video难读或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很。

雷刚 发自 凹非寺

量子位 出品 | 公众号 QbitAI

千图易读,一video难读。

或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很困难的事情。

挑战无非三方面

首先,信息量大,不是简单的词语就能概括视频的内容。

一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。

其次,维度多,视频是视觉听觉多模态信息融合载体。

多模态深度语义理解能让机器更深地理解短视频背后的含义,然而也面临着很多挑战,例如图像像素如何与语音波形或声谱图产生相关性。

最后,业内始终缺乏大规模的数据集

更大、更具挑战性的数据集,必然会对学术界和工业界研究和实践方向的推动起着重大作用,如图像分类里的ImageNet,目标检测里的COCO,而对于短视频,一直没有大规模的数据集。

用户兴趣建模

顾名思义,该比赛围绕用户兴趣进行建模,核心是充分挖掘AI理解的视频内容来挖掘用户兴趣数据,使得推荐给用户的视频更加精准,最终以AUC得分高者胜。

作为主办方,快手提供了一批脱敏之后的用户点击、点赞和关注等交互行为数据,同时提供这批作品封面的视觉特征、人脸特征和文字描述特征,这些数据特征共计3w 用户、920w 视频,以及6000w 行为数据

而且为了激发更多参赛者,快手还特地设置了30w 奖金池。3人结队,为期3个月,分为初赛和复赛,最后取前10名嘉奖,一等奖20万元,二等奖5万,三等奖3万,另外还有2个极客奖1万元和5个优胜奖各3千元,总奖金池高达31.5万元。

此外,复试排名的前30,还能在毕业前随时直通快手面试。

听起来就一颗赛艇。

本次大赛提供的训练数据

具体任务中,选手要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测用户在另一视频数据集上的点击行为。

值得注意的是,这两个数据集的视频ID交集为空。

这使得本次大赛和以往大多数用户兴趣建模大赛有很大的区别,选手必须充分利用AI算法提供的视频理解结果,对视频内容进行提炼,从而建立两个数据集的关联点。

无论在学术界,还是工业界,这都是一个难且新的问题。

内容理解在快手

不过,这样的问题在快手其实每天都在得到训练和解决。

现在整个快手平台,已经累计拥有超过50亿条视频,日活跃用户超过1.2亿,其核心产品逻辑是视频内容的个性化推荐。

一方面,这需要机器对内容的理解足够极致,从多种维度、综合利用多种技术对短视频进行分析理解,再把理解应用到推荐模型中去。

另一方面,内容安全是悬在每家互联网公司头上的达摩克里斯之剑,在非法违规内容监测上,机器对内容的理解将大大减少审核所需的人力,原创视频的保护亦然。视频搜索、商业化也需要机器对视频的深度理解。

而上述原因,也是为什么快手愿意花费人力、拿出数据、重金激赏参赛项目的核心原因。

快手之脑

在快手内部,用AI来理解视频的团队叫做多媒体内容理解部门(Multimedia Understanding),简称MMU ,这个团队正在试图打造“快手之脑”。

该部门负责人李岩,也在此次比赛中,分享了部门技术建设的核心思路。

理解视频之所以难,是因为目前AI展示的诸多能力,还停留在图像、语音等感知层面, 然而视频则是二者的叠加,所谓多模态,在此体现得最为充分,而AI在这个领域才刚刚开始起步。

此外,对高层语义的识别理解也是AI亟待解决的问题。

而解决思路方面,李岩认为,视频内容理解从大方面分为感知和推理两个阶段。

感知阶段,快手目前主要从四个维度分析理解视频内容,分别是人脸、图像、语音,和音乐。

其中,人脸信息在社交视频中占据重要地位,需要对视频中的人脸进行检测、跟踪、识别,并分析出视频中人物的年龄、性别等属性,挖掘其中的3D形状、表情等信息。

图像维度,通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。

语音方面,不仅要识别语音,还要识别说话人,对说话人的情绪、年龄等语音属性进行信息分析。

音乐方面,则要进行音乐识别、歌声、伴奏分离、歌声美化打分等分析任务,对音乐信息进行结构化。

基于以上四个维度,来完成对视频低级语义信息的感知。

在完成上述任务后,机器才进入到推理阶段。机器需要基于感知阶段的输出,将视频看做一个整体,进行分类、描述、检索。

此外,像人将学到的知识存到大脑一样,令机器把视频内容整理并存储到知识图谱中,也是目前快手的主要做法,这样融合感知内容和知识图谱,使得理解视频高层语义及情感成为可能。

值得一提的是,为了实现对视频内容的理解,还有一大拦路虎要克服。

挑战和未来

非常直接而现实的是,当前AI技术还处于严重依赖人工标注的阶段。

这需要人类坐在电脑前,一个个画框打标签,以帮助机器更好地理解。该做法不仅成本高,效率低,而且对标注员而言非常枯燥。未来减少人类标注,或者让机器能够更智能地去理解新内容,是AI算法进化的核心方向之一 。

这也是快手发起此次用户兴趣建模大赛的核心原因之一,希望培养、吸引更多年轻力量,加入到这场AI未来变革的先锋部队之中。

在过去几年中,快手的多媒体内容理解团队拥有近百名资深算法研究员和研发工程师,大部分研发人员具有多年 BAT 工作经历,核心算法研究员拥有超过十年的研发经验。

也有清华、中科院、港科大、南京大学、上交、京都大学等国内外高校学生加入快手,实现产学研一体,打造了人才梯队培养的机制。

但李岩强调,一切还远远不够。

快手还希望找到更多有志于计算机视觉、语音识别、视频内容理解、人脸识别&3D重建等相关领域的人才。

李岩相信,快手目前拥有的数据资源,以及正在尝试的攻坚,都会是吸引人才的重要砝码。

One more thing

最后,也附上本次兴趣建模大赛的答辩干货

这次比赛Top10的答辩选手解决方案,一句话总结:一个框架、两类思路。

一个框架

这里说的框架并不是算法框架,而是在处理这类问题时的通⽤代码。这个框架能够使算法在处理不同数据时能够简单快速地完成验证。

框架设计的整体思路就是特征群分离,并且不同数据类型进⾏分离。特征群分离主要指的是不同的数据来源。

提取的特征进行分类,例如用户行为特征群、视觉特征群等。每个特征群又可以分为连续特征或者离散特征,例如视觉特征群可以包括连续的降维特征以及离散的视频聚类特征等。

这样做有三点好处:

  1. 对于新发现的特征可以快速知道适用于哪一侧的模型,方便特征扩容。
  2. 特征群分开,可以快速定位哪些特征对线上效果增益最大。代码与特征分离,框架一次开发,后期添加特征的成本大大降低。

下图为一个典型的框架设计图:

总体来看,比赛的特征分为:原始特征、Embedding特征,⼿⼯特征。这些特征又可以分成连续特征和离散特征。所以一个好的框架,在设计之初就可以充分考虑到这些数据,从而在后期对这些特征进行很好的扩容。

大部分选手针对大赛提供的数据把特征分成了了若干个特征群,每个特征群对应一大类数据的输入,然后分别针对每个特征群进行特征提取。

在框架设计的时候,会把特征按照不同的类别进行划分。这样做可以尽可能复⽤代码框架。

两大类思路

选手的思路大致可以分为两大类,⼀个是以特征工程加模型调参为代表的传统机器学习算法。

另⼀类是以模型构造加注意力机制的深度学习算法。

特征工程主要是以第一名为代表的伏地魔团队,模型主要是第二、三名团队。

当然这两种算法在具体的实现过程中存在一定的交叉,但是不同的实现都有所侧重。

第一名“ 伏地魔团队”的特征工程

第二、三名的网络结构

总体来说,特征工程需要对数据极其敏感,而且需要对快手App本身有更深入的了解,知道用户的使用习惯,并且对数据具有极强嗅觉。

设计模型最多的工作则是调整网络参数,需要对模型不同层、不同网络之间有极高的能力。深度模型可以隐式地提取数据的特征,具有很好的数据抽象能力 。

当然,如果还希望了解更多相关比赛和多媒体内容理解信息,欢迎移步快手招聘公众号。

也希望能有更多类似的数据集开放、类似的比赛举办,不管是为解决行业难题,还是实现人才培养,最终都能促进整个产学研向前进步。

嗯,一举多得,值得鼓励~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

,
    推荐阅读
  • 大清顺治皇帝为什么要出家当和尚(为什么清朝顺治皇帝要出家)

    顺治皇帝出生于明朝晚期的乱世,他六岁登基,七岁伴随清朝入主中原。由于年幼的顺治皇帝入关时只有七岁,实际掌权的为摄政王多尔衮。但多尔衮入主中原后强迫汉族剃发易服,导致反清复明的浪潮一浪高过一浪。年幼的顺治皇帝目睹了多尔衮对汉族的血腥屠杀,致使其内心深处对汉族有愧疚。虽然郑成功反清复明最终失败了,但汉族百姓发起的反清复明运动时常让顺治皇帝战战兢兢。

  • 除夕节几月几日(除夕节)

    岁末的最后一天称为“岁除”,意为旧岁至此而除,另换新岁。“除夕”是岁除之夜的意思,又称大年夜、除夕夜、除夜等,时值年尾的最后一个晚上。除夕因常在农历十二月廿九或三十日,故又称该日为大年三十。2007年,除夕依《全国年节及纪念日放假办法》正式成为中国法定节假日。2014年,除夕依国务院关于修改《全国年节及纪念日放假办法》决定进行调整,不再作为中国法定节假日。

  • snh48第四届总选鞠婧祎名次(四千年美女鞠婧祎第一名)

    今年大火的四千年美女鞠婧祎拿到了SNH48第三届偶像年度人气总决选最终排名第1的成绩记得妹子去年的成绩是第二名今年果然拿到了自己期待的名次恭喜妹子综艺邀约也一直没停所以,星途也一片大好在SNH48组合,总选排名越好就会有更好的机会所以往后的资源什么的也不会太差从一个国民美少女,变成一个全能演员唱歌和演戏两不差全面发展的话,其实也是一个不错的选择而且私服衣品美到爆青春无敌美少女每次都走的青春风美呆了

  • 2022天津师范录取分数线(天津师范大学2022年录取分数线)

    天津师范大学天津师范大学是天津百年师范教育的传承者,天津基础教育文脉发祥地,天津唯一面向基础教育培养优质师资的师范大学。学校始建于1958年,原名天津师范学院,1982年更名为天津师范大学。1999年,原天津师范大学、天津师范高等专科学校、天津教育学院合并组建新天津师范大学。2021年入列国家教育强国推进工程优质师范大学建设行列。小编给大家整理了天津师范大学2022年分省份录取分数线。

  • 花中四君子的诗句(花中四君子的诗句分别是什么)

    花中四君子的诗句?下面内容希望能帮助到你,我们来一起看看吧!花中四君子的诗句梅:众花落尽赏孤梅,骨气幽奇伴雪开;独领风骚情自远,天寒地冻报春来。

  • 热敏纸怎么保存(热敏纸保存方法)

    以下内容希望对你有帮助!热敏纸怎么保存热敏纸打印后,避免阳光直射,在光线越暗的地方,热敏纸的字迹保存期就越长。避免热敏纸接触潮湿环境,热敏纸是化学显色原理工作,受潮后热敏纸会加快褪色,同时水份会分解热敏纸发色的化学成份。同时避免长时间与空气接触,空气的氧化功能也会破坏热敏纸的保护涂层。就是购买使用更好品质的热敏纸。好的热敏纸其同等条件下保存期,显色清晰度要更高。

  • 空间说说文案(个性文案短句说说)

    个性文案短句说说向前迈进,为了成为连自己也会爱上的人不要因为廉价的新鲜感放弃长久的陪伴时光浓淡相宜,人心,远近相安有时,我们做出的最艰难的抉择,最终成为我们做过的最漂亮的事姑娘,希望你活得尽兴,而不是庆幸.不要悲观地。

  • 墨汁怎么使用,需要加水吗(墨汁使用前都要加水吗)

    如果网购,也要选择有信誉的网店。此外,我们打开使用墨汁后,请将外面的纸包装盒撕烂,至少也撕开一个口子,以防止这种外包装盒连同假墨汁再次进入市场。梁上君子,自重自爱!

  • 广平站改造(聚焦热点顺从民意)

    昨天上午,广水市人大主任石守超到武胜关镇人民政府陈翠书记办公室与随州市政协委员程亮元见面,询问了工作及生活情况,征求了对火车站广场的意见与建议。石主任对程亮元的建议表示肯定,希望今后多写提案,多关注社情民意,并通过政府及政协渠道及时沟通反馈,大胆向政府建言献策。对此,程亮元表示感谢。下山后,所有人员到培龙社区参加了征求意见会议。

  • 九阴真经3d八卦在哪(凌霄城一枝独秀)

    双刺飞行过程中,持续击退沿途目标。唐门、峨眉、武当三大门派的武学进行调整,把近期测试版本中较弱的环节进行了补充改进,将自身能力不足的问题进行了加强。问答社区服务为玩家们提供了相互交流并相互解惑的平台,让玩家们的疑问尽快得到解决。97973手游网声明:97973手游网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。