百摩网
当前位置: 首页 生活百科

ai公众号抠图(快手打造用户兴趣建模盛宴)

时间:2023-05-28 作者: 小编 阅读量: 3 栏目名: 生活百科

快手打造用户兴趣建模盛宴雷刚发自凹非寺量子位出品|公众号QbitAI千图易读,一video难读或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很。

雷刚 发自 凹非寺

量子位 出品 | 公众号 QbitAI

千图易读,一video难读。

或许你多少有些了解,在以深度学习为核心的AI算法大杀四方,机器在理解图像、语音等方面都取得了很大的进步时,理解视频内容仍还是一件很困难的事情。

挑战无非三方面

首先,信息量大,不是简单的词语就能概括视频的内容。

一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。

其次,维度多,视频是视觉听觉多模态信息融合载体。

多模态深度语义理解能让机器更深地理解短视频背后的含义,然而也面临着很多挑战,例如图像像素如何与语音波形或声谱图产生相关性。

最后,业内始终缺乏大规模的数据集

更大、更具挑战性的数据集,必然会对学术界和工业界研究和实践方向的推动起着重大作用,如图像分类里的ImageNet,目标检测里的COCO,而对于短视频,一直没有大规模的数据集。

用户兴趣建模

顾名思义,该比赛围绕用户兴趣进行建模,核心是充分挖掘AI理解的视频内容来挖掘用户兴趣数据,使得推荐给用户的视频更加精准,最终以AUC得分高者胜。

作为主办方,快手提供了一批脱敏之后的用户点击、点赞和关注等交互行为数据,同时提供这批作品封面的视觉特征、人脸特征和文字描述特征,这些数据特征共计3w 用户、920w 视频,以及6000w 行为数据

而且为了激发更多参赛者,快手还特地设置了30w 奖金池。3人结队,为期3个月,分为初赛和复赛,最后取前10名嘉奖,一等奖20万元,二等奖5万,三等奖3万,另外还有2个极客奖1万元和5个优胜奖各3千元,总奖金池高达31.5万元。

此外,复试排名的前30,还能在毕业前随时直通快手面试。

听起来就一颗赛艇。

本次大赛提供的训练数据

具体任务中,选手要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测用户在另一视频数据集上的点击行为。

值得注意的是,这两个数据集的视频ID交集为空。

这使得本次大赛和以往大多数用户兴趣建模大赛有很大的区别,选手必须充分利用AI算法提供的视频理解结果,对视频内容进行提炼,从而建立两个数据集的关联点。

无论在学术界,还是工业界,这都是一个难且新的问题。

内容理解在快手

不过,这样的问题在快手其实每天都在得到训练和解决。

现在整个快手平台,已经累计拥有超过50亿条视频,日活跃用户超过1.2亿,其核心产品逻辑是视频内容的个性化推荐。

一方面,这需要机器对内容的理解足够极致,从多种维度、综合利用多种技术对短视频进行分析理解,再把理解应用到推荐模型中去。

另一方面,内容安全是悬在每家互联网公司头上的达摩克里斯之剑,在非法违规内容监测上,机器对内容的理解将大大减少审核所需的人力,原创视频的保护亦然。视频搜索、商业化也需要机器对视频的深度理解。

而上述原因,也是为什么快手愿意花费人力、拿出数据、重金激赏参赛项目的核心原因。

快手之脑

在快手内部,用AI来理解视频的团队叫做多媒体内容理解部门(Multimedia Understanding),简称MMU ,这个团队正在试图打造“快手之脑”。

该部门负责人李岩,也在此次比赛中,分享了部门技术建设的核心思路。

理解视频之所以难,是因为目前AI展示的诸多能力,还停留在图像、语音等感知层面, 然而视频则是二者的叠加,所谓多模态,在此体现得最为充分,而AI在这个领域才刚刚开始起步。

此外,对高层语义的识别理解也是AI亟待解决的问题。

而解决思路方面,李岩认为,视频内容理解从大方面分为感知和推理两个阶段。

感知阶段,快手目前主要从四个维度分析理解视频内容,分别是人脸、图像、语音,和音乐。

其中,人脸信息在社交视频中占据重要地位,需要对视频中的人脸进行检测、跟踪、识别,并分析出视频中人物的年龄、性别等属性,挖掘其中的3D形状、表情等信息。

图像维度,通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。

语音方面,不仅要识别语音,还要识别说话人,对说话人的情绪、年龄等语音属性进行信息分析。

音乐方面,则要进行音乐识别、歌声、伴奏分离、歌声美化打分等分析任务,对音乐信息进行结构化。

基于以上四个维度,来完成对视频低级语义信息的感知。

在完成上述任务后,机器才进入到推理阶段。机器需要基于感知阶段的输出,将视频看做一个整体,进行分类、描述、检索。

此外,像人将学到的知识存到大脑一样,令机器把视频内容整理并存储到知识图谱中,也是目前快手的主要做法,这样融合感知内容和知识图谱,使得理解视频高层语义及情感成为可能。

值得一提的是,为了实现对视频内容的理解,还有一大拦路虎要克服。

挑战和未来

非常直接而现实的是,当前AI技术还处于严重依赖人工标注的阶段。

这需要人类坐在电脑前,一个个画框打标签,以帮助机器更好地理解。该做法不仅成本高,效率低,而且对标注员而言非常枯燥。未来减少人类标注,或者让机器能够更智能地去理解新内容,是AI算法进化的核心方向之一 。

这也是快手发起此次用户兴趣建模大赛的核心原因之一,希望培养、吸引更多年轻力量,加入到这场AI未来变革的先锋部队之中。

在过去几年中,快手的多媒体内容理解团队拥有近百名资深算法研究员和研发工程师,大部分研发人员具有多年 BAT 工作经历,核心算法研究员拥有超过十年的研发经验。

也有清华、中科院、港科大、南京大学、上交、京都大学等国内外高校学生加入快手,实现产学研一体,打造了人才梯队培养的机制。

但李岩强调,一切还远远不够。

快手还希望找到更多有志于计算机视觉、语音识别、视频内容理解、人脸识别&3D重建等相关领域的人才。

李岩相信,快手目前拥有的数据资源,以及正在尝试的攻坚,都会是吸引人才的重要砝码。

One more thing

最后,也附上本次兴趣建模大赛的答辩干货

这次比赛Top10的答辩选手解决方案,一句话总结:一个框架、两类思路。

一个框架

这里说的框架并不是算法框架,而是在处理这类问题时的通⽤代码。这个框架能够使算法在处理不同数据时能够简单快速地完成验证。

框架设计的整体思路就是特征群分离,并且不同数据类型进⾏分离。特征群分离主要指的是不同的数据来源。

提取的特征进行分类,例如用户行为特征群、视觉特征群等。每个特征群又可以分为连续特征或者离散特征,例如视觉特征群可以包括连续的降维特征以及离散的视频聚类特征等。

这样做有三点好处:

  1. 对于新发现的特征可以快速知道适用于哪一侧的模型,方便特征扩容。
  2. 特征群分开,可以快速定位哪些特征对线上效果增益最大。代码与特征分离,框架一次开发,后期添加特征的成本大大降低。

下图为一个典型的框架设计图:

总体来看,比赛的特征分为:原始特征、Embedding特征,⼿⼯特征。这些特征又可以分成连续特征和离散特征。所以一个好的框架,在设计之初就可以充分考虑到这些数据,从而在后期对这些特征进行很好的扩容。

大部分选手针对大赛提供的数据把特征分成了了若干个特征群,每个特征群对应一大类数据的输入,然后分别针对每个特征群进行特征提取。

在框架设计的时候,会把特征按照不同的类别进行划分。这样做可以尽可能复⽤代码框架。

两大类思路

选手的思路大致可以分为两大类,⼀个是以特征工程加模型调参为代表的传统机器学习算法。

另⼀类是以模型构造加注意力机制的深度学习算法。

特征工程主要是以第一名为代表的伏地魔团队,模型主要是第二、三名团队。

当然这两种算法在具体的实现过程中存在一定的交叉,但是不同的实现都有所侧重。

第一名“ 伏地魔团队”的特征工程

第二、三名的网络结构

总体来说,特征工程需要对数据极其敏感,而且需要对快手App本身有更深入的了解,知道用户的使用习惯,并且对数据具有极强嗅觉。

设计模型最多的工作则是调整网络参数,需要对模型不同层、不同网络之间有极高的能力。深度模型可以隐式地提取数据的特征,具有很好的数据抽象能力 。

当然,如果还希望了解更多相关比赛和多媒体内容理解信息,欢迎移步快手招聘公众号。

也希望能有更多类似的数据集开放、类似的比赛举办,不管是为解决行业难题,还是实现人才培养,最终都能促进整个产学研向前进步。

嗯,一举多得,值得鼓励~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

,
    推荐阅读
  • 王者荣耀怎么看好友亲密列表(如何操作)

    我们一起去了解并探讨一下这个问题吧!王者荣耀怎么看好友亲密列表首先打开手机桌面的王者荣耀游戏,点击进入。然后点击左上角自己的头像。在左侧选择“社交”,下拉菜单中点击“亲密关系”。在此页面我们就可以看到与自己绑定的亲密关系好友了。

  • 发生火灾如何逃生自救(切记以下正确逃生应对方法)

    发生火灾如何逃生自救当发现楼内失火时,切忌慌张、乱跑,第一时间拨打119报警电话!要冷静地探时着火方位,确定风向,并在火势未蔓延前,朝逆风方向快速离开火灾区域。起火时,如果楼道被烟火封死,应该立即关闭房门和室内通风孔,防止进烟。随后用湿毛巾堵住口鼻,防止吸入热烟和有毒气体,并将向上的衣服浇湿,以免引火烧身。设法通知消防人员前来营救。同时还要封闭所有能透进火焰及烟气的孔缝,并充分利用室内的水源进行自救。

  • 王鸥参加妹妹婚礼照曝光!打扮低调全程操劳,妹妹五官精致颜值高

    近日,有网友晒出了王鸥参加妹妹婚礼的视频。王鸥还在酒店房间帮服务员一起准备茶水,与伴娘沟通流程,为妹妹的婚礼忙前忙后。今年9月份,何九华曾被拍到探班王鸥,两人全程举止亲密,一副热恋中小情侣的模样,从而传出恋情传闻。随后,王鸥和何九华一起吃完饭后回到剧组,王鸥收工之后两人又同乘一辆车到达酒店。何九华和王鸥对于恋情传闻均未给出回应,但两个人都处于单身状态,属于自由恋爱,双方也都到了适合婚嫁的年纪。

  • 北京小众秘境咖啡馆(谁说北京是精品咖啡荒漠)

    在疫情刚得到喘息的2020年夏天,不只是BerryBeans,还有MetalHands、1/4ONEQUARTERCOFFEELAB三家北京本土精品咖啡馆前后脚进驻了朝阳大悦城。加之在近年来北京的城市更新和改造中,一些证照不齐全的门店被关掉,形成了一轮闭店潮,在疫情胡同社区封闭管理的情况下,其经营状况更加糟糕。数位精品咖啡经营者都向界面新闻坦言,加快他们做出进场购物中心决定的,还是疫情。购物中心与精品咖啡品牌事实上也是一个双向选择的结果。

  • 砂浆强度中M是什么意思(砂浆强度中M的解释)

    以下内容大家不妨参考一二希望能帮到您!砂浆强度中M是什么意思砂浆强度中M2.5中的M是砂浆英文mortar的缩写。C20中的C是混凝土concrete的缩写。砂浆强度等级是以边长为7.07cm的立方体试块,按标准条件[在℃温度、相对湿度为90%以上的条件下养护至28d的抗压强度值确定。砌筑砂浆按抗压强度划分为MMMM7.MM2.5等六个强度等级。

  • 偶尔吃多一次(一周吃六次都嫌少)

    小贴士1.务必全程小火;2.迅速沾下凉水可以有效避免元宵在炸制过程中爆锅溅油,沾水后记得控下多余水分再下油锅;3.每次下锅的元宵不要太多,以免元宵相互粘连。

  • 女儿用英语怎么说(女儿用英语如何说)

    女儿用英语如何说女儿用英语的说法是:daughter读音是:英[ˈdɔːtə(r)]、美[ˈdɔːtər]例句:Iwantyoutostayawayfrommydaughter.意思是:我要你离我女儿远远的Heinv。

  • 优美段落摘抄(优美段落大全)

    优美段落摘抄人的心态好了,就不会再刻意追求什么、奢求什么;该属于自己的一定会来到自己身边,不属于自己的就算咫尺也是天涯!拥有平常的心态,平常心态就会给你一个美丽的人生。凡留下开拓者足迹的地方,便必定有卓越的精神之闪光。纵然时代扭曲而此精神不可亵渎,纵然岁月异常而此精神不可轻薄,因为它乃是从祖先至我们,以人类的名义所肯定的奋勇……这几句简单的幽默,是否可以说幸福与金钱没有必然联系。

  • 儿童美术加盟有哪些优势(加盟儿童美术与自己创业有什么不同)

    降低创业的忧虑。但在挑选加盟品牌时,请务必把重点问题问得明明白白。其实并非这样,一般加盟品牌的费用包括特许加盟使用费用和品牌管理费用。对投资人而言,可以选择实地考察,多看一些,比较。主要对比的是公司的实力,公司的技术支持,品牌的市场影响力以及对加盟商的后续支持。

  • 东风风神h30发动机好吗(你知道吗)

    东风风神h30发动机好吗东风风神h30发动机挺好的。东风风神H30的这款发动机为1.6升直列4缸16气门发动机,型号为TU5/JP4,最大功率为78KW,最大扭矩为142NM,这款发动机是法国标致雪铁龙公司推出的一款典型的高效能低排放发动机,动力及油耗表现都是非常不错的。总的来说风神H30吸收了来自标致雪铁龙的很多先进技术,使该车成为了一款性价比不错的车型,所以说此发动机是一款挺好的发动机,值得优选。