当AI学会听歌。
作者
刺猬君
编辑
耕史
“生命,宇宙以及一切的终极答案是什么?”
年,道格拉斯·亚当斯发表了让他日后名垂青史的科幻小说《银河系漫游指南》。在这本小说中,他描绘了一台名为“深思”(DeepThought)的超级人工智能——它的使命,便是解答上面的问题。
经过整整万年的运算,这台远超一切造物的人工智能给出了结果:“答案就是42。”
无法解释的荒谬答案,既反映着整个宇宙不会被人赋予意义的本质,也在一定程度上代表着世人对科技的看法:人工打造的科技,可不一定具备真正的“智能”。
今年一过,这位老先生就已驾鹤西去20年,但相较于“深思”,科技正在改变着我们的日常生活体验,甚至在某些领域,让我们甘拜下风。
不过,今天要讲的并不是人类如何再次被科技“击败”,而是一个有关于“欣赏”和“辨别”的故事。
缘起:科技遇见音乐
光听“人工智能”这四个字,冷冰冰的感觉就涌上心头。它不像你隔壁工位坐着的StevenLiu,在我们的认知中,它无法动用情感,更别提去鉴别,欣赏一幅画,一首歌的美。
真是这样吗?
几年前,身处新加坡科技设计大学从事音乐研究的一位热爱音乐的科研工作者Dr.Simon(以下统一称“雷教授”),已经开始思索这个问题:AI究竟能不能与音乐领域进行结合,碰撞出绚烂的火花?在研究的过程中,他也发现自己缺乏机遇:“没有太多人做这个领域(AI与音乐),而我的研究成果,也很难切实地帮助音乐人。”
在公里外的深圳,一群人也正在对相同的想法大摇其头。Ben曾在偶然间发现“以往唱片公司通过人工听Demo,来决定哪首歌值得推,但Demo的数量远远超过人工能听的数量,导致很多歌从来没有被听过而被埋没,十分可惜。”这一现象激发了他的思考,如果用不知疲倦的AI算法去评价歌曲,效果会怎样?但Ben身边的同行都不看好:“(他们认为)音乐是艺术,难以用科学或是算法去衡量它的质量。”
除了选择音乐,在Ethan眼中,通过科技让听者获得更好的音乐体验也变得越发重要:“经过多年的技术发展,音乐技术已经从纯信号处理向AI转变。”这就意味着,科技将是改变每一位听众日常听音体验的关键要素,“但(相关技术)在国内音频行业还是存在空白。”
三个人的问题其实异曲同工:如何用AI算法,鉴别、推送更为“动听”的歌?如何借助科技,全方位让听者及音乐人的音乐生活变得更美好?
或许是缘分,亦或是因为心中久久挥之不去的“执念”,念念不忘终有回响,年,三个人的轨迹开始串联在了一起。当年,腾讯音乐娱乐集团(TME)CEO彭迦信去新加坡开会,遇到了雷教授,两人互相交流了自己对音乐的见解。雷教授发现,彭迦信的想法和自己不谋而合:“他跟我说,腾讯音乐的梦想,不只是做音乐播放器,更是要打造一个丰富、良性的音乐生态,让音乐进入生活的每个场景,让音乐人拥有体面的收入和生活,这一点深深打动了我。”相比于教授的身份,雷教授本身也是一位音乐人,“我在大学时期,曾在餐厅做过驻场的小提琴手,深知音乐人的不易。”
表演中的雷教授
面对TME抛来的橄榄枝,雷教授并没有顾虑太多,他加入了TME,从成为QQ音乐多媒体研发中心负责人的那一刻起,如何用科技改变音乐人及亿万用户的方方面面……太多想做的事情萦绕在他脑海,他充满兴奋和期待,甚至让他在入职的第一天就把行李落在了出租车上。
同年,曾在王者荣耀项目上率领AI击败人类冠*战队的Ben,也如约加入到团队之中,担任多媒体研发中心创新组负责人。也正是在这里,他们遇到爱朗声说笑话的基础开发组负责人Ethan——上文提到的三位“现代工匠”和他们所率领的团队,从此将共同致力于用科技逐步改变每一位听众的音乐生活。
匠心:让AI学会“听”歌
一首歌,是怎样送到听众耳边的?
除了人工筛选,随着流媒体平台普及和技术进步,大家开始习惯通过播放量来选听歌曲。“这种方式会造成鲜明的马太效应,热歌只会越来越热,但0播放量的歌,(播放量)可能永远是0。”雷教授认为业界此前通用的技术,并没有解决音乐人的难题。
想来想去,方法其实也很简单:为AI注入温度,让AI学会鉴赏歌曲,利用其对海量数据的高速处理能力,辅助人工筛选,让有才华的作品不被埋没。
和世间的道理一样,都是说来容易,做起来难。AI的数据处理能力,要建立在对歌曲细颗粒度“标记”上,在这个层面有两个难题,如何对一首歌曲进行评价,维度该如何定?作为一项“艺术”,音乐的喜好没有恒定标准,AI的筛选,是否能说服众人?
在想法落地的过程中,Ben拉上了他的同事Moyan,从曲风、歌词、音色、演唱者唱腔、到后期制作与编排等,为AI制定了详细的评判维度——QQ音乐科技团队虽然大多出身技术,但大家都同样爱好音乐且具备一定的专业音乐素养。再加上QQ音乐数以亿计的海量大数据,让AI学习有了最重要的数据参考。
“当时我们都不知道要花多久,但它一定得做出来,让优秀但暂时没名气的音乐作品和音乐人不再被埋没,就是怀着这样的信念坚持着。”靠着过硬的技术,与对音乐的深度了解,再加上多版本的迭代和打磨,Ben的团队推出了一项名为PredictiveModel(PDM)的自研技术。
通过PDM,即使是0播放量的冷启动音乐作品,AI也能根据音频和歌词内容给予充分且匹配的受众识别与推送曝光,让歌曲得以更高效、精准地覆盖到适合的目标人群。换句话说,就是AI能够辨别“欣赏”歌曲,并将符合用户喜好的歌送到亿万乐迷耳边。AI就相当于一位慧耳识音的“伯乐”,找到好内容的“千里马”,并且把“千里马”精准地送到会喜欢它、欣赏它的人身边。
虽然对于技术的细节不是特别了解,但资深乐迷王小毛就对PDM感触颇深:“最近在QQ音乐上,听到不少新歌手的新歌,而且这些歌质量都非常高。像是此前火爆全网的《微微》,听说就是由AI技术选出来的,着实让我感叹了一下科技的力量。”
其实在PDM落地后,已经有数十首歌曲借其“独具慧眼”的挖掘实现“爆红”。不仅是《微微》,《收敛》《厚颜无耻》《忘川彼岸》以及近期悄然走红的《失控》等“国民级”歌曲,都得益于PDM技术的“鉴赏”,才步步“刷屏”全网。当然,亿万像王小毛一样的乐迷,也在这个过程中发现了自己喜欢的更多类型的新歌。
得益于QQ音乐PDM技术的多首热歌
除了用AI“欣赏”歌曲,科技也在Ethan团队的手上,化为了找寻陌生好歌的“必备神器”。年上线的QQ音乐听歌识曲技术,就一直以“稳准狠”著称。“在看一段广告时,可能吸引我们的并不是广告产品本身,而是它的配乐。又或者我们非常想要知道电影背后的歌曲是什么。”Ethan回忆起当时建立听歌识曲团队的初衷。
但在年初,听歌识曲团队也迎来了新挑战。团队成员Lester收到用户们的反馈,称原唱版本的歌曲都是秒速找到,但翻唱版本的歌曲却难以识别。这在当时是一个全新的命题,由于音乐模式的逐步丰富,越来越多的歌曲有了各色翻唱版本,用户们除了找原唱,对找翻唱、改编版本的歌曲也有很大的需求。
听歌识曲1.0版本的识别原理,主要是“声纹识别”,就像每个人都有自己的指纹一样,歌曲和声音同样也拥有自己专属特征的“声音指纹”,听歌识曲可以通过识别一小段音频的声纹,就能找出对应的歌曲,这对于寻找原版歌曲可谓无往而不利;但对于翻唱版、现场Live版等版本,由于声纹的变化,确实难以识别。
针对这一问题,Ethan和队友开始计划将原有的听歌识曲技术拓展到2.0版本,并成功实现“模糊识别”,目的是为了让在看剧、看综艺、刷短视频或者身处在一些小型Live现场时,却苦于找不到当时入耳的那首歌的乐迷,能轻松找到自己心仪的歌曲。“至今还记得,其中有一首歌叫《一曲相思》,就花了很多努力才实现可测。”Ethan团队对于当时的“攻坚经历”记忆犹新。
功夫不负有心人,经过一年艰苦的研发攻坚,业界首创的听歌识曲2.0“翻唱识别”横空出世,领先行业,一骑绝尘。通过智能AI,它不仅能识别短视频、综艺里的多轮翻唱歌曲,还能识别Live、直播等诸多场景,精准匹配度大幅提升。
值得一提的是,团队还制作了“离线系统”的小彩蛋,在歌曲第一次未能成功识别后,系统会在一周之内自动向全曲库发起请求,识别成功后,用户会收到听歌识曲小助手的反馈提醒。匠心换得真心,“他们(用户)的反馈特别好玩,收到私信后会惊讶地问,听歌识曲后台是不是有人工一直守着,是不是员工偷偷识别出来的。”团队成员Jerry笑着说。
有好几次,Jerry在看电影时发现前排观众的手机屏幕亮了,界面显示的正是在使用QQ音乐听歌识曲,“那时候的感觉,可能就是标准的幕后英雄。”听得出Jerry的自豪感。
QQ音乐听歌识曲功能
让AI学会欣赏、辨别每一首歌,对乐迷的好处显而易见:听见更多好歌,不会错过任何一首喜欢的歌。但在音乐创作层面,技术的革新,还将带来更加深远的影响。
改变:当技术服务于艺术
“在PDM诞生之初,我们也曾请新生代歌手带着音乐作品来做内部测试,发生了一些很有意思的事情。”Ben介绍。
“参与测试歌手”就有应嘉俐,不少听众都听过应嘉俐的《凉茶》《那又如何》:“当时正好是国际Discovery频道团队来对QQ音乐‘黑科技’进行访问,我和我的新作品体验PDM系统的经历也有幸被拍摄见证。”在这次PDM的打分测试时,应嘉俐带来了两首全新作品《神游星期天》和《上山来》。
但PDM判定的结果却出人意料:认为《神游星期天》的旋律更朗朗上口,更适合向受众推广。她对此感到十分惊讶,“打动我的也是打动PDM的一个因素,但是这个想法我并没有告诉过PDM团队”。
原来,《神游星期天》的旋律虽然安静平缓,却让她倾注了非常深厚的感情,而《上山来》对她来说,更像是一篇“命题作文”。“超出我想象的是,PDM好像特别了解歌手创作时的情绪和微妙的思考似的,PDM在对歌曲情感的判定上,《神游星期天》的分数也要高很多,这跟我自己的情感感受很一致。”
这次打分,也让应嘉俐开始重新审视技术。作为专业音乐人,她在打分之前对技术总是抱有疑问:“单从音乐技术上而言,就有非常多细化的标准,AI能够做到专业吗?”在看到QQ音乐的后台系统后,她的想法大为改观:“评价一首歌的所有细分门类和专业技术,(PDM)都有完整的体系了。”
但让应嘉俐感触最深的,还是经过PDM的打分,让她更明白在创作上,要保持自己的初心,延续自己的风格,这才是创作的本质。
让音乐人能够不受限制地表达内心,同时又让这些表达能够走进亿万乐迷耳边,“有了这些好的案例,这让我们对技术有了更大的信心。通过PDM技术去找出沧海遗珠,酒香也怕巷子深,我们要找到怀才不遇的好音乐和音乐人,给他们更好的机会。”雷教授说。
其实,经过多年深耕,QQ音乐已走出了一条深受认可的“科技匠心”之路。与连续两年,在国际音乐学术界公认的最权威比赛——国际音频检索评测大赛(MIREX)上,QQ音乐(PDM)技术团队不仅在“预测识别(PatternsforPrediction)”中取得突破性结果,一举打破世界纪录。同时,QQ音乐的“听歌识曲”等音频技术也夺得两项世界冠*,三项成绩打破世界纪录。当时连小马哥都在朋友圈为产品获奖成果点赞,这在内部相当罕见。
除了在国际顶级技术舞台上抛头露面,QQ音乐还推出了“银河音效”,将用户“听”的体验全面升级,同时上线了全新黑科技“定制音效”——通过用户耳形特征和听觉特征的智能化分析,打造“私人订制”体验。最近,银河音效又“上新”了针对扬声器听音的“外放环绕音效”和“车载定制音效”。编辑部的*湘就丝毫不吝惜对音效体验的赞美,“前者能够省下一个小音箱的钱,而后者则是驾车出游听歌必备。”
QQ音乐“银河音效”上的“定制音效”
不仅在音乐实用技术上,QQ音乐多媒体技术团队更是在科技向善的“科技+温度”这条路上一路狂奔,基于当下年轻人对听书这一“耳朵经济”的进阶需求,QQ音乐已独家研发并最新上线行业首个“AI有声书”功能,尤其是语音合成AI主播“Q音电台bot”,是业界首个可以朗读出极具情感表现力的嗓音,第一个成功用“黑科技”表达“声音中的细微情绪”,为用户提供更加声临其境的有声书体验。
13世纪,意大利画家借用更加巧妙的化学,大幅改良了一种名为“湿壁画”的绘画方法,让墙壁上的绘画能够保存得更久,色彩更靓丽。得益于新兴的技术,当时的画家们可以用更加新颖的主题,在大面积墙壁上绘出栩栩如生的人物。近年以后,米开朗基罗、达芬奇相继用同样的技术,绘下了他们的传世名作,成为文艺复兴运动的“最高瑰宝”。
这个例子看似和音乐界没有关系,但科技和艺术创作从未分开,随着科技的革新,坚持科技向善,凭借“科技+温度”的艺术创作将可以用全新的方式释放美——或许可以想象一下,在QQ音乐科技的步步“升温”之后,会不会让音乐创作,乃至我们每个人的音乐生活产生翻天覆地的变化?
将要发生的一切改变,值得拭目以待。
(文中王小毛、*湘为化名)