我被“非结构化数据包围了”,请求支援!
相关论文发表于 2009 年,最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久,这个数据集就迅速发展成为一项年度竞赛,衡量哪些算法可以以最低的错误率识别数据集图像中的物体。许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。 尽管经历了很多艰辛,但是最终 ImageNet改变了人们认识数据和算法的方式。“ImageNet 思维所带来的范式转变是,尽管很多人都在注意模型,但我们要关心数据,”李飞飞说:“数据将重新定义我们对模型的看法。” 自 2010 年以来,谷歌、微软和 CIFAR 推出了其他一些数据集,因为事实表明深度学习需要像ImageNet 这样的大数据。 “图片,很多很多的图片”,作为非结构化数据的一种,ImageNet向我们展示了图片的巨大威力,而我们相信,这只是刚刚开始。 店小蜜:智能客服的养成之道[2] 2016年3月,一个名叫“我的小蜜”的人工智能客服就出现在了手机淘宝和手机天猫的APP中,它可以说是店小蜜的前身,当时,它的主要工作是担当平台客服,为用户解决催发货、退货退款、投诉和售后保障等问题。“我们开发‘我的小蜜’,是为了让用户能以最快的方式找到解决问题的途径。” 小蜜的产品经理南山回忆起团队初创时的往事,这样说道。 整个淘宝天猫电商平台的用户有好几亿,如果让每个用户都能用快速客服通道来联系客服,显然会对淘宝客服团队造成巨大压力。怎么办呢?人力不能解决的问题,就靠技术来解决。客服人员忙不过来,就请智能客服来帮忙。阿里每天大量的真实交易互动,让用户的问题都以数据的形式沉淀下来。通过这些数据,开发团队可以得知哪些问题最高频。而这些数据也让小蜜不断地进行强化学习,变得越来越“聪明”,应答准确度越来越高。 客服系统产生的文本、语音成了丰富的宝藏,通过对这些文本、语音的智能化处理,店小蜜逐渐成为了“最懂电商的客服机器人”。 “知识,各行各业的知识”,店小蜜的成功从一个角度证明了对文本、语音的运用,可以释放出来的巨大能力。我们相信,这只是刚刚开始。 智能安保:智能化办案[3] 2018年11月5日到10日,首届中国国际进口博览会在上海成功举办。本次进博会有一个大的亮点:智能安保。 在本次安保活动中,上海公安局“智慧公安”产品“智能警务中台”成功亮相,通过对辖区1.5万摄像头的全量接入,实时解析,实现民警的智能化办案。基于全网全视频数据结构化的提取,实现人、车多维特征布控,触网自动告警,融合视频结构化信息、MAC、IMEI、RFID等进行多维研判,对目标嫌疑人进行行为轨迹跟踪。 “视频,流动的视频”,首届中国国际进口博览会上智能安保的成功应用,使我们相信了对视频监控智能化处理的巨大。我们仍然相信,这只是刚刚开始。 狂奔的应用:被“惯坏”的应用 随着网络的加速和人工智能的兴起,仿佛一夜之间信息流、短视频、网红直播这些新的娱乐方式涌现在人们面前,躁动的人们搅动着躁动的市场,躁动的市场搅动着躁动的应用。头条、抖音、斗鱼、小红书、淘宝直播等等新的娱乐或电商模式喷薄而出,网红经济、内容电商、信息流等新兴的词汇也如雨后春笋般涌现出来。正如苹果广告Think different里面描述的那样:“你可以赞美他們,引用他們,反对他们,质疑他們,颂扬或是诋毁他们,但唯独不能漠视他们。”也许你跟我一样,对某些产品不以为然甚至嗤之以鼻,但是新的娱乐形态毕竟挡无可挡,每个人都不能置身事外。 仔细分析,其实不难发现,当我们经历了互联网时代的洗礼,对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的欲望,而伴随着技术成熟而来的非结构化数据:图片、视频、语音,正式登上舞台,催生着一个接一个的应用一路狂奔。 非结构化数据的问题和挑战非结构化数据虽然具有很大的价值,但是当前对非结构化数据的处理和管理却存在很多问题和挑战,下面结合我们的理解对这些问题和挑战进行一个初步整理。 实体和关系分离 非结构化数据因为其自身不具有规整的形式,因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。 举个简单例子:对于淘宝商品的图片,其商品的信息是通过二维表的形式存储的,但是主图的图片却存在在OSS中,需要通过cdn映射才能访问图片内容。 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |