只用谷歌街景的图片,就能做全美国的人口普查,你能信吗?最近,李飞飞发表的一篇名为《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的论文表示,这并不是天方夜谭。
能解决什么事?
美国的人口普查方式和中国类似,也是运用上门全体普查的方式测算人口数量和结构,需要超过6500人的专业团队、每年耗资超过10亿美金。但是,近期一篇来自斯坦福、密歇根和莱斯大学的联合论文却说,依靠深度学习算法和谷歌街景数据,就能算出美国的人口数据。
这篇发布在arxiv的文章引起了广泛的讨论。论文主要是运用了谷歌街景中美国地区超过5000万张图片,识别出图片中的汽车数量、型号和分布结构,进而推算出人口、人口结构甚至是政治倾向。
用的什么方法?
这一系统被命名为CNN计算机视觉框架,其作用机理基于深度识别算法。这套系统的科技感很足,比如当一张谷歌街景图片中出现了一辆汽车,该算法能够迅速通过外形特征识别出汽车的品牌、型号与出厂年份。这个系统做到了在0.2秒之内识别出2657种汽车,仅用了两周的时间就分析完了谷歌的所有数据。
而汽车的特征很大程度上与家庭的情况相关。90%以上的美国家庭都有车,而选择车的因素往往与家庭情况相关。比如,如果在一家人门口看见了一辆沃尔沃的mpv,那么这个家庭至少有两个孩子(最起码在统计学上是的)。同样的,选择车的偏好、价格等等也能反映出车主的很多信息,能够较为准确地预测人口结构。
当然,由于谷歌街景中的样本数量不足够大、能够选取的含有汽车的图片也不够多,该模型现阶段能做的也只是通过样本来估测总体数据。他们运用全美的一些样本来对该系统进行深度学习的训练,再用其他的数据来进行测试修正。比如上图,他们选取了威斯康星州的一个样本,用该系统进行了人种、教育水平的预测检测,取得了令人惊讶的好成果。
举个更酷的例子,这个系统还能对总统投票进行预测。如果一段时间之内,谷歌街景中出现的卡车数量多余轿车,那么这个城市有超过八成的概率会投票给共和党;反之亦然。
深度学习和统计数据结合,往往会出现意想不到的效果。这次调查中数据的准确性在提示我们,是时候试试用计算机来代替各种繁复的调查工作了。
文章链接:
Timnit Gebru, et al, "Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US," arXiv:1702.06683
(本文来源:36Kr,原文见这里;)
如若转载,请注明e科网。
如果你有好文章想发表or科研成果想展示推广,可以联系我们或免费注册拥有自己的主页
- 大数据
- 机器学习