不管公司多大,获取数据都是非常重要的基础。那么大数据分析师如何获取完整、连续、有价值的数据呢?科多大数据带你来学习一下获取数据的途径。
1、系统日志采集 许多公司的业务平台每天都会产生大量的日志数据。日志收集系统要做的事情就是收集业务日志数据供离线和在线的分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。 目前常用的开源日志收集系统有Flume、Scribe等。Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,目前是Apache的一个子项目。Scribe是Facebook开源日志收集系统,它为日志的分布式收集、统一处理提供一个可扩展的、高容错的解决方案。
2、网络数据采集 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件。 它支持图片、音频、视频等文件的采集,且附件与正文可自动关联。对于网络流量的采集则可使用DPI或DFI等带宽管理技术进行处理。
3、数据库采集 一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。 近年来,各类大数据公司在互联网时代下如雨后春笋般涌现。不论规模大小,是否能持续地获取可供挖掘的数据是判断某公司是否有前景和价值的标准之一。互联网企业巨头存在规模庞大的用户,通过对用户的电商交易、社交、搜索等数据进行充分挖掘后,拥有了稳定且安全的数据资源。
4、政府网站数据库 很多政府网站都有数据库,收录比较详细的数据(细分到地区、过去十年数据等);数据库本身的展示方式决定了它们通常不容易直接搜到,需要你去网站自己查阅。 统计部门的网站上没有,可以试试其他部门网站(弄清政府各部门职能很重要);中央政府网站没有,可以试试地方网站(弄清行政区划很重要)。 如果找到了你要的数据(例如统计年鉴)但无法直接下载,可以去图书馆借阅,也可以请你在大学或大公司的朋友帮忙借阅;年鉴通常有电子版(光盘),只是格式通常不是你想要的,需要后期清洗。 此类数据可能会提供免费的线上阅览版,对做 PPT 来说这些数据通常够用;如果需要原始数据,调查方可能需要核实你的身份及研究目的,整个核实过程短则一天长则一个月。
5、学术期刊数据库 很多期刊现在都要求作者公开原始数据,方便重复论文结果。所以期刊网站有每篇论文的配套数据,包括论文作者清洗过的公开数据和作者自己做的调查、实验数据。
现在科多大数据更新大数据开发、数据分析、python爬虫等试听视频,小伙伴们可上科多大数据官网咨询领取哦~
按字母顺序浏览:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
→我们致力于为广大网民解决所遇到的各种电脑技术问题 如果您认为本词条还有待完善,请 编辑词条