如何入门大数据之基础准备(一)(超级详细介绍)

tech2023-12-29  64

大家好,我是邵奈一,全栈工程师,热爱学习。这两年,我整理了很多大数据相关的教程给大家,非常感谢大家的支持。总是会有很多小伙伴私下问我如何入门大数据,能不能整理一些教程给大家,一直没有时间,今天特别给大家整理一下思路,并且系统地整理出我博客中的教程,以让大家入门学习,并且知道自己有哪些东西需要学习。如果觉得有用,请收藏,并关注我,谢谢!

博客导航(请收藏):邵奈一的技术博客导航

学习大数据,最好有编程语言基础,哪种语言其实无所谓,因为你有了编程思想,学习起其他编程语言,都会非常轻松。在编程语言中,尤其是得有Java基础,其实也可以说是必须有Java基础。入了门之后,再学习一下Linux知识,因为学习大数据的时候,其实我们都是要操作集群环境的,这些集群环境,几乎都是以Linux操作系统为主的。接着学习一下Scala语言,方便入门Spark等等。当然,如果你啥也不会,没关系,请看我给你们整理的教程。

1、安装JDK8 首先,我们需要学习一下Java,那么在学习之前,应该先把环境安装好,目前用得Java版本用得最多的是Java 8版本,以Windows系统为例,请参考教程: jdk8的安装(windows)

如果您的是Mac或者Linux操作系统,可以参考下面的教程(解压并配置好环境变量就可以了,不需要进行教程里面同步的过程): 分布式集群环境之JDK8的安装与配置(Centos7)

2、编程神器IDEA的安装 安装好后,你还需要安装一个使你更容易进入编程状态的编辑器,我们以目前主流的Java编辑器IDEA作为教程: IDEA2018安装与配置

3、编辑神器IDEA的配置 安装好后,你可以配置一下相关的操作,比如IDEA需要配置好JDK(可以只操作配置JDK的部分) IDEA的使用及常用配置(JDK、Maven等)

4、Maven的安装与设置 你可以先下载好Maven,然后解压就可以使用了,但是为了更加好用,你可以配置一下环境变量,并且按照教程,配置好从国内下载资源。Maven是一个包管理工具,方便我们进行项目的管理的: Maven的安装与设置 当然IDEA里面有内置了Maven,作为入门,你可以直接使用。

5、完成第一个Java网站 按照好JDK、IDEA,配置好Maven之后,你就可以跑一个项目来看看了。我们以构建一个网站为例,照着操作就行,哪怕是复制粘贴也要跑一下,让自己的小内心爆棚一下下: SpringBoot+Thymeleaf+ECharts实现大数据可视化(基础篇) 此篇教程比较综合,但是对于整个网站的架构以及实现流程的理解是非常关键的。

6、Java语法熟悉 再熟悉一下Java的语法,可以参考一下这篇教程: Java模拟定时生成日志到文件 这里我用Python方式也给大家实现了一遍,让有Python基础的同学,可以对比着学习: Python模拟日志生成

7、Linux学习环境准备 熟悉了Java语法之后,你就可以学习一下Linux相关的知识了。但是,在学习之前,你需要拥有一个Linux学习环境,此处我列举给出三种方式。

方式一:在线Linux学习环境

可以直接搜就可以找到在线学习Linux相关的网站,比如:JSLinux 等等。此外还有一些在线做实验的网站,也可以直接使用别人的Linux操作环境,比如关于学习Linux的实验,肯定是会提供一个环境给大家的,可以以此来学习Linux,自己可以自己搜一下相关的网站。

方式二:搭建虚拟机

自己可以搭建虚拟机,然后安装好Linux操作系统就可以学习了,那么首先你要先有一个安装虚拟机的软件,比如VMware、Virtual Box或者Win10系统自带的虚拟化工具。相关的操作比较繁琐,但是非常关键,很多入门的学习者就卡在这里了。可参考此两篇教程来安装虚拟机,并且配置好网络:D001.1 Window7系统上Centos7的安装

如果想要深入学习,网络肯定是需要配置的,而且以后也是要配置的,当然,因为你还没有学习过Linux,所以相关的操作可能会有点难度,如果对着操作操作不出来,则可以先看后面的Linux,再回头学习,参考教程:

D001.2 Centos7虚拟机NAT网络的配置(windows)

方式三:购买云服务(推荐)

我们可以选择购买云服务器,然后在选择操作系统的时候,选择Centos或者Ubuntu等Linux操作系统都可以,我们以Centos为例,可以选择购买阿里云、华为云、腾讯云等的服务器,一般是学生的话,都会有优惠,新人也有优惠,买一个最低配置的都可以学习了。你可以选择按需购买,一个小时可能也就花几毛钱而已,可以减少很多麻烦的操作。但是,个人建议,只是在你刚开始的时候,想要快速入门可以选择这种方式,后面熟悉了,建议还是选择自己搭建几台虚拟机来学习,一来可以减少你的开销,二来可以减少很多坑。关于云服务的购买教程可以直接查看官网的步骤,以后有时间我会补充上来。

8、远程链接工具XShell的使用 安装好虚拟机或者购买了云服务器之后,为了有一个良好的操作效果,建议装一个远程链接工具,然后链接服务器直接来操作,软件有XShell、MobaXterm、PuTTY等等,此处给出XShell的教程: D001.3 下载XShell教程与简单使用 注意:如果是虚拟机,必须要先配置好网络,你的主机能够跟虚拟机进行通信才能链接,操作可以配置成NAT模式,教程在本文上面。

9、Linux命令学习 搞定好Linux学习环境后,这时候就可以学习Linux的一些常用操作了: 学习大数据常用Linux命令 如果你觉得想进一步扩展知识的话,需要自己去研究一下这篇教程,方便记忆: Linux命令的英文含义(便捷记忆)

10、传输工具的安装 因为等一下,我们需要对前面我们完成的网站打成Jar包,然后上传到服务器上,此步骤你可能没学过,可以先不管。竟然要上传东西到服务器,你就得有一个上传的工具或者说你要有一个能够上传文件到服务器是方式,此处给出两种方式:

基于XShell实现Win与Linux文件传输(替换XFtp等)IDEA的使用及常用配置(JDK、Maven等)

此教程中有配置SSH、SFTP的步骤,SFTP就可以上传上去,其实这两种方式都不太好,你可以安装一个专业的工具,如XFTP、FileZilla或者MobaXterm(强大的工具)也可以。

11、部署网站到服务器(无基础可先不操作) 其实,学习到这里,你已经具备了一些企业里面常用的操作了。比如,你可以将你前面的网站,部署到你的云服务器或者虚拟机上了,其实这两个非常相似,下面我就统称为服务器。注意,如果你想挑战一下,可以尝试一下,但是有一个前提,你的服务器需要安装好JDK。此处给出一个教程,你也可以不操作: 分布式集群环境之JDK8的安装与配置(Centos7) 注意:因为我们暂时还不是集群环境,所以此教程里同步到slave1、slave2的操作可以不操作,但是环境变量还是需要配置好的,可以对比前面的在Win上安装JDK做一个对比。上传好后,就可以进行运行了,因为是Springboot项目,没有用到数据库,所以可以直接java -jar xxxx.jar 直接执行。执行之后,直接在你的浏览器上打开相应的服务器ip(如果是云服务器需要写公网ip,并且打开该端口的安全组)并且加上相应的端口就可以了。

12、大数据集群环境的准备 到目前为止,你已经具备了Java和Linux基础了,这个时候就可以正式进入大数据的学习了,学习环境有两种:一种方式是虚拟机,在自己的电脑上安装3台或者4台虚拟机;另一种方式是购买云服务器(因为目前越来越多的学生已经接触云服务的相关知识,而且学校也有政策支持,所以也建议了解),直接购买3台或者4台服务器即可。之后的步骤其实都相类似了。过程非常简单,虚拟机的只需要克隆多几台即可,克隆后要配置好ip和主机名作为区分,而云服务器的则比较方便,可以在购买的时候设置好,也可以后面再设置好,可以自行搜索资料了解。

有了大数据的基础之后,就可以学习大数据了,请点赞、关注、评论,关注本博客,继续给你提供更多干货。


作者简介:邵奈一 全栈工程师、市场洞察者、专栏编辑 | 公众号 | 微信 | 微博 | | 简书 |

邵奈一原创不易,如转载请标明出处,教育是一生的事业。


最新回复(0)