리눅스 하둡 다운로드

    0
    266

    Hadoop은 환경 변수 또는 Hadoop 구성 파일에서 Java로 경로를 설정해야 합니다. 이 필수 구성 을 완료하면 Hadoop 및 해당 종속성을 설치할 준비가 된 것입니다. 축하합니다, 당신은 성공적으로 한 번이동단일 노드 Hadoop 클러스터를 설치했습니다. Hadoop 자습서 시리즈의 다음 블로그에서는 다중 노드 클러스터에 Hadoop을 설치하는 방법도 다룹니다. 모든 Hadoop 구성 파일은 아래 의 스냅 샷에서 볼 수 있듯이 hadoop-2.7.3 / etc / hadoop 디렉토리에 있습니다 : 아파치 하두롭은 상품 하드웨어에서 실행되는 컴퓨터의 클러스터에 대한 분산 처리뿐만 아니라 분산 스토리지에 사용되는 오픈 소스 프레임 워크입니다. Hadoop은 하눕 분산 파일 시스템(HDFS)에 데이터를 저장하고 이러한 데이터의 처리는 MapReduce를 사용하여 수행됩니다. YARN은 Hadoop 클러스터에서 리소스를 요청하고 할당하기 위한 API를 제공합니다. 하두프는 편의를 위해 해당 바이너리 타볼이 있는 소스 코드 타볼로 출시됩니다. 다운로드는 미러 사이트를 통해 배포되며 GPG 또는 SHA-512를 사용하여 변조여부를 확인해야 합니다.

    ssh를 설치해야 하며 선택적 시작 및 중지 스크립트를 사용해야 하는 경우 원격 Hadoop 데몬을 관리하는 Hadoop 스크립트를 사용하려면 sshd가 실행되어야 합니다. 또한 더 나은 ssh 리소스 관리를 위해 pdsh도 설치해야 한다는 것이 다시 수정되었습니다. 많은 제3자가 아파치 하두프(Apache Hadoop)와 관련 도구를 포함한 제품을 배포합니다. 이들 중 일부는 배포 위키 페이지에 나열됩니다. 이 문서에서는 우분투 18.04에 하두롭 버전 2를 설치하는 방법에 대해 설명합니다. 우리는 HDFS (네임 노드 및 데이터 노드), YARN, MapReduce를 하나의 컴퓨터에 분산 시뮬레이션인 의사 분산 모드의 단일 노드 클러스터에 설치합니다. HDF, 원사, mapreduce 등과 같은 각 Hadoop 데몬은 별도의 / 개별 자바 프로세스로 실행됩니다. 세계는 현재 운영 방식을 변화시키고 있으며 빅 데이터는 이 단계에서 중요한 역할을 하고 있습니다. Hadoop은 대규모 데이터 집합을 작업하는 동안 우리의 lif를 쉽게 만드는 프레임 워크입니다. 모든 전선에 개선이 있습니다.

    미래는 흥미롭습니다. hadoop-env.sh Java 홈 경로 등처럼 Hadoop을 실행하는 데 스크립트에 사용되는 환경 변수가 포함되어 있습니다. 다운로드한 하눕 배포판의 압축을 풀고 있습니다. 배포에서, 다음과 같이 몇 가지 매개 변수를 정의하기 위해 파일 etc / hadoop/hadoop-env.sh를 편집 : 클러스터의 노드를 관리하기 위해, Hadoop는 나에게 404 오류를 주고 있다 하눕의 SSH 액세스 다운로드가 나에게 404 오류를 주고있다 (즉, 링크가 오류가 없는) 하두롭이 성공적으로 시작한 경우, jps의 출력은 네임 노드, 노드 관리자, 리소스 관리자, 보조 노드를 표시해야합니다. Hadoop 배포판을 다운로드하려면 아파치 다운로드 미러 중 하나에서 최근 안정적인 릴리스를 다운로드하십시오. 다음 Hadoop 환경 변수 를 설정 하여 Hadoop 사용자에 대 한 bashrc를 편집 : 그림: Hadoop 설치 – 새로 고침 환경 변수 Hadoop 또한 각 하두프 데몬 별도 자바 프로세스에서 실행 하는 의사 분산 모드에서 단일 노드에서 실행할 수 있습니다. Hadoop 튜토리얼 시리즈에 대한 우리의 이전 블로그에서, 당신은 하두프, HDFS와 아키텍처에 대한 이론적 인 아이디어를 가지고 있어야합니다. 그러나 Hadoop 인증을 받으려면 좋은 실습 지식이 필요합니다.