본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]본캠프 62일차

by MIN_JOON 2024. 7. 15.
  • Apache Spark
    • SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈 존재
    • 대규모 데이터 처리용 통합 분석 엔진
    • 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행 가능
    • 다양한 데이터 소스 처리 가능 
    • Pyspark: Python을 기반으로 하여 별도의 언어 공부가 필요 없음
  • 오버플로(Overflow)
    • 크기에 맞지 않는 데이터를 넣어 의도하지 않은 결과가 나오는 것
    • 파이썬의 데이터 타입은 기본적으로 동적(Dynamic)이기 때문에 자동으로 데이터형 변경
    • 큰 숫자를 다룰 때 주의할 것
  • 부동소수점
    • 컴퓨터에서 정수가 아닌 숫자의 표현을 보완하기 위해 사용
    • 하나의 숫자를 형태와 자릿수로 구분하여 표현
    • 필연적으로 오차가 발생하며 메모리가 클수록 오차는 감소
    • 딥러닝의 경우 메모리 사용을 줄이기 위해, 오차를 감수해서라도 메모리를 줄이기도 함
  • 클라우드
    • 관리가 쉽고, 보안이 뛰어나며, 가용성이 좋음
    • AWS, GCP, Azure 등이 존재하며 여러 이유로 기타 클라우드를 사용하기도 함
  • 데이터 베이스
    • 여러 사용자가 동시에 접근 가능
    • 데이터를 보호하기 위한 보안기능 제공
    • 데이터를 쉽게 검색하기 위한 인덱싱 기능 제공
    • 데이터의 백업 및 복원 기능을 통해 데이터 손실 방지

마지막 학습주간 시작~~~!!

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[TIL]본캠프 64일차  (0) 2024.07.17
[TIL]본캠프 63일차  (2) 2024.07.16
[WIL]본캠프 13주차  (3) 2024.07.12
[TIL]본캠프 61일차(실전 프로젝트 발표)  (0) 2024.07.12
[TIL]본캠프 60일차  (0) 2024.07.11