- Apache Spark
- SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈 존재
- 대규모 데이터 처리용 통합 분석 엔진
- 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행 가능
- 다양한 데이터 소스 처리 가능
- Pyspark: Python을 기반으로 하여 별도의 언어 공부가 필요 없음
- 오버플로(Overflow)
- 크기에 맞지 않는 데이터를 넣어 의도하지 않은 결과가 나오는 것
- 파이썬의 데이터 타입은 기본적으로 동적(Dynamic)이기 때문에 자동으로 데이터형 변경
- 큰 숫자를 다룰 때 주의할 것
- 부동소수점
- 컴퓨터에서 정수가 아닌 숫자의 표현을 보완하기 위해 사용
- 하나의 숫자를 형태와 자릿수로 구분하여 표현
- 필연적으로 오차가 발생하며 메모리가 클수록 오차는 감소
- 딥러닝의 경우 메모리 사용을 줄이기 위해, 오차를 감수해서라도 메모리를 줄이기도 함
- 클라우드
- 관리가 쉽고, 보안이 뛰어나며, 가용성이 좋음
- AWS, GCP, Azure 등이 존재하며 여러 이유로 기타 클라우드를 사용하기도 함
- 데이터 베이스
- 여러 사용자가 동시에 접근 가능
- 데이터를 보호하기 위한 보안기능 제공
- 데이터를 쉽게 검색하기 위한 인덱싱 기능 제공
- 데이터의 백업 및 복원 기능을 통해 데이터 손실 방지
마지막 학습주간 시작~~~!!
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 64일차 (0) | 2024.07.17 |
---|---|
[TIL]본캠프 63일차 (2) | 2024.07.16 |
[WIL]본캠프 13주차 (3) | 2024.07.12 |
[TIL]본캠프 61일차(실전 프로젝트 발표) (0) | 2024.07.12 |
[TIL]본캠프 60일차 (0) | 2024.07.11 |