DATA ANALYSIS/TIL

[Day2] 데이터 분석 개론/Github 기초

yel1nk 2023. 4. 26. 23:46

Colab 단축키 (Mac OS)

Command+Enter: 해당 셀 실행
Option+Enter: 해당 셀 실행 + 코드 블록 하단 추가
Command+D: 같은 단어 찾아 동시 수정
Command+Option+화살표위아래: 위아래 동시 수정
Home,End: 문장의 양 끝
Command+/: 주석
Command+Del: 한 줄 지우기
Command+]: 들여쓰기
Command+[: 내어쓰기

마크다운

  • 마크업
  • <h1>내 생에 첫 홈페이지</h1> <p>hello world</p>
  • 마크다운
  • # hello ## hello * hello 1. hello 2. hello

데이터 분석 개론

  1. 데이터 분석
  • 유용한 정보를 발굴하고 결론적인 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정
  1. 데이터 유형

  • 정량적 데이터
    • 정형 데이터 : 데이터베이스, 스프레드시트(exel, csv...)
    • 반정형 데이터 : JSON, HTML, XML
  • 정성적 데이터
    • 비정형 데이터 : 텍스트, 음성, 이미지

KDD 분석 절차

* 평균값은 거의 사용하지 않음(정확도 떨어짐) -> 클라이언트에게 직접 요구

커리어

  • 데이터 분석가(Data Analyst) : 프로그래밍 기술을 갖추고 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람
  • 데이터 엔지니어(Data Engineer) : 데이터 로깅, 데이터 분석 파이프라인 구축
  • 데이터 사이언티스트(Data Scientist) : 논문 구현 또는 적용, 알고리즘 구현 또는 적용

자격증

  • 빅데이터분석기사
  • SQL 개발자(SQLD)
  • 데이터분석 준전문가(ADsP)

Github 기초

GUI

  1. Add file > Create new file
  2. Add file > Upload files
  3. . > VSC

CLI

  1. git clone <주소> .
  2. git pull
  3. 수정하고
  4. git add .
  5. git commit -m '메시지'
  6. git push

Python

CS에서 변수란?

  • 포스트잇(메모리 공간을 가리키는)
a = 10
b = a # 주소값을 가리킴
a = 20
id(a), id(b)
# 결과값 : (139673624382352, 139673624382032) ## a is not b

a = 10
b = 10
id(a), id(b)
# 결과값 : (139673624382032, 139673624382032) ## a is b

a = 257
b = 257
id(a), id(b)
# 결과값 : (139672291563600, 139672291562224) ## a is not b

Python은 자체적으로 속도를 높이기 위한 여러가지 노력들을 해왔습니다. 그래서 0~256 은 먼저 메모리에 적재를 합니다.

a = 256
b = 256
id(a), id(b)
# 결과값 : (139673624578448, 139673624578448)  ## a is b

변수의 타입은 왜 있는 것일까?

  • 효율적인 측면
  • 관리적인 측면
'a' + 'a'
# 결과값 : 'aa'

왜 이어 붙였는가?

  • 우리가 통념적으로 생각하는 문자열의 연산을 Python이라는 언어에 구현해놓은 것입니다.
  • 메직 메서드('init'...)를 통해서 이런 '약속'들을 구현하게 됩니다.

int(정수)

a = 0b110
b = 0o56    
c = 0xAC  
type(a), type(b), type(c)
# 결과값 : (int, int, int)

a, b, c
# 결과값 : (6, 46, 172)

bin(6), oct(46), hex(172)
# 결과값 : ('0b110', '0o56', '0xac')
  • 2진법 : 0, 1 (숫자를 2개만 쓰는 것입니다.)
  • 8진법 : 0, 1, 2, 3, 4, 5, 6, 7 (숫자를 8개만 쓰는 것입니다.)
  • 10진법 : 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F (숫자를 16개만 쓰는 것입니다.)
0.1 + 0.2 
# 결과값 : 0.30000000000000004
  • 모든 언어 공통 (2진법으로 변환했을 때 무한대수가 발생합니다.)
  • 부동소수점 오차 발생
'100' + '100'
# 결과값 : '100100'

int('100') + int('100') # 형 변환
# 결과값 : 200

int('0b110', 2)
int('110', 2)
# 결과값 : 6

int('0o56', 8)
int('56', 8)
# 결과값 : 46

int('0xac', 16)
int('ac', 16)
# 결과값 : 172

'DATA ANALYSIS > TIL' 카테고리의 다른 글

[Day7] Python 기초(5)  (0) 2023.05.04
[Day6] Python 기초(4)  (0) 2023.05.03
[Day5] Python 기초(3)  (0) 2023.05.02
[Day4] Python 기초(2)  (0) 2023.04.29
[Day3] Python 기초(1)  (0) 2023.04.28