목록Programming Language/python (7)
매일매일 IT
랜덤 포레스트 2001년, 레오 브라이만(Leo Breiman)이 제안한 머신러닝 알고리즘집단학습을 기반으로 고정밀 분류, 회귀, 클러스터링 등을 구현 학습 전용 데이터를 기반으로 다수의 의사결정 트리를 만들고, 이를 기반으로 다수결로 결과를 유도하므로 높은 정밀도.학습 데이터를 무작위로 샘플링 해 만들어진 다수의 의사결정 트리를 사용하기 때문에 랜덤 포레스트이다."의사결정 트리" : 트리 구조의 그래프. 예측과 분류를 수행하는 알고리즘 자체를 의사결정 트리라고 부름.일반적으로 부정확한 학습 방법이라 약학습 방법으로 분류되지만 집단 학습을 하면 정밀도를 높힐 수 있다. UCI 머신러닝 레포지토리에 공개돼 있는 독버섯과 관련된 데이터 세트 내려받기.https://archive.ics.uci.edu/ml/d..
SVM ? SVM : Support Vector MachineSVM은 선을 구성하는 매개변수를 조정해서 요소들을 구분하는 선을 찾고, 이를 기반으로 패턴을 인식하는 방법A와 B라는 두가지 패턴을 구분하는 방법을 찾는 것이 패턴 인식의 목표A와 B라는 패턴을 벡터로 나타내서 평면 위에 올리고 구분선을 그리게 되는데 이 때 패턴의 경계가 되는 것을 식별평면이라한다.식별평면에서 패턴들과의 거리(마진)를 최대로 만드는 것이 가장 좋은 결과이다.이는 SVM의 특징인 "마진 최대화" 방침.SVM을 이용하면 알 수 없는 패턴도 제대로 분류할 확률이 높다. : 일반화 능력(범화 능력) 무작위로 2만 명의 데이터 만들기 - 키, 몸무게, 저체중, 정상, 비만 레이블 활용해 3개의 칼럼을 갖는 CSV 파일 SVM에 데이터..
MNIST머신러닝 연습에 자주 사용되는 손글씨 데이터.학습 전용 6만 개, 테스트 전용 1만 개의 개인 손글씨 숫자 데이터http://yann.lecun.com/exdb/mnist/ 에서 GZ 형식으로 압축된 4개의 데이터 파일을 내려 받고 Gzip 압축을 해제하는 프로그램 변환 프로그램 이미지 데이터는 각 픽셀을 그레이스케일 256단계로 나타내며, 왼쪽 위부터 오른쪽 아래로 차례차례 픽셀이 나열된 형태다.이 때, 0은 기본 배경(흰)색이고, 1 ~ 255가 실제 손글씨가 적힌 부분을 나타냄.숫자가 클수록 짙은 부분을 나타낸다.이에 바이너리 데이터를 분석하고, CSV 파일로 변환하는 프로그램이다. struct 모듈 : 파이썬으로 바이너리 처리struct.unpack() : 원하는 바이너리 수만큼 읽어들이..
https://github.com/pandas-dev/pandas/blob/master/pandas/tests/data/iris.csv 에서 Raw 버튼을 누르면 CSV 형식이 나오는데 다른이름으로 저장한다! "iris.csv"로 ~붓꽃의 종류 : Iris-setosa, Iris-versicolor, Iris-virginica붓꽃 정보 : SepalLength(꽃받침의 길이), SepalWidth(꽃받침의 폭), PetalLength(꽃잎의 길이), PetalWidth(꽃잎의 너비) 훈련 전용 데이터와 테스트 전용 데이터로 분할 하는 위의 프로그램을 scikit-learn 메서드를 사용하여 다시 작성 train_test_split() 를 사용해 훈련 / 학습 데이터 분할
파이썬 머신러닝 라이브러리 ! scikit-learn다양한 분류기 지원머신러닝의 결과를 검증하는 기능 있음분류, 회귀, 클러스터링, 차원축소 등 다양한 알고리즘 지원분류 ( Classification ) : 특정 데이터에 레이블을 붙여 분류. ex) 스팸 메일 분류, 필기 인식, 증권 사기 등회귀 ( Regression ) : 과거의 데이터를 기반으로 미래의 데이터 예측. ex) 판매 예측, 주가 변동 등의 예측클러스터링 ( Clustering ) : 값의 유사성을 기반으로 데이터를 여러 그룹으로 나눔. ex) 사용자의 취향을 그룹으로 묶어 사용자 취향에 맞는 광고를 제공자원축소 ( Dimensionality Reduction ) : 데이터의 특성을 유지하면서 데이터의 양을 줄임. 특성을 유치한 채로 고..
파이썬에서 YAML 읽기주의!! YAML은 공백 문자로 들여쓰기를 활용해 계층 구조를 나타냄.YAML 데이터를 파이썬 데이터로 변환 : yaml.load() 함수 사용 파이썬에서 YAML 쓰기 파이썬 데이터를 YAML으로 출력하고 싶다 : yaml.dump() 함수 사용 파이썬에서 YAML의 앵커(Anchor)와 별칭(Alias) 사용하기