본문 바로가기

DataScience3

NFL(Not Free lunch) 이론 꽁짜 점심은 없다! David Wolpert "The Lack of A Priori Distinctions Between Learning Algorithms",(1996) 에서 나온 말이라고 한다. 데이터에 관해 완벽하게 어떤 가정도 하지 않으면 한모델을 다른 모델보다 선호할 근거가 없음이라는데 학습된 모델은 데이터기반으로 되어 있어 철저하게 데이터셋에 종속된다. 즉, 데이터가 엉망이면 엉망인 결과가 나올 수 밖에 없다. 목표를 분명히 정하고 양질의 데이터로 학습을 잘 시켜야 결과가 나온다는 소리다. 예를들어, iris 3종류를 분류하는 모델로 5종류를 분류할 수 없다 가르쳐 줘야 하죠;; 머신러닝은 마법이 아니다. 내가 만든 모델이 멍청한 것은 내가 멍청해서라는 소리다 ㅎ 2021. 10. 1.
따릉이 데이터 활용한 데이터 분석 데이터 파일 구성 ① train.csv : 서울시 마포구의 날짜별, 시간별 기상상황과 따릉이 대여 수 (기간: 2017년 4월, 5월) ② test.csv : count 외에는 train 데이터와 동일 ③ submission.csv : submission 파일의 예시 날씨로 한 시간 후의 자전거 대여 수 예측하기 고유id 시간 기온 비가오지 않았으면0,비가오면1 풍속평균 습도 시정(視程), 시계(視界)(특정 기상 상태에 따른 가시성을 의미) 오존 미세먼지(머리카락 굵기의 1/5에서 1/7 크기의 미세먼지) 미세먼지(머리카락 굵기의 1/20에서 1/30 크기의 미세먼지) 시간에 따른 따릉이 대여 수 import pandas as pd import numpy as np #데이터 불러오기 train=pd.re.. 2021. 8. 10.
빅데이터 분석기사 실기 리뷰 모든 출판사에서 눈치보느라 책조차 내지 않아서... 8만원을 냈지만 걍 포기하고 문제만 보러간다는 생각으로 보러갔다. 단답형 (10문제 각 3점 답안) 이상치 비지도학습 부스팅 하이퍼파라미터 평균대치법 xgboost?? // 그라디언트 부스트 ?? // gbm ?? 과적합 roc 후진제거법 -1 작업형 (10점 3문제) 37107 5.75 1.97 실무(40점 1문제) 첫시험이라 쉽게 낸 느낌이 강하게 들었다. 거의 사이트에서 알려준 예시에서 벗어나지 않는다. 단답형과 작업형만으로도 50넘게 맞출 수 있다면, 실무는 제출할 수준만 되면 부분점수를 받아 통과할 수 있을것 같은 난이도다.(물론 실무형이 부분점수가 있는지 , ROC로 채점한다는데 점수를 어떻게 준다는건지는 모르겠다.) 나는 파이썬으로 쳤다. .. 2021. 6. 21.
반응형