728x90

프로그래밍 /R 16

R로 데이터 가져오기 (1)

데이터 가져오기 1. CSV 가져오기 정확히 말하자면 첫번째 인자인 파일명은 파일의 전체 경로이다. 1) read.csv("파일명") : 인강에서는 가장 많이 쓰이는 방법이라고 했으나, 책에서는 여러 문제가 많이 발생할 수 있다고 read.table() 쓰라네. 2) read.table("파일명", sep = ",") : 전달받은 file을 읽어와서 data.frame을 리턴한다. file path, sep 이외에 header, stringsAsFactors 등의 인자가 있다. header는 불러들일 데이터의 첫번째 행이 열의 이름을 나타내는지 명시한다. stringsAsFactors는 FALSE로 지정하게 되면 character 열이 factor 열로 자동 변환되는 것을 막을 수 있다. 이 경우 연산 ..

[R 자료구조] 3. 고급 자료구조

3. 고급 자료구조 벡터는 1차원 자료 구조로서 많은 데이터를 담지 못한다. 이에 R은 보다 다양한 데이터를 담을 수 있는 자료구조를 제공한다. 3.1. 데이터 프레임 - data.frame() : 외형적으로 엑셀 스프레드시트 처럼 생김. 데이터를 읽어들여올 경우 대부분 df라고 보면 됨. 2차원의 자료 구조. 통계적 관점에서 봤을 때 각 열은 하나의 변수이고 각 행은 하나의 관측값이 된다. data.frame을 어떻게 구성하는지 살펴보면, 각 열은 실제 vector이며 각 vector의 길이는 같다. 각 열이 서로 다른 타입의 데이터를 가질 수 있게한다는 점에서 매우 중요한 의미를 가진다. 즉, 이것은 하나의 열 내에서 각 원소가 반드시 같은 타입이어야 함을 의미한다. 데이터 프레임은 data.fram..

[R 자료구조] 2. 벡터 타입 데이터 & 특수 데이터 유형

1. 벡터 타입 데이터 : 타입이 동일한 원소들의 모음으로서 c(element1, element2, element3, ...)로 정의된다. 1차원 속성(일렬로 데이터를 늘어뜨림)으로서 행과 열 간의 구분이 없다. row vector, column vector의 구분 또한 존재하지 않는다. 다양한 원소 속성을 담지 못하기 때문에 여러 타입의 원소가 전달될 경우, 대부분 문자로 알아서 데이터 타입을 치환한다. R은 벡터화 언어라는 특성때문에, 벡터를 함수의 인자로 전달할 경우 별다른 반복문 없이도 벡터 내를 돌며(반복) 자동으로 동일 작업을 수행한다. 1.1. 벡터 연산 ex) 10개의 숫자를 가진 vector의 각 원소에 3을 곱하고자 한다. 파이썬의 경우 for문을 사용해야겠지만, R의 경우에는 별다른 ..

[R 자료구조] 1. 기본 데이터 타입(numeric, character 등)

1. 숫자 데이터 - numeric : float 혹은 double과 비슷. 정수, 소수, 양수와 음수 그리고 0까지 다룸. 변수에 저장된 숫자 값은 자동으로 numeric으로 취급. ex) x = 5 is.numeric(x) -> TRUE가 리턴됨. - integer : 정수 타입. 정수를 변수에 지정하려면 해당 값 뒤에 L을 붙이면 됨. ex) i TRUE 리턴. * integer는 numeric에 포함이 되는 개념(∵정수⊂실수)이므로 is.numeric()에 정수를 전달하더라도 TRUE를 리턴하게 됨. 2. 문자 데이터 character는 대소문자를 구분한다. character나 numeric 타입의 길이 확인은 nchar 함수를 사용한다. *주의* nchar는 factor 데이터에 대해서는 동작하..

R 공부 로드맵

모든 프로그래밍 공부가 다 그렇겠지만, R언어 공부 계획을 크게 3 phases로 나눠본다. 1. 기초 문법 익히기 - R 데이터 구조 파악 - R에서 조건문, 반복문, 제어문 작성 연습 - vectorize 개념 익히기 - 패키지 설치, 불러오기 - 파일 열고 닫기 2. 데이터 다루기 - 데이터 불러오기 - 패키지 내장 데이터 프레임으로 데이터 탐색적으로 파악하는 법 익히기 - 데이터 추출하고 가공하는 법(rbind, cbind, join, reshape2 package 등) - 데이터 수집 및 처리 → 1, 2번을 6월달에 다 끝낼 예정이다. 미친 듯이 프로그래밍만 파야지. 3. 분석 모델 구현 - 확률 분포 - 기본 통계(평균, 표준편차, 가설검정 등) - 선형 모형 / 비선형 모형 - 모형 진단 ..

728x90