집단지성

    검색엔진

    정보 검색 (Information Retrieval) 1. 문서 수집 개발(보통 크롤링 포함) 2. 색인 3. 질의에 대해 랭킹된 문서 목록을 리턴 크롤링(crawling) or 스파이더링(spidering) 색인할 작은 파에지 집합에서 시작해서 페이지 내의 링크를 따라 다른 페이지들을 반복해서 검색 색인 단어 목록, 그 단어가 나타난 문서와 그 문서 안에서 나타난 위치를 가짐

    피어슨 상관 계수

    상관계수 연관성에 대하여 표현해주는 것 아래 파이썬 코드는 OREILLY에 "집단지성 프로그래밍"에서 발췌 Parameter v1 : 데이터 1 v2 : 데이터 2 prefs : 데이터세트 def - p1과 p2에 대한 피어슨 상관 계수를 리턴 def sim_pearson(prefs, p1, p2): si = {} for item in prefs[p1]: for item in prefs[p2]: si[item] = 1 # 공통 요소의 개수를 구함, 없으면 종료 n = len(si) if n==0 return 0 # 모든 선호도를 합산함 sum1 = sum([prefs[p1][it] for it in si]) sum2 = sum([prefs[p2][it] for it in si]) # 제곱의 합을 계산 s..

    상관 분석

    상관분석(Correlation Analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 가지고 있지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로 부터 서로 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. 상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼수 있다. 분석방법 단순히 두 개의 변수가..

    유클리디안 거리

    유클리디안 거리

    조건) 다음과 같은 n개의 벡터가 두 개 있다고 할 때 공식) 2차원에서 n값은 2, 3차원에서 n값은 3이 된다. 정의) n공간상에서 x점과 y점의 기하학적 거리 sqrt(pow(Xi - Yi) + pow(pow(Xi - Yi)) 유사한 사람일수록 작은 값을 가짐 0과 1사이의 값을 리턴, 가까울수록 높은 값이 나옴 1 / (1 + sqrt(pow(Xi - Yi) + pow(pow(Xi - Yi)))