
BDA 학회에서 참여하여 이지스 퍼블리싱에서 제공받은
Do it!_코드 없이 배우는 데이터 분석 with 오렌지3
Do it! 코드 없이 배우는 데이터 분석 with 오렌지3 - 예스24
파이썬이나 분석 이론을 몰라도 괜찮아요!이 책으로 코드 없이 데이터 분석의 기초부터 시작하세요!『Do it! 코드 없이 배우는 데이터 분석 with 오렌지3』은 데이터 분석을 공부하고 싶지만 파이
www.yes24.com
[출판사로부터 제공받은 도서를 바탕으로 작성되었습니다]
Do it! 시리즈 공부하는데 도움하는데 도움되길 바라며
네이버 카페 방문하면 좋을 것 같습니다.
Do it! 스터디룸 : 네이버 카페
Do it!, 된다 시리즈 책으로 함께 공부하고 서로 돕는 사람들을 만나 보세요. python, C, java, Android
cafe.naver.com
코드 없이 배우는 데이터 분석_5
✔️ 군집분석
✔️ 계층적 군집분석
✔️ k-means 군집분석
✔️ 군집분석
군집분석(비지도 학습)
전체 데이터를 유사한 특징을 가지는 군집으로 나누고 그 특성을 해석하는 분석 기법
(군집 결과를 해석하는데 데이터 이해(지식)과 도메인 지식이 중요)
같은 군집에 속한 데이터 관측치 간의 유사도는 최대화
다른 군집 간의 유사도는 최소화 유지

군집분석의 목적
대상을 세분화 가능
예) 각 고객마다 원하는 상품이 다른데 각 고객 맞춤 추천 시스템 제공
✔️ 계층적 군집분석
계층적 군집분석
각 데이터 관측치를 하나의 개별된 군집으로 설정 후 유사한 관측치끼리 묶어 군집 형성하는 기법
처음 데이터의 수가 30개라면 30개의 군집이 형성되고 군집 간 거리를 모두 계산하여 고려
- 최단 거리
- 최장 거리
- 평균 거리 등
가장 가까운 거리에 있는 두 군집을 하나로 구성하고 최종 군집이 하나로 합쳐질 때까지 해당 과정 반복
전처 거리 정보를 행렬 형태로 생성하고 그 결과를 바탕으로 덴드로그램 시각화 및 군집 수 결정
복잡한 데이터 구조를 보기 쉽게 시각화 가능하고, 군집 개수를 직접 결정하지 않아도 되지만
관측치가 많을수록 계산과 메모리 사용량의 급증, 이상치가 포함된 경우 이해 어려운 결과 도출 등의 단점 존재
카페 음료의 영양 정보 활용한 군집분석

1️⃣ 카페 음료 영양 정보 데이터셋을 불러와서 테이블의 데이터 확인(Data Table)
2️⃣ 데이터를 0과 1 사이의 값으로 데이터 정규화 반환(Continuize)
관측치 간의 거리를 비교하기 위해서 Distance 위젯(유클리디안 거리) 활용
3️⃣ 전체 데이터 간의 거리가 계산되고 거리 행렬 확인하는데 Distance Matrix 위젯 활용

4️⃣ 계산된 거리를 바탕으로 계측적 군집분석 수행 위해 Hierarchical Clustering 위젯 활용
(세부 사항의 변경은 도서나 유튜브 참조)


5️⃣ Distance에서 군집 간의 거리를 계산하는 방식 설정 위한 Silhouette Plot(유클리디안 거리) 위젯 활용
해당 결과를 바탕으로 군집의 세부적인 조정 방향 설정

6️⃣ 군집별로 통계값을 요약해서 특징을 비교하기 위해 Group by와 Data Table을 통해 확인

7️⃣ 군집 결과를 기준으로 데이터 확인하기 위해 MDS 위젯을 통한 시각화 결과 확인

✔️ k-means 군집분석
k-means 군집분석
데이터 관측치를 사전 정의된 k개의 군집에 할당하는 방식의 군집 분석 기법
(k값을 잘 설정하는 것이 중요 요인)
k-means 군집분석 과정

1. k값이 결정되면 임의의 군집 중심점 k개를 랜덤한 위치에 설정
2. 각 중심점과 모든 데이터 관측치 사이의 거리 계산하고 데이터 관측치들을
가장 가까운 중심점의 군집으로 각각 할당
3. 할당된 관측치로 군집마다 새로운 중심점 계산
4. 첫번째 단계에서 할당한 군집 정보 무시하고 전체 관측치를 다시
가장 가까운 중심점의 군집으로 할당
5. 군집이 유지되거나 바뀌면서 변화 후 변동이 없으면 군집 정보 확정
(사전 정보없이 k값을 결정하고 초기에 랜덤하게 정해지는 임의의 중심값 위치가 최종 결과 영향 고려)
음식점 평점 데이터 활용한 군집분석(k-means)

1️⃣ 음식점 평점 데이터셋 불러와서 테이블의 데이터 확인(Data Table)
2️⃣ 데이터셋의 컬럼들에 대해 0과 1 사이의 값으로 데이터 정규화 반환(Continuize)
해당 데이터 테이블의 데이터 확인(Data Table)
3️⃣ k-means 모델을 적용하기 위해 k-means 위젯 활용하여
결과를 확인했을 때 k=4인 경우가 실루엣 계수가 0.606으로
가장 높은 값으로 가지고 있기 때문에 효율적인 k의 값은 4로 결정하고
적용된 결과를 확인하기 위해 Silhouette Plot(유클리디안 거리) 확인


4️⃣ 군집별로 통계값을 요약해서 특징을 비교하기 위해 Group by 수행
5️⃣ 군집별 통계값 확인하기 위해 Data Table을 통해 확인

- 도서 한줄평 -
군집 분석에 대한 기본 개념과 계층적 군집 분석, 그리고 이를 이용한 실습 과정에서
개념을 제대로 언급하고 실습으로 이어진 부분이 매우 좋았습니다.
k-means 군집 분석 부분에서는 분석을 진행하는 방법과 그 원리를 명확하게 설명해 주어 이해하는 데 큰 도움이 되었습니다.
실습에서 사용되는 데이터뿐만 아니라, 다양한 데이터를 활용할 수 있도록 여러 분야의 데이터를 일부라도
이지스퍼블리싱 자료실이나 네이버 카페 등에서 제공해 주시면 더욱 좋을 것 같습니다.
BDA 학회에서 참여하여 이지스 퍼블리싱(출판사)로부터 제공받은
Do it!_코드 없이 배우는 데이터 분석 with 오렌지3 도서를 바탕으로 작성하였습니다.

위 내용은 9장의 내용이 정리되어 있으니
공부하는데 도움되길 바랍니다
'데이터 공부 > 코드 없이 배우는 데이터 분석' 카테고리의 다른 글
[Do it!] 이지스 퍼블리싱 x BDA - 오렌지3 활용한 이미지 분석과 텍스트 분석 (1) | 2025.02.07 |
---|---|
[Do it!] 이지스 퍼블리싱 x BDA - 오렌지3 활용한 의사 결정 나무, 랜덤 포레스트, kNN 분류 분석 (0) | 2025.02.05 |
[Do it!] 이지스 퍼블리싱 x BDA - 오렌지3 활용한 단순/다중 선형 회귀 분석 (1) | 2025.02.04 |
[Do it!] 이지스 퍼블리싱 x BDA - 오렌지3 기능 활용과 탐색적 데이터 분석(EDA) (0) | 2025.02.03 |
[Do it!] 이지스 퍼블리싱 x BDA - 데이터 분석 입문자들을 위한 데이터와 분석 방법 기초 이해 (0) | 2025.02.01 |