전체 글 31

[딥러닝] 자연어 처리

자연어 처리란?| 컴퓨터가 자연어를 이해할 수 있다면, 인간과 자연스럽게 대화하는 컴퓨터가 가능할 것이다.| 자연어 처리의 응용 분야  중 하나가 챗봇이다. 자연어 처리의 역사| 자연어 처리는 1950년대부터 시작되어, 그동안 많으 연구가 진행되었다.| 그동안은 단어 간의 통계적인 유사성에 바탕을 둔 방법이 사용되었다.| 최근에는 딥러닝을 이용한 방법이 많은 인기를 얻고 있다. 자연어 처리는 주로 순환 신경망(RNN)을 많이 이용한다.음성 인식과 자연어 처리| 자연어 처리는 텍스트 형태로 자연어를 입력받아서 처리한다.| 음성 인식(speech recognition)은 음성에서 출발하여서, 컴퓨터를 이용하여 음성을 텍스트로 변환하는 방법론과 기술을 개발하는 분야 자연어 처리 라이브러리 | NLTK 텍스트 ..

AI/Deep Learning 2024.12.09

[딥러닝] Generative Model

생성 모델이란?- 훈련 데이터의 규칙성 또는 패턴을 자동으로 발견하고 학습하여, 훈련 데이터의 확률 분포와 유사하지만, 새로운 샘플을 생성하는 신경망- 생성 모델은 훈련 데이터들의 잠재 공간 표현을 학습할 수 있으며, 학습이 종료된 후에, 잠재 공간에서 랜덤으로 하나의 좌표가 입력되면 거기에 대응되는 출력을 만들어 낼 수 있다. (1) 생성 모델은 훈련 데이터를 생성하는 규칙을 파악한다. (2) 생성 모델은 결정적이기보다는 확률적이어야 한다.-> 생성 모델에서는 학습이 종료된 후에 입력된느 랜덤 노이즈가 이 역할을 함. (3) 분류 모델과 생성 모델의 차이- 분류 모델(discriminative modeling)> 데이터x와 레이블 y가 주어지면 분류 모델은 x가 어떤 부류에 속하는지를 파악.> 조건부 ..

AI/Deep Learning 2024.12.09

[데이터마이닝] VEGA DATA-barley,earth,tip

# 1932에 수확한 Manchuria 종의 지역별 수확량 그리기 import pandas as pdimport altair as alt # Altair 임포트# barley 데이터셋 예제from vega_datasets import data # vega_datasets에서 barley 데이터셋 로드barley = data.barley()# Manchuria 품종만 선택barley_M = barley[barley['variety'] == 'Manchuria']# 특정 연도(1932년) 데이터만 선택barley_M = barley_M[barley_M['year'] == 1932]# Altair로 시각화chart = alt.Chart(barley_M).mark_point().encode( x='si..

Analysis 2024.12.05

[데이터마이닝]seaborn -titanic,taxis,mpg,penguins,flights,tips

[타이타닉]타이타닉 데이터셋: 생존 여부에 따른 fare와 age의 값 범위를 비교import seaborn as snstitanic= sns.load_dataset('titanic')titanicfare_die = titanic[titanic['survived']==0][['fare','age']]fare_survival = titanic[titanic['survived']==1][['fare','age']]f = lambda x: x.max() - x.min()print("died person min-max fare and age ")print(fare_survival.apply(f))print("survival person min-max fare and age ")fare_die.apply(f) "..

Analysis 2024.12.05

[데이터마이닝] Lab8-지도그리기

import pandas as pdimport folium# 데이터 불러오기bike_data = pd.read_csv('./bike202406.csv')# 서울 중심 좌표로 지도 생성seoul_map = folium.Map(location=[37.5665, 126.9780], zoom_start=12)# 따릉이 대여소 위치를 지도에 점으로 표시for idx, row in bike_data.iterrows(): folium.CircleMarker( location=[row['위도'], row['경도']], # 위도, 경도 컬럼명 확인 필요 popup=row['보관소(대여소)명'], radius=2 # 대여소 이름이 있는 컬럼명 ).add_to(seoul_..

Analysis 2024.12.05

[데이터마이닝] Lab7-aggregation group by

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltplanets = sns.load_dataset("planets")planets 행성의 발견 방법에 따른 갯수를 그래프로 그리고 분석# 1번문제planets_grouped1 = planets.groupby("method")["number"].sum().reset_index()plt.figure(figsize=(25, 20))sns.barplot(data=planets_grouped1, x="method", y="number")## 1번문제 분석- 행성발견 방법들 중 Radial Velocity 방법과 Transit 방법이 행성을 찾는데에 있어 주요적으로 많이 사용된 모습을 보인다..

Analysis 2024.12.05

[데이터마이닝] worldcloud lab6

import numpy as npfrom PIL import Imagefrom wordcloud import WordCloud, STOPWORDSimport matplotlib.pyplot as pltimport requestsfrom bs4 import BeautifulSoupimport matplotlib.font_manager as fm# 한글 폰트 설정font_path = './NanumGothic.ttf' # 폰트 경로를 본인 환경에 맞게 수정하세요.# 이미지 마스크alice_mask= np.array(Image.open('./cloud.png'))# 웹 크롤링url ="https://news.naver.com/section/105"headers={'User-Agent':'Mozilla/5.0..

Analysis 2024.12.05