반응형

고양국제고/더브레인 9

[더브레인-3] 5. 기사 요약 예제 실습 안내

환영합니다, Rolling Ress의 카루입니다. ​ ** 3-5. 기사 요약 [통계] ​ 이건 통계 분야이긴 한데, 난이도가 조금 높습니다. 대신 재밌는 구경거리가 많아요. 약간 언어와 통계 분야의 난이도를 맞추기 위해서.. 언어 친구들이 5, 5, 5, 5로 갈려나간다면 여러분들은 3, 3, 10 정도로. !pip install pyLDAvis from nltk.corpus import stopwords from sklearn.datasets import fetch_20newsgroups from gensim import corpora from gensim.summarization.summarizer import summarize import pandas as pd import nltk import ..

[더브레인-3] 4. 한국어 토큰화 예제 실습 안내

환영합니다, Rolling Ress의 카루입니다. ​ ** 3-4. 한국어 토큰화 [언어] ​ 3-3번 예제와 마찬가지로, 따로 제가 설명드릴 부분은 많지 않습니다. 특히나 한국어 전산처리는 조사 등의 이유로 더 까다로운 면이 있어서, 중요한 부분만 짚고 넘어가겠습니다. !pip install konlpy from konlpy.tag import Okt from konlpy.tag import Kkma 필요한 패키지를 불러옵니다. 여기선 konlpy의 Okt, Kkma를 사용합니다. (Kkma...꼬꼬마라네요. 이름 참 특이하네.) okt = Okt() kkma = Kkma() # 이 문장을 적절히 바꾸어보세요 kor_sentence = ''' 네가 오기로 한 그 자리에 내가 미리 가 너를 기다리는 동안..

[더브레인-3] 3. 전산형태론 예제 실습 안내

환영합니다, Rolling Ress의 카루입니다. ​ ** 3-3. 자연어 전처리 [언어] ​ 이번에는 자연어 처리에서 중요하게 사용되는 전처리 방식에 대해 알아보도록 하겠습니다. 사실 이번 글은 제가 따로 설명할 내용이 없습니다. 여기서는 예제 코드를 통해 '아, 이런 식으로 자연어 처리가 가능하구나' 정도만 이해하고 넘어가는 걸 목표로 하겠습니다. !pip install nltk from nltk.corpus import stopwords from nltk.stem import LancasterStemmer from nltk.stem import PorterStemmer from nltk.tag import pos_tag from nltk.tokenize import RegexpTokenizer fr..

[더브레인-3] 2. 워드클라우드 예제 실습 안내

환영합니다, Rolling Ress의 카루입니다. ​ ** 3-2. 워드클라우드 [통계] 준비물: 단어를 분석할 글 (.txt 파일로 제작 후 코랩에 업로드) (신문기사나 논문도 괜찮습니다) ​ 이건 전산언어학이라기보단 통계쪽에 더 가까워요. 정규표현식보단 이쪽이 훨씬 쉬울 겁니다. !pip install nltk !pip install konlpy !apt-get update -qq !apt-get install fonts-nanum* -qq from collections import Counter from konlpy.tag import Hannanum from wordcloud import WordCloud from PIL import Image import numpy as np import pan..

[더브레인-3] 1. 정규표현식 예제 실습 안내

환영합니다, Rolling Ress의 카루입니다. ​ ** 3-1: 정규표현식 - 언어/통계 ​ 오늘은 제가 따로 설명을 하지 않겠습니다. 본 글을 보고 진행해주시고, 질문 사항이 있을 경우에만 불러주세요. 이번 글은 정규표현식에 관한 내용으로, 사실상 여러분 모두가 이 예제를 해보셨으면 하는 바람이 있습니다. 내용이 다소 어려운 관계로, 길게 하진 않겠습니다. 사실 정규표현식만 다루는 책이 수두룩할 정도로 내용이 많아요. ​ 정규표현식(Regular Expression)은 자연어 처리에서 매우 중요한 역할을 합니다. 특히 데이터 전처리에서 빛을 발하죠. 문자열의 특징을 추출하거나 패턴을 찾을 때 유용하게 쓸 수 있습니다. 알아두면 정말 쓸 데가 많아요. 단순히 Ctrl+H 눌러서 바꾸기 하는 것도 정규..

더브레인 2차 결과물 제작 안내 (ft. 파이썬&머신러닝)

환영합니다, Rolling Ress의 카루입니다. 오늘은 두 번째 결과물을 제작하는 시간입니다. 지난번에 예고한 대로, 이번에는 보고서를 작성하는 게 아니라 여러분께서 직접 인공지능 모델을 제작해보는 시간을 가질 겁니다. 더브레인 구글 드라이브에 이런 파일이 숨겨져 있는데, 여러분껜 보이지 않을 겁니다. 복붙 방지용입니다. 여러분의 개별 폴더 내에는 여러분께서 주신 .csv 파일과 3000 XXX_2차시 회귀분석.ipynb라는 파일이 있을 겁니다. 여러분 개별로 생성해드렸는데, 내용은 모두 똑같아요. 우리가 그동안 이론으로만 배웠던 선형 회귀(Linear Regression), K-최근접 이웃 회귀(k-Nearest Neighbors Regression)등을 실제로 구현해보며 시각화할 겁니다. 사탐방 때..

더브레인 1차 결과물 소개

환영합니다, Rolling Ress의 카루입니다. ​ 여러분들이 최종보고서를 쓰기 전에, 우리가 무엇을 만들었는지는 확실하게 아는 게 좋을 것 같아서요. 여기 있는 내용을 대략적으로 이해만 하시고 넘어가면 될 것 같습니다. 5/30 시간에 프로그램을 만들어서 여러분께 드렸죠. 너무나도.... 단순한 녀석입니다. 외형적인 모습은 여러분들도 아마 지겹도록 보았을테니 생략하도록 하고요, ​ 내부적인 이야기를 좀 하겠습니다. 우선 얘는 하나의 프로그램이지만 실질적으로 세 가지의 인공지능 모델을 탑재하고 있습니다. 성차별, 편향, 혐오표현을 각각 구분해내는 모델입니다. 특히 성차별 분류 모델의 경우 "성차별 표현이다" / "성차별 표현이 아니다"의 두 가지로 분류하기 때문에, ​이진 분류 모델을 사용합니다. 내부..

[더브레인] 4월 진행 상황

환영합니다, Rolling Ress의 카루입니다. ​ 오늘 (4/22)은 지필 전 시간이라 활동을 잡지 않았습니다. 다만, 10분 정도만 빠개서 빠르게 설명을 하고 갈게요. 일단 우리가 어디까지 진행이 되었는지는 알아야 할테니. ​ 우선 저희는 머신러닝을 주로 활용할 예정입니다. 지도학습(Supervised learnig)과 비지도학습(Unsupervised learning)을 동시에 사용합니다. 지도학습에선 이진분류(Binary classfication)를 여러 번 사용하여 혐오 표현을 잡아내고, 비지도학습은 뉴스 기사의 제목을 군집화(Clustering)하여 해당 뉴스가 어떤 공통점을 갖고 있는지 알아보고자 합니다. 여튼, 이런 식으로 각각 "성차별", "차별 표현", "혐오 표현"을 탐지하는 모델을..

[더브레인] 머신러닝을 통한 뉴스 기사 댓글 혐오 표현 분석

환영합니다, Rolling Ress의 카루입니다. ​ 어제는 뭐라도 했어요. 그나마 다행입니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ... ​ 자, 그래서 저는 주말동안 여러 데이터를 찾아다녔습니다. 근데 여기가 제일 쓸만하더라고요. 뉴스 기사의 댓글에 혐오 표현 라벨을 붙여줬습니다. https://github.com/kocohub/korean-hate-speech GitHub - kocohub/korean-hate-speech: Korean HateSpeech Dataset Korean HateSpeech Dataset. Contribute to kocohub/korean-hate-speech development by creating an account on GitHub. github.com git clone h..

반응형