본문 바로가기
대학교/2.AI_인공지능

AI.6 n-gram

by Jcoder 2017. 4. 21.

A4 1장 분량의 한글문서 10개를 수집한 후 각 문서의 중요 단어를 추출하는 것을 확인, 결과 분석 보고서와 해당 문서를 제출


일단 제가 주제를 정한 것은 박문성 칼럼입니다.(축구) 10가지가 다 같은 축구지만 서로 다른 내용들입니다.

제가 축구를 정한 것은 요즘 손흥민이 활약을 하고 있고 개인적으로 뉴스5에 나오는 아스날을 좋아하고 호날두를 매우 좋아해서 주제를 축구 한가지로 정했습니다.

 

0.txt에서 마르셀루가 가장 빈도수가 높았습니다. 왜냐하면 마르셀루가 뉴스1에서 가장 비중이 높은 단어이자 인물이기 때문입니다.

 

1.txt에서 0.027886 이달의 라는 단어가 빈도수가 높았습니다. 왜냐하면 10개의 뉴스에서 이달의 라는 단어가 많이 나왔기 때문입니다.

 

2.txt에서 0.037342 지단이 가장 높았습니다. 뉴스1과 뉴스3에서 지단이라는 인물이 많이 써져있습니다.

 

3.txt에서 0.025396 손흥민의 가장 높았습니다. 뉴스3 뉴스5 뉴스10에서 손흥민을 중심으로 기사를 썼기 때문입니다.

 

4.txt에서 0.031499 이청용의 가장 높았습니다. 뉴스 4에서는 메인 인물이고 뉴스 7에서 슈틸리케의 국가대표의 기사에서 언급이 되었기 때문입니다.

 

5.txt에서 0.014884 벵거가 가장 높았습니다. 다른 txt와 비교를 하면 낮은 수치입니다.

 

6.txt에서 0.062457 네덜란드 가 압도적으로 높았습니다. 뉴스6에서 네덜란드가 많이 언급 됐으며 다른 뉴스에서는 언급이 적었습니다. 그런데 빈도수가 높았습니다. 비정상적으로 높은 이유를 모르겠습니다.

 

7.txt에서 0.024418 전술의 이 높았습니다. 모든 뉴스에서 전술이라는 단어는 무조건 포함되어 있습니다. 그래서 상대적으로 빈도수는 낮습니다.

 

8.txt에는 0.017551 음바페는 이 높았습니다. 하지만 다른 뉴스에서 언급이 없었기 때문에 빈도수는 낮습니다.

 

9.txt에는 0.019794 왼발 이 높았습니다. 왼발이라는 단어는 어느 뉴스에서도 언급이 되었기 때문에 빈도수는 낮습니다.

 

여기서 중요한 것이 있습니다.

 

뉴스 10가지에 모두 포함 되어 있는 선수, , 같은, 단어들이 중복되는 것이 많아서 각 txt파일들을 보면 중요도가 매우 낮은 것을 확인 할 수 있습니다. 제가 판단한 것은 중요도가 낮다는 것은 많은 파일들에서 중복되어 사용된 것 이다 라고 판단하였습니다.

 

/*

./wcount_kr1.sh

#!/bin/sh

 

for f in soccer*.txt

do

./kr.pl $f | sort | uniq -c | sort -rg > $f.w

done

 

soccer*.txt를 읽어 오기 위해 수정을 했습니다.

*/

Ai6.n-gram.zip


'대학교 > 2.AI_인공지능' 카테고리의 다른 글

AI8.의사결정트리  (0) 2017.06.03
AI7.시계열학습  (0) 2017.06.03
AI5. 유전알고리즘  (0) 2017.04.21
Ai 4.생성시스템  (0) 2017.04.21
AI3.프레임  (0) 2017.04.21