경희대학교 BK21 플러스 사업팀, 한글 텍스트 마이닝 도구인 RHINO를 개발
경희대학교 BK21 플러스 사업팀, 한글 텍스트 마이닝 도구인 RHINO를 개발
문장의 맥락을 참조, 단 하나의 결과만을 제시한다!
  • 권태홍 기자 smypym@naver.com
  • 승인 2015.07.18 06:41
  • 댓글 0
이 기사를 공유합니다

[대한뉴스=권태홍 기자] 요즘 뉴스나 예능 프로그램에서 특정 주제, 혹은 인물을 다룰 때 트위터와 같은 SNS에서 언급된 단어들을 분석하여 마치 마인드맵처럼 보여주는 경우가 많아졌다. 텍스트 덩어리 안에서 단어들을 분해해, 단어의 출현 빈도나 단어들 간의 관계성을 파악하여 정보를 추출해 내는 기술인, 텍스트 마이닝을 이용한 효과이다. 시시각각 방대해져가는 빅데이터를 가공하여 사람들이 사용할 수 있는 정보나 지식으로 만들어 주는 기술을 데이터 마이닝이라고 한다. 하지만 정형화 되어있는 데이터가 아닌 비정형이거나 반 정형인 텍스트를 가공하는 텍스트 마이닝은 실생활에서 흔히 볼 수 있지만 그렇다고 쉬운 기술은 아니다.

▲권오병 교수

한글 텍스트 마이닝의 큰 한걸음

경희대학교 경영대학 BK21 플러스 사업팀인 데이터과학에 기반한 경영전문 연구인력 양성팀 (사업팀장: 권오병 교수)은 한글 텍스트 마이닝 도구인 RHINO를 개발하여 큰 화제와 기대를 모았다. 원래 사업팀에서는 기존에 개발된 텍스트마이닝 도구를 활용하여 빅데이터로부터 사용자의 감정을 분석하기로 하였다. 그런데 한글로 기록된 대량의 데이터에서, 비정형이거나 반정형인 단어들을 추출해 내기가 쉽지 않다는 점이 문제로 대두되었다.

사실 한국어는 교착어로서 용언과 어미의 분리가 쉽지 않다. 예를 들어 ‘했다’와 같은 경우 ‘하+었+다’로 분석해야 하는데 밖으로 드러난 형태만으로는 이렇게 분리하기가 어려운 것이다. 따라서 단순한 검색만으로는 원하는 단어를 찾을 수가 없으므로 이 문제를 해결해 줄 형태소 분석기가 필요했지만 기존에 만들어진 형태소 분석기들은 모두 그렇지 못했다.

형태소 분석기는 기반 도구이므로 앞으로 사업팀에서 만들 다양한 프로그램에 잘 이식되어야 하는데, 그러려면 소스 코드가 확보되어야 한다. 하지만 대부분의 형태소 분석기는 소스코드까지 공개하지는 않았다.

또한, 문맥까지 참조하여 정확한 결과를 내는 분석기가 없었다. 예를 들어, ‘나는 하늘을 나는 새를 본다’에서 ‘나는’은 두 번 사용되었지만 서로 다른 의미를 갖고 형태소 분석도 다르다. 첫 번째의 것은 ‘나(명사)+는(조사)’로 분석되어야 하고, 두 번째의 것은 ‘날(동사)+는(어미)’로 분석되어야 한다. 하지만 기존의 것은 이러한 구분을 해주지 못했다.

결국 BK21 플러스 사업팀에서는 국어학 전문가인 최석재 교수를 영입, 새로운 분석기를 만들기로 결정을 내렸다. 다행히 독립적인 연구에서 기초적인 형태소 분석기를 가지고 있었으므로 이를 더욱 확장 보완하여 자유로운 이식이 가능하면서도, 정확한 결과를 내어놓을 수 있는 분석기의 개발을 시도하였다.

이렇게 약 일 년의 시간을 들여 제작한 것이 RHINO이다. RHINO의 가장 큰 장점은 기존의 분석기와는 달리 단 하나의 최종, 최적 결과만을 제시한다는 점이다. 기존의 분석기는 맥락을 참조하지 않기 때문에 복수의 분석 결과를 제시하지만 RHINO는 위의 ‘나는 하늘을 나는 새를 본다’의 경우와 같이 앞과 뒤의 단어 배열을 참조하기 때문에 단 하나의 최적 결과만을 제시할 수 있게 된 것이다.

이처럼 정확한 결과를 제시하기 때문에 RHINO를 이용하는 프로그램은 더 이상 형태소 분석에는 신경 쓰지 않고 데이터에서 유의미한 정보를 추출하는 일에만 집중할 수 있다는 점에서 주목을 받고 있다.

또한 더욱이 주목해야할 점은 형태소 분석은 데이터 분석을 하는 연구자에게는 공통 과제에 속하기 때문에 결과물을 인터넷에 공개한다는 사업팀의 결정이다. 아직 개발이 완료되지 않아 모든 결과물을 공개할 수는 없지만, 적어도 공개용 버전은 일찌감치 공개할 수 있다고 보고, 작년 말에 소스 코드와 함께 인터넷에 공개하였다. 이 공개용 버전으로도 기본적인 결과를 얻을 수 있으며 원할 경우, 직접 소스 코드를 수정해 확장할 수 있다는 것이 사업팀의 설명이다. 또한 개발한 RHINO를 한국전자거래학회, 한국빅데이터학회 등에서 소개하였으며, 개발자들과 관련 학자들의 많은 관심을 불러일으키고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 서울특별시 강서구 양천로 400-12 더리브골드타워 1225호
  • 대표전화 : 02-3789-9114, 02-734-3114
  • 팩스 : 02-778-6996
  • 종합일간지 제호 : 대한뉴스
  • 등록번호 : 서울 가 361호
  • 등록일자 : 2003-10-24
  • 인터넷신문 제호 : 대한뉴스(인터넷)
  • 인터넷 등록번호 : 서울 아 00618
  • 등록일자 : 2008-07-10
  • 발행일 : 2005-11-21
  • 발행인 : 대한뉴스신문(주) kim nam cyu
  • 편집인 : kim nam cyu
  • 논설주간 : 김병호
  • 청소년보호책임자 : 정미숙
  • Copyright © 2024 대한뉴스. All rights reserved. 보도자료 및 제보 : dhns@naver.com
  • 본지는 신문윤리강령 및 그 실천 요강을 준수하며, 제휴기사 등 일부 내용은 본지의 공식 견해와 다를 수 있습니다.
인터넷신문위원회
ND소프트