기술 분석의 개념

마지막 업데이트: 2022년 2월 9일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
《차트의 해석》 표지 ⓒ 이레미디어 제공

기술 분석의 개념

6월23일 서울 중구 하나은행 본점 딜링룸 전경ⓒ연합뉴스

6월23일 서울 중구 하나은행 본점 딜링룸 전경ⓒ연합뉴스

코로나19 팬데믹 시기 상승 가도를 달리던 주식 가격이 급락하면서 투자자들의 시름이 깊어지고 있다. 코스피와 코스닥은 6월 들어 일곱 번이나 연중 최저점을 새로 썼다. 금리 인상 러시에 ‘빚투(대출받아 투자)족’은 크게 늘어난 이자 부담까지 지게 됐다. 1997년 국제통화기금(IMF) 외환위기, 2008년 글로벌 금융위기 직전에 비견되는 불경기와 하락장세 속 ‘멘붕’에 빠진 투자자들은 이제 뭘 어떻게 해야 할까.

국내 증권가의 대표적인 차티스트(기술적 분석전문가)인 김정환 GB투자자문 대표는 최근 출간한 《차트의 해석》을 통해 지금 같은 장세에선 “시장 참여를 최소화하는 게 어쩌면 최선의 전략이 될 수 있다”고 말했다. 무기력하게 아무것도 하지 말라는 건 결코 아니다. 좌고우면하기보다 잠시 멈춰 서서 기나긴 투자 여정의 기초 설계부터 찬찬히 해보라는 조언이다.

김 대표는 우선 메릴린치의 수석 이코노미스트였던 리처드 번스타인이 만든 ‘투자 시계’를 제시했다. 투자 기술 분석의 개념 시계는 실적 기대감의 사이클을 도식화한 것이다. 투자 시계에서 ‘12시’(인플레이션 타임)는 주식시장의 상승 국면이 폭발하면서 투자자들의 흥분과 탐욕이 극치를 이루는 시기다. 절정을 이룬 증시는 하락 국면으로 진입한다. 투자자들은 일시적인 현상이라 믿지만 사실상 추세적인 내림세다. ‘3시’(스태그플레이션 타임)를 지나며 펀더멘털이 무너져 급락 국면이 되고 ‘6시’(디플레이션 타임)가 되면 투자자 대부분은 공포에 휩싸여 주식을 보유하고 있는 것 자체를 후회한다.

현재 한국 증시는 3시와 6시 사이를 지나는 중인 셈이다. 6시를 맞은 시장은 극도로 위축된다. 매도 권유가 당연시되고 악재가 계속되리라는 믿음이 팽배해진다. 주가가 바닥을 뚫고 지하로 내려갈 수 있다는 ‘디레이팅(De-rating)’ 논쟁이 벌어지기도 한다. 그러나 김 대표는 “시장은 점차 공포와 후회를 극복하고 다시 상승하게 마련”이라며 “6시가 지난 후 펀더멘털이 회복되고 ‘9시’(리플레이션 타임)를 통과해 본격적인 상승 국면에 들어간다”고 앞으로를 예견했다.

9시 이후 시장은 충분히 공급된 유동성과 펀더멘털을 확인한 투자자들에 의해 절정으로 치닫는다. 결국 흥분과 열광으로 12시, 즉 흥분과 탐욕의 구간을 다시 맞는다. 김 대표는 “신데렐라가 12시 전에 파티장을 떠나야 하듯이 주식 투자자들도 12시가 되기 전에 시장에서 빠져나와야 한다”고 말했다. 이어 “투자자라면 이따금 투자 시계를 바라보면서 다음 국면을 대비해야 한다. 호재와 악재를 객관화시킬 필요가 있다”면서 “특히 하락 국면에선 시장을 지배하는 패닉 심리에 휩싸이지 말고 냉정을 찾아야 한다”고 덧붙였다.

냉정해지는 방법으로 김 대표는 그의 주특기인 기술적 분석을 제안했다. 기술적 분석이란 과거 데이터(가격, 거래량, 순환 주기 등)를 이용해 현 주가 수준과 미래의 변화를 예측하는 방법이다. 그동안 한국 시장에서 주식의 내재적 가치를 분석하는 기본적 분석과 비교해 기술적 분석은 비중 있게 여겨지지 않아 온 게 사실이다. 정확한 의미와 계량적인 방법론을 모르고 사용되는 경우도 많다.

김 대표는 “미국, 영국 등 선진국 시장에선 기본적 분석과 기술적 분석의 중요도가 거의 대등하게 평가받는다”며 “글로벌 경제와 증시의 동조화 현상, 투자 상품의 다양화 등으로 한국 시장에서도 기술적 분석의 유용성이 점점 더 높아지고 있다”고 전했다. 그러면서 “적절한 투자 대상을 찾거나 진입 시점을 결정하기 점점 더 힘들어지는 가운데 기술적 분석은 개별 상품의 특성을 잘 파악하지 못해도 과거 데이터를 바탕으로 투자 전략을 수립할 수 있게 해준다”고 말했다.

《차트의 해석》은 △기술적 분석에서 가장 중요한 개념은 무엇인가 △오늘날 기술적 분석은 어떤 흐름으로 가고 있는가 △계량적 분석은 기술적 분석에 어떻게 적용되는가 △증권사 홈트레이딩시스템(HTS)에 나오는 기술적 지표에 대한 상세한 설명은 없는가 등의 질문을 김 대표가 스스로 던지고, 이에 대해 자답하는 형식으로 쓰였다.

맛보기로 내용을 전하자면, 김 대표는 이동평균선과 거래량을 기술적 분석의 핵심 개념으로 꼽았다. 그는 “이동평균선과 거래량을 중심으로 한 자세한 투자 전략을 《차트의 해석》에 담았다”며 “이 책을 보면 기술적 분석이 단순히 자를 대고 선을 긋는 수준의 분석이 아니라는 점을 확실히 인식하게 될 것”이라고 밝혔다.

김 대표는 1994년 대우증권에 입사한 뒤 리서치센터에서 애널리스트로 근무하며 투자 전략(기술적 분석)과 스몰캡·지주회사 분석 등을 담당했다. 증권사를 나와 2019년 GB투자자문을 설립했다. 그는 프로 서예가이자 화가이기도 하다. 애널리스트 시절 사자성어를 키워드로 내세워 보고서를 작성하는 등 인문학과 예술을 접목한 시장 분석으로 화제를 모았다.

책의 말미에서 김 대표는 변동성이 높은 주식시장에서 투자에만 몰두하지 말라는 메시지를 던졌다. 투자 방법론을 다룬 책에서 투자에 몰두하지 말라는 게 무슨 말일까. 그는 “투자가 인생의 전부는 아니며 우리 인생에는 투자 말고도 중요한 게 많다”고 전하며 로버트 쿠펠과 하워드 아벨이 지은 《거래의 내적 게임》 속 한 구절을 소개했다.

“성공적인 트레이더에게 돈은 매매의 한 요인이지 결정적인 동기는 아니다. 그는 자신의 인생을 균형되게 바라보며, 일관성 있는 매매 방법을 취하며, 매매의 성공과 실패에 대해 자기 책임 의식이 있고, 적극적이면서 유연한 생각을 갖는다.”

《차트의 해석》 | 김정환 | 이레미디어 | 504쪽 | 2만3000원

《차트의 해석》 표지 ⓒ 이레미디어 제공

《차트의 해석》 표지 ⓒ 이레미디어 제공

[21.11.06] 차트 기술적 분석의 대가 존J머피의 10가지 기술적 매매법

안녕하세요? 오늘은 선물시장에서 기술적 분석 적용에서 30년간의 현장경험을 바탕으로 한때 메릴린치에서 기술적 분석 이사, CNBC TV에서 7년동안 애널리스트로의 활동 로서 활동한 바 있으며 현재는 투자가들을 위해 온라인 분석을 제공하는 머피모리스(Murphymorris.inc)의 창업자이자 회장인 존 J 머피의 기술적 매매기법에 대해 알아보겠습니다!

이분이 쓰신 책 중 금융시장의 기술적 분석이란 책이 있는데 기술적 분석의 개념과 선물시장에의 적용에 있어 가장 쉬운 안내서라 할 수 있는 이 책은 미국 연방준비은행의 연구, 시장 기술적 분석가협회 테스트 프로그램에도 인용되었던 책이니 기회가 되시면 한번 읽어보시길 추천합니다.(평점도 매우 높습니다)

세계적인 기술적 분석가 John Murphy의 10가지 기술적 매매기법

1. Map the Trends (장기 차트를 분석하라)
- 수년간의 주봉 및 월봉차트를 분석하라.
- 장기간의 " map of the market(시장흐름도)"는 시장의 상황과 좀더 긴 기간의 시장 전망을 제시한다.
- 장기에 대한 판단이 서면 그 다음은 일간 그리고 일중의 차트를 분석한다.
- 단기 시장 분석만으론 자주 속을 수 있다.
- 설사 단기간의 투자만 하는 투자자라 할 지라도 중기 혹은 장기추세와 같은 방향으로 매매하는 것이 유리하다.


2. Spot the trends and go with it (추세를 찾아 그에 따르라)
- 추세를 바로보고 이에 순응하여야 한다.
- 시장의 추세는 여러 가지 기간으로 형성된다.(장기, 중기 그리고 단기 등)
첫째, 매매하려고 하는 그리고 사용하려고 하는 적당한 차트를 정하라.
추세 방향대로 매매하라. 추세가 상승추세면 일시적인 하락 시에는 매수하라. 추세가 하락이면 단기 상승 시에는 매도하라.
중기추세를 이용한 매매를 하는 경우는 일간차트와 주간차트를 사용하라. 데이트레이딩을 하고 있다면 일간차트와 일중차트를 사용하라. 그러나 이 두 경우 모두 먼저 더 긴 기간의 차트를 통해서 추세를 파악하고 그리고 난 뒤 시점포착을 위해 짧은 기간의 차트를 이용한다.


3. Find the low and high of it (지지와 저항 수준을 찾아라)
- 매수에 적절한 지점은 바로 최근 지지수준이다. 이 지지선은 흔히 직전 반등의 저점이다. 매도에 적절한 지점은 바로 최근 저항수준이다.
- 저항은 흔히 직전 고점에서 나타난다.
- 저항고점이 돌파되고 나면 이것은 흔히 이어지는 되밀림의 지지선이 된다. 다르게 표현하자면, "이점 고점은 새로운 저점이 된다"고 할 수 있다.
- 마찬가지로 지지선이 무너지면 이 지점은은 흔히 뒤에 이어지는 반등의 매도 포인트가 된다. "이전 저점은 새로운 고점이 된다"


4. Know how far to backtrack (어느 정도의 수준에서 추세로 회귀할지를 알라)
- 되돌림 비율을 계산하라.
- 시장의 상승조정 또는 하락조정은 흔히 직전추세의 특정 부분만큼을 회귀한다
- 기존추세에서의 조정폭(되돌림폭)은 간단한 비율로 측정 가능하다.
주로 이전 주추세의 50수준의 조정이 가장 일반적이다. 최대 조정폭은 흔히 3분의 2조정이다.
피보나치(Fibonacci) 조정폭인 38%, 62%도 유용한 관측치이다.
따라서 상승추세에서의 조정기간 동안은 33~38% 수준의 조정폭이 매수시점이다.


5. Draw the line (추세선을 그려라)
- 추세선을 그려라.
- 추세선은 차트기법 중 단순하고 가장 효과있는 기법 중 하나이다.
- 차트에서는 두점과 이를 이은 선이 필요하다.
상승추세는 연이은 두 저점을 따라서 그려진다.
하락추세는 연이은 두개의 고점을 연결하여 그린다.
흔히 추세가 반전되기 전까지는 가격은 추세선 부근 까지 되돌림을 나타낸다. 그리고 추세선을 돌파는 흔히 추세가 바뀌는 신호로 인식한다.
유효한 추세선은 최소한 3차례 이상 확인되어 진 것이다.
- 긴 추세일수록, 여러 차례 확인된 추세일 수록 중요성은 더 커진다.


6. Follow that average (이동평균선을 활용하라)

- 이동평균은 객관적인 매수와 매도 시점을 제시한다.
- 이동평균선은 현재 존재하는 추세가 진행중인지를 가르쳐주고 추세의 전환여부를 확인시켜준다.
- 이동평균선이 선행하여 이러한 정보를 제공해 주지는 않는다. 하지만 추세변화는 즉시 나타낸다.
매매신호를 찾는 가장 인기있는 방법이 두가지 이동평균선을 결합하는 기법이다.
몇몇 유명한 선물시장에서의 이동평균 결합은 4일-9일 이동평균, 9일-18일 이동평균, 5일 20일 이동평균 등이다.
매매신호는 단기 이동평균선이 이보다 장기(단기보다 긴) 이동평균선과 만날 때 발생한다.
가격이 40일 이동평균선을 상향 or 하향 돌파하는 것도 좋은 매매 신호를 준다.
- 이동평균선은 추세추종형 지표이기 때문에 추세형 시장에서 잘 적중한다.


7. Learn the turns (전환을 탐지하라)
- Oscillator(오실레이터)를 잘 살펴보아야 한다.
Oscillator는 과매도와 과매수를 확인시켜준다.
이동평균선이 시장추세의 변화를 제시하는 반면, Oscillator는 상승세를 이어왔던 혹은 하락세를 이어왔던 시장의 머지않아 곧 전환될 것임을 먼저 경고한다.
두가지 대표적인 Oscillator는 RSI와 Stochastics이다. 이 두가지는 모두 0에서 100사이에서 움직인다. RSI를 가지고는 70이상은 과매수 30이하는 과매도로 판단한다. Stochastics에서는 과매수와 과매도영역이 80과 20이다.
대부분의 트레이더들은 14일 또는 14주 Stochastics를 쓰거나 9일(주) 또는 14일(주)의 RSI를 사용한다.
- Oscillator divergence는 흔히 시장반전의 경고를 준다.
이 기법들은 주로 횡보시장에서 효과적이다.
주간 신호는 흔히 일간 신호의 필터로서 활용된다. 일간 신호는 일중챠트의 필터로서 사용될 수 있다.


8. Know the warning signs (경고 신호를 인식하라)
- MACD (Moving Average Convergence Divergence)를 활용하라.
Gerald Appel에 의해서 개발됨
이동평균선 교차시스템과 Oscillator의 과매수/과매도 원리가 결합된 것
매수신호는 "0"선 아래에서 MACD선이 signal선을 상향교차할 때 발생
매도신호는 "0"선 위에서 MACD선이 signal선을 하향교차할 때 발생
주간 신호는 일간신호보다 먼저 나타난다.
- MACD histogram은 앞서의 두선의 차를 이용하여 지표화한 것이다.
또한 이것은 추세변화의 경고를 앞서 나타낸다.
이를 "histogram"이라고 표현하는 것은 두선(MACD선과 signal선)의 차이를 수평막대로 챠트에 표시하기 때문이다.


9. Trend or not a trend (추세인가 비추세인가?)
- ADX를 활용하라.
ADX 선은 시장이 추세내에 있는지 혹은 추세국면인지를 판단하는데 도움을 준다.
ADX는 시장의 방향 또는 추세의 강도를 측정한다.
- 상승하는 ADX선은 강한 추세가 있음을 암시한다.
- 하락하는 ADX선은 추세가 없는 시장임을 암시한다.
- 상승하는 ADX선에서는 이동평균선이 유리하고 하락하는 ADX선일 때는 Oscillator가 유리하다.
- ADX의 방향을 도표화함으로서 매매자는 현시장 환경에서 어떤 매매스타일의 매매를 해야할지와 어떤 종류들의 지표를 쓸지를 결정할 수 있다.


10. know the confirming signs (신호 확인하는 법)
- 거래량과 미결제약정을 포함시켜라.
- 선물시장에서 거래량과 미결제약정은 지표를 확인시켜준다,
거래량은 가격에 선행한다.
추세 진행 중에 큰 거래량이 발생하는 것은 추세를 공고히 해준다.
상승추세 중 큰 폭의 거래량 증가는 추세의 지속으로 보아야 기술 분석의 개념 할 것이다.
미결제약정의 증가는 새로운 자금이 현추세를 지지하고 있음을 확신시켜 준다.
미결제약정의 감소는 흔히 추세완성이 임박했음을 경고한다.
견조한 가격 상승추세는 거래량의 증가와 미결제약정의 증가를 수반해야 하는 것이다.

뉴스 인사이트

[주식 공부 1-2] 기술적 분석이란 무엇인가? (기술적 분석의 특징, 장점과 단점)

이번 포스팅은 기술적 분석이란 무엇인가? 특징과 장단점은 무엇일까? 에 대하여 다뤄보겠습니다.

"저번 시간 기본적 분석이란 무엇일까?"에서 이어지는 내용입니다.

기술적 분석이란 용어 또한 많이들 들어보셨을 텐데요.

입문자, 초보자 분들께 도움이 될 수 있게 간단하게 설명 및 요약을 해보겠습니다.

기술적 분석
(technical analysis)
주가와 거래량의 과거 흐름을 분석하여 미래의 주가를 예측하는 방법.

기술적 분석 의 사전적 의미입니다.

주가와 거래량의 과거 흐름을 분석하여 미래의 주가를 예측하는 방법인데요

여기서 주가와 거래량의 과거 흐름은 무엇으로 분석할까요?

차트와 수급 등이 있습니다.

이 후행지표인 차트 (캔들, 거래량, 거래대금 등)와

수급 (개인, 기관, 외국인, 프로그램 매매) 등을
종합적으로 분석하여 과거 다른 종목의 사례와 비교하여
주가의 미래 방향성을 예측하고 이를 활용하여 종목 매매시점을 결정하는 증권분석의 방법입니다.

"A란 종목의 차트가 과거 큰 상승을 한 B, C, D. 등의 종목과 차트 패턴이 비슷하거나 같고 거래량이 터져 상승할 확률이 크다."

"외국인, 기관의 수급이 며칠간 연속적으로 들어왔다. 차트도 상승 여력이 큰 패턴이다."

위의 예시 외에도 많은 기술적 분석을 통한 매매 기법 등이 있지만

"재무상태가 나쁜 기업의 주식이라도 차트 등의 흐름을 예측하여 매매시점을 잘 포착하면 투자수익을 올릴 수 있다."가 기술적 분석의 핵심입니다.

기술적 분석의 정의 및 간단한 설명을 해봤습니다.

이번엔 간단하게 기술적 분석의 특징과 장단점에 대하여 알아보도록 할게요.

기술적 분석의 특징

기술적 분석
"재무상태가 나쁜 기업의 주식이라도 차트 등의 흐름을 예측하여 매매시점을 잘 포착하면 투자수익을 올릴 수 있다."를 전제로 기업의 내재가치에 큰 영향을 받지 않고 수익을 낼 수 있는 특징이 있습니다.

또한 기술적 분석을 통한 단기매매 기법을 통해 단 기간에 높은 회전율과 수익률을 낼 수 있는 것이 특징입니다.

기술적 분석의 장점

1. 단기간에 큰 수익을 낼 수도 있다.

기본적 분석에 비해 단기간에 큰 수익률을 낼 수 있습니다.
이는 많은 분들이 단기매매를 하는 이유입니다.

2. 기본적 분석에 비해 시장 지수 등에 자유롭다.

이는 기술적 분석의 큰 장점입니다.

보통 기본적 바탕을 통해 투자한 우량한 주식들은 시장 지수와 함께 움직이는 경향이 있지만
기술적 분석은 그날의 거래량 수급이 몰려 단기 차익을 노릴 수 있는 종목 위주로 매매하기 때문에 기본적 분석에 비해 자유롭습니다.

기술적 분석의 단점


1. 단기간에 큰 손실을 입을 수도 있다.

단기간에 큰 수익을 낼 수 있다는 것은 단기간에 큰 손실을 입을 수도 있다는 말입니다.

잦은 손절이 반복되어 결국 원금에 큰 손실을 입고 시장을 떠나간 투자자들은 셀 수 없이 많습니다.

2. 기준을 지키는 것이 어렵다.

기술적 분석은 주로 단기매매에 사용되는 경우가 많습니다.

이 경우 얼마부터 매수할 것인지, 얼마에 매도할 것인지, 손절매는 언제 해야 할지 등의 기준을 정하여 지켜야 하는데
막상 내가 보고 있는 종목이 상승신호를 보이면

내 기준과 달라도 뇌동매매를 하게 되고 손실을 보게 되는 경우가 많아집니다.

이 뇌동매매에 대해서는 개인투자자 분들도 공감하실 겁니다.

이상의 내용이 제가 생각하는

기술적 분석의 정의와 특징 및 장단점입니다.

  • 기술적 분석은 주가와 차트, 거래량 등의 데이터를 분석하여 미래의 주가를 예측하는 분석 방법이다.
  • 기업의 내재가치보다는 그날의 수급, 매매시점 포착 등의 기법을 중요시한다.
  • 단기간에 큰 수익을 낼 수 있고 시장 지수가 빠지더라도 실력이 있다면 수익 구간을 잡을 수 있다.
  • 단기간에 큰 손실을 낼 수도 있으므로 실력이 부족하다면 리스크가 있고 본인의 기준을 지키는 것이 중요하다.

이상으로 기술적 분석에 대해 최대한 쉽고 간단하게 설명해봤습니다.

이번 포스팅에서는 단기매매 시에 주로 활용하고 필수적인 분석 방법인 기술적 분석에 대해 다뤄봤습니다.

기술적 분석 안에서도 여러 가지 매매 기법이 있는데 이 역시도 추후 다뤄보겠습니다.

우리는 이전 포스팅과 이 포스팅을 통해 기본적 분석과 기술적 분석에 대해 간단하게 공부해봤는데요.

다음 주식 공부 포스팅은 "그래서 둘 중 뭐가 더 중요한 건데?"에 대한 제 생각을 포스팅할 예정입니다.

[주식 공부] 기본적 분석이란 무엇일까? 특징과 장단점 설명까지

안녕하세요. 주식 공부 카테고리에서 처음 다룰 내용은 분량이 많고 각각 중요한 내용으로 총 3개의 포스팅으로 작성할 계획입니다. 기본적 분석과 기술적 분석은 과연 무엇이고 어느 것이 더

VOL. 03

데이터 마이닝(Data mining)이란 대량의 데이터에서 통계적 규칙이나 패턴을 찾아내고, 찾아낸 정보·패턴을 다양한 형태로 활용하는 기술을 의미한다. Neflix의 협업 필터링(collaborative filtering)을 활용한 영화 추천시스템(recommendation)과 같은 ‘개인화 마케팅’ 분야에서 가장 활발하게 활용되고 있으며, 최근 들어 사회 변화 예측 및 유망기술 예측 등의 분야로 적용이 확대되고 있다. 객관적 데이터에 기반을 둔 기술 예측은 새로운 기술의 등장 및 발전 속도가 급격히 빨라짐과 더불어 중요성이 점차 증대되고 있으며, 이에 따라 데이터 마이닝을 이용한 기술 예측, 유망기술 발굴 및 R&D 기획 방법론에 대한 연구가 활발하게 진행되고 있다. 본 이슈 페이퍼에서는 텍스트 마이닝(Text mining)을 활용한 특허 분석 및 기술 개발 방향 예측·탐색에의 적용 가능성에 대해 검토해 보고자 한다.

데이터 마이닝의 기본 개념 및 분석 방법론(Process)

데이터 마이닝은 대량의 데이터에서 유용한 패턴, 인과관계 또는 상관관계를 찾아내는 과정으로, 통계학, 컴퓨터공학 및 기계 학습(machine learning) 3가지 분야가 상호 연계(interdisciplinary)된 기술이라 할 수 있다. 통계학적 관점에서는 데이터에서 통계적 모델을 구축하는 작업으로 정의되고, 컴퓨터 공학 관점에서는 알고리즘의 문제로, 기계학습 관점에서는 기계 학습과 유사어(synonym)로 이해되고 있다. 세 가지 분야에서 서로 다른 관점으로 바라보고 있지만, 결론적으로는 대량의 데이터에서 새로운 지식을 발견(knowledge discovery)하기 위한 분석 과정(analysis step)으로 정의할 수 있다.

[그림1] 데이터 마이닝 프로세스

데이터 마이닝의 일반적인 프로세스를 살펴보면, 해결하고자 하는 과제 및 데이터 마이닝의 목적을 정의하고, 이에 적합한 데이터를 선정한 후, 데이터 마이닝에 적절한 형태로 데이터를 전처리하고, 통계적인 방법을 통해 데이터들을 모델링함으로써, 데이터 내에 잠재된 패턴 및 데이터 간 상관관계를 찾아내어, 이를 목적에 맞게 활용하는 단계로 이루어진다. 예를 들어 설명하면, 최근 개발되고 있는 신기술 개발 트렌드를 알고 싶다면, 해당 기술의 논문 또는 특허 모집단을 선정·수집하고, 컴퓨터가 인식할 수 있는 형태로 논문·특허의 텍스트 데이터를 정비하여 출현 빈도가 높은 기술 용어, 빈도는 낮지만, 특징적인 기술 용어 및 함께 등장하는 기술 용어들을 추출함으로써, 기술 트렌드를 유추하는 과정을 거치게 되는 것이다.

데이터에서 통계적 규칙·패턴을 찾아내는 과정, 즉 데이터 모델링(Data Modeling)은 데이터 요약(Summarizing data)특징 추출(Feature extraction)의 크게 2가지로 구분될 수 있다.

데이터 요약(Summarizing data)은 대푯값으로 데이터를 요약하는 것과 유사한 데이터끼리 그룹을 지어 나타내는 클러스터링(clustering)으로 구분된다. 대푯값을 이용한 데이터 요약의 두 가지 사례를 [그림 2]에 나타내었다. [그림 2](a)는 대푯값을 이용한 데이터 요약의 가장 기본적인 형태로, 데이터의 평균 및 표준편차를 이용하여 데이터의 분포를 나타내는 것이다. [그림 2](b) 클러스터링의 사례를 나타낸 것으로, 클러스터란 비슷한 특성을 갖는 데이터 집단을 의미한다. 클러스터링에 의한 데이터 대표하는 각 클러스터를 대표하는 중심값(centroid of cluster)과 클러스터 내의 개별 데이터로부터 중심값 간의 평균 거리로 데이터 분포를 나타내는 방법이다.

[그림2] Summarization of Data

특징 추출(Feature extraction)이란 주어진 데이터 세트에서 식별 가능한 본질적인 정보, 즉 특징(feature)을 추출하여, 보다 간결하게 데이터·패턴을 표현하는 과정을 의미한다. 기계 학습(machine learning), 패턴 인식(pattern recognition) 및 이미지 처리(image processing) 분야에서 대량의 입력 데이터(예를 들어 이미지의 픽셀)로부터 반복적이고 무의미한 데이터들을 제거하여, 이후의 기계학습 등의 작업을 차원 감소(dimension reduction)된 데이터만을 활용하여 수행하도록 하는 과정이라 할 수 있다.

[그림3] 특징 추출(Feature Extraction) 사례

[텍스트 마이닝이란?]

텍스트 마이닝은 입력 데이터가 문서 또는 웹 등에 나타나는 텍스트로, 인간이 사용하는 자연어를 처리(natural language processing)하여 정보를 추출하는 과정을 의미한다.

텍스트 마이닝의 첫 번째 과정은 분석 대상 데이터, 즉 텍스트 데이터를 수집하여 모집단을 구축하는 것인데, 논문, 특허, 웹 뉴스 등 대량의 텍스트 문서들을 모아놓은 집합을 corpus라고 명명한다. 개별 문서들을 구성하는 최하의 텍스트 단위는 단어(word, token)이며, 두 개의 연속된 단어를 이중자(bigram)라 한다. 이중자 중에서 일반적으로 쓰는 연속된 단어(예를 들어 ‘the wine’)가 아닌 이중자, 예를 들어 ‘red wine’과 같이 특정한 의미를 가진 이중자는 연어(collocation)라 명명한다. 이중자는 단순히 연속해서 존재하는 두 단어를 의미하는 반면, 연어는 문맥적인 의미(context)를 가진다는 점에서 차이를 갖는다. [그림 4]에 corpus, word/token, bigram 및 collocation의 사례를 나타내었다.

[그림4] 텍스트 마이닝 관련 기본 용어

텍스트 마이닝을 통해 정보를 얻을 수 있는 가장 기본적인 단위는 단어(word, token)이고, 텍스트를 구성하는 단어들 중에서도 의미가 있는 단어, 즉 해당 문서의 주제(theme, topic)를 나타내는 단어를 키워드(keyword)라 할 수 있다. 텍스트 마이닝의 가장 기초적인 형태는 텍스트 문서로부터 키워드를 뽑아 그 문서 또는 문서의 집합이 나타내는 주제를 유추해 보는 것이다. 이러한 키워드를 뽑기 위한 텍스트 마이닝의 첫 단계는 텍스트 문서를 단어 단위로 쪼개어 어떤 단어들이 문서에 포함되어 있는지를 살펴보는 것이라 할 수 있는데, 텍스트 문서의 모든 문장을 개별 단어 단위로 쪼개는 과정을 토큰화(tokenize)라고 부른다.

문서의 모든 문장을 토큰화하여 단어들을 모았다고 가정하자. 그렇다면 문서의 주제를 나타내는 단어는 어떻게 찾을 수 있을까? 가장 쉽게 생각할 수 있는 것이, 토큰화를 통해 단어들을 모은 후, 각 단어들의 출현 빈도를 계산하여 문서에 여러 번 등장하는 단어를 살펴보는 것이다. 그렇다면 출현 빈도가 높은 단어들이 항상 중요한 단어, 즉 키워드라 할 수 있을까? 실제로는 예상과 정반대로, 출현 빈도가 높은 단어들은 의미가 없는 단어들, 예를 들어, 조사, 관사/정관사 등 문장을 구성하기 위해 항상 쓰이는 단어들이 빈도가 높게 나타난다. [그림 5]에 미국 특허의 초록(abstract)을 토큰화하여 단어들의 출현 빈도를 계산한 결과를 나타내었다. [그림 5]에서 알 수 있듯이 가장 출현 빈도가 높은 단어는 정관사 ‘the’로, 해당 특허의 주제와는 무관한 단어임을 알 수 있다.

[그림5] 토큰화 및 개별 단어의 출현빈도 측정 사례

위의 사례로부터 단순히 출현 빈도가 높은 단어들을 찾아내는 것은 텍스트 문서의 주제어, 즉 키워드를 찾고자 하는 목적에는 적절하지 않음을 알 수 있다. 출현 빈도에 근거하여 주제를 나타낼 가능성이 있는 단어를 추려내는 방법으로, TF-IDF라는 통계적 수치가 가장 일반적으로 사용되고 있다. TF-IDF란 ‘Term Frerquency-Inverse Document Frequency’의 줄임말로, 여러 문서로 이루어진 문서 군에서 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을 수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 기술 분석의 개념 낱말들이 높은 가중치를 얻게 된다. 문서군내의 단어 들별로 TF-IDF 값을 비교했을 때, 높은 TF-IDF값을 갖는 단어들이 문서의 주제를 나타낼 가능성이 높은 것으로 판단할 수 있다. [그림 6]에 TF-IDF의 개념을 도식적으로 나타내었다.

[그림6] TF-IDF의 개념

대량의 문서로 구성된 문서군을 텍스트 마이닝을 통해 의미를 추출하는 방법에는 위에서 기술한 키워드 추출 외에도 의미를 갖는 두 개의 연속 단어(이중자), 즉 collocation을 추출하여 의미를 유추하는 방법도 적용이 가능하다. Collocation은 이중자 중에서, 일정 빈도 이상으로 함께 쓰이는 단어의 조합으로, 텍스트의 의미(context)를 나타낼 가능성이 높은 두 단어의 조합을 의미한다. 따라서 collocation 분석을 통해 개별 단어의 tf-idf 값에 기반한 키워드 분석만으로는 유추하기 어려운 문맥적 의미를 유추할 수 있다.

단어나 이중자 분석에서 한 걸음 더 나아가 대량의 문서에 존재하는 주제를 예측하는 방법도 지속적으로 연구 및 활용되고 있는데, 그 중 대표적인 것이 토픽 모델링(Topic Modeling)이다. 토픽 모델링이란, 수집된 문서에 대해 각 문서에 어떤 주제들이 존재하는지를 찾아내는 기계학습(machine learning)의 한 종류로, 자주 함께 나타나는 단어들을 클러스터링 함으로써, 잠재된 주제(topic)를 유추하는 것이라 할 수 있다. 토픽 모델링에 있어서 가장 기본적인 가정(assumption)은 ‘Bag-of-Word’ model 개념으로, 텍스트 문서는 단어의 뭉치(bag)로, 문법이나 단어의 순서는 토픽과는 무관하다는 개념이다. 예를 들어, ‘I like to watch movies.’라는 문장을 단어 단위로 쪼개면 (I, like, to, watch, movies)가 되는데, 개별 단어의 순서가 바뀐 (like, movies, I, watch, to)도 같은 단어의 뭉치라는 것이다.

문서군의 토픽을 유추하는 통계적 방법에는 LSI(Latent Semantic Indexing), pLSA(Probabilistic Latent Semantic Analysis), LDA(Latent Dirichlet Allocation)이 있는데, LSI와 pLSA의 단점을 보완한 LDA 기법이 가장 많이 사용되고 있다.

LDA 기법은 문서를 여러 개의 토픽의 뭉치(mixture of topics)로, 각 토픽은 개별 단어들의 확률적 뭉치/분포(probabilistic distribution of words)로 간주한다. 토픽 모델링을 개념적으로 나타내면 [그림 7]과 같이 나타낼 수 있다. [그림 7]에 블랙박스로 나타낸 부분이 문서를 처리하는 통계 모형·알고리즘을 의미하는 것이고, 가장 많이 활용되는 LDA에 해당하는 부분이다.

[그림7] 토픽 모델링(Topic Modeling)의 개념

LDA를 이용한 토픽 모델링의 5단계 주요 과정을 [그림 8]에 나타내었다. 분석 대상인 텍스트 문서들을 개별 단어 단위로 쪼개고(tokenization), 일반어(stopwords)를 제거하는 전처리 과정(pre-processing)을 거친 후, 단어들의 집합(bag-of-words)을 구성하여 LDA를 적용하여 유사한 단어들을 주제로 클러스터링한다.

[그림8] 토픽 모델링(Topic Modeling)의 과정

LDA는 개별 단어들을 토픽별로 무작위 할당하고, 특정 문서가 해당 토픽을 포함할 확률 및 특정 단어가 특정 토픽에 해당할 확률을 계산하고, 단어를 재샘플링하여 상기 확률을 계산하는 과정을 반복(iteration)하는 알고리즘이다. LDA에 의한 토픽 모델링의 결과가 얻어지면, 분석자가 토픽 또는 단어를 무작위로 섞어서 평가하는 Human-in-the-loop 방법과 cosine similarity를 측정하는 방법을 이용하여 평가(evaluation)하고, 클러스터링된 토픽의 정확도가 낮다고 판단되면, iteration 횟수, 토픽의 개수 등 변수를 바꾸어서 다시 모델링을 수행한다.

텍스트 마이닝을 활용한 특허 분석 사례 연구 및 기술 동향 예측

신기술에 대한 수요(needs) 또는 관심은 최신 논문 및 특허에 고스란히 반영되어 있으며, 논문 및 특허를 분석함으로써 신기술 개발 방향 및 주요 이슈 등을 기술 분석의 개념 예측할 수 있다. 본 사례연구에서는 미래형 주방(Smart kitchen)에 대한 소비자들의 수요가 어떻게 진화하고 있는지, 그리고 이에 대응하기 위해 어떤 기술이 연구개발되고 있는지 살펴보기 위해, 주방(kitchen)과 관련된 특허들을 대상으로 텍스트 마이닝을 적용, 유의미한 키워드 및 키워드 진화(temporal evolution), 미래형 기술 분석의 개념 주방과 관련이 있는 것으로 보이는 단어들의 문맥적 의미를 분석하였다.

[키워드 분석을 통한 트렌드 예측]

[그림 9]에 미래형 주방에 대한 특허를 대상으로 한 키워드 분석 절차를 나타내었다. 텍스트 마이닝은 1990년부터 2016년까지 26년간 출원·등록된 미국 및 유럽 특허 2,000건의 초록(abstract)을 대상으로 수행하였다.

[그림9] 특허 대상 텍스트 마이닝 및 키워드 도출 절차

[그림 9]에 나타낸 절차 중, 4번째 단계는 본 사례 연구에서 특별히 추가된 단계로, 분석 대상인 특허에서 관용적으로 사용되는 일반적인 표현들을 제거하기 위한 단계이다. 특허 초록에는 invention, method, provide 등의 단어들이 가장 일반적으로 많이 사용되기 때문에, [그림 9]의 3단계에서 얻어진 단어 빈도수를 검토하여, 상기 관용어들을 따로 분류하여 제거함으로써 분석주제인 미래형 주방과 관련된 기술 용어, 수요에 관련된 단어들만 추출하고자 하였다.

[그림 10]에 도출된 키워드의 빈도수 분포 및 1990년 이후 시기별 키워드의 빈도수 변화를 워드 클라우드로 나타내었다. 워드 클라우드 상의 단어의 크기 차이는 빈도수를 의미하는 것으로, 굵고 크게 표현된 단어가 출현 빈도가 높은 단어를 의미하는 것이다.

[그림10] 키워드 빈도수 분포 및 시대별 키워드 진화

[그림 10]에 나타낸 키워드 빈도수를 살펴보면, “intelligent”라는 단어가 특허 상에 가장 많이 사용되고 있음을 알 수 있고, sensor, refrigerator, monitoring, safety 등의 단어가 다수 출현하고 있음을 알 수 있다. 또한 wireless, communication, network, mobile, alarm, smart, rfid, security 등의 단어들도 자주 나타나고 있는데, 이러한 단어들의 공통점을 생각해보면, 대부분 IT 기술을 활용한 모니터링, 센싱, 통신 등의 개념이라 할 수 있다. 즉, 주방과 관련하여 일반적으로 생각할 수 있는 food, cooking 등의 단어보다 상기 단어들의 빈도수가 높다는 사실은 IT 기술과 접목된 형태의 진보된 주방에 대한 관심이 높게 나타나고 있음을 반영하는 것이라 예측할 수 있다. 1990년 이후 시대별 키워드 진화를 살펴보면, 이러한 특징은 더욱 두드러지게 나타난다. 1990년대에 출원된 특허에 가장 많이 등장한 단어는 food, nutritional, dietary 등 음식, 영양과 관련된 용어인데 비해, 2000년 이후 출원된 특허 상에는 sensor, detection이라는 단어가 가장 높은 빈도로 등장하고, 2010년 이후에는 intelligent, refrigerator 및 sensor가 가장 많이 등장함을 알 수 있다. 또한, 2000년 이후 wireless, communication, mobile과 같은 IT 기술과 관련된 단어들이 등장하고 있음을 알 수 있다. 이러한 결과로부터, 기존의 전통적인 주방에 IT 기술과 융합되어 통신, 모니터링 등이 가능한 진보된 주방에 대한 기술적 관심, 즉 기술개발이 증가되고 있음을 예측할 수 있다.

[Context 분석을 통한 기술 동향 분석]

개별 키워드 분석으로도 신기술 동향을 예측할 수 있지만, 개별 키워드들이 어떤 문맥에서, 어떤 다른 단어들과 함께 나타나는지를 분석함으로써, 좀 더 명확한 예측이 가능할 수 있다. 예를 들어, 키워드 분석 결과에서 가장 높은 빈도로 나타난 ‘intelligent’와 같은 단어들은 어떤 문맥에서 사용되었는지를 분석하면, 어떤 개념, 어떤 기술이 개발되고 있는지 유추할 수 있을 것이다. 이러한 문맥 분석의 방법의 하나로, 함께 등장하는 단어(collocation)를 분석한 결과를 [그림 11]에 나타내었다.

[그림11] Collocation 분석 결과

먼저, 가장 빈도수가 높은 키워드 ‘intelligent’가 어떤 의미로 쓰였는지를 [그림 11]의 결과로부터 확인할 수 있는데, intelligent refrigerator, intelligent home과 같이 지능화된 냉장고 및 집에 대한 관심을 반영하고 있음을 알 수 있다. 시대별로 살펴보면, 1990년대에는 food menu, smoke alarm 등의 collocation이 주로 나타난 반면, 2000년 이후 intelligent refrigerator, safety module, sensor array, remote sensor 등 IT 기술과의 융합을 의미하는 collocation이 등장하고 있음을 뚜렷하게 알 수 있다. 또한 2010년 이후에는 Internet of Things(IoT), intelligent home, wireless communication 등이 등장하는 것으로부터 주방 및 집에 internet, 통신 기술들이 융합되어 보다 편리하고 스마트한 형태로 발전되어 가고 있음을 나타내고 있다. 실제로 2016년 상반기, 삼성전자는 IoT 기능을 적용, 요리와 식재료 주문 및 보관기간 관리까지 가능한 스마트 냉장고를 출시했는데, 이는 특허에서 나타나는 키워드 및 문맥 분석이 기술 개발 흐름/방향을 예측할 수 있음을 나타내는 대표적인 사례라고 할 수 있을 것이다.

함께 나타나는 두 단어, 즉 collocation을 추출하여 분석함으로써, 개발하고자 하는 관심 기술 및 개발 방향에 대한 좀 더 명확한 예측이 가능함을 상기 사례로부터 확인할 수 있는데, collocation에 국한하지 않고, 관심 대상인 특정 키워드를 포함하는 문장을 추출하여 해당 단어의 전후 문맥적인 의미를 살펴보는 방법을 활용할 수도 있다. 가장 출현 빈도가 높은 키워드 ‘intelligent’를 포함하는 문장을 추출한 결과를 [그림 12]에 나타내었다. 높은 빈도로 동시 출현한 ‘intelligent refrigerator’ 이외에도, intelligent appliances, intelligent sensor system, intelligent thermostat, intelligent food receptacles, intelligent food safety management card, intelligent bio-preservation system, intelligent temperature sensing spoon 등 다양한 주방 기기/용품들에 대한 지능화, 스마트화에 대한 기술 개발이 이루어지고 있음을 확인할 수 있다.

[그림12] 특정 키워드를 포함하는 문장의 문맥 분석

본 고에서는 텍스트 마이닝에 대한 간략한 소개와 더불어 텍스트 마이닝 기반의 특허 분석을 통해 신기술에 대한 수요·관심(needs) 및 기술 개발 방향을 예측하는 방법에 대해 살펴보았다. 텍스트 마이닝을 활용하여 대량의 문서 데이터를 분석함으로써, 분석자의 주관적인 의견을 배제한 객관적 정보를 빠른 시간 안에 효율적으로 추출해 낼 수 있다. 대량의 논문, 특허 등의 텍스트 문서로부터 유의미한 키워드들을 추출하고, 이를 기반으로 문맥 분석 및 동시 출현 단어를 분석하여 시장에서 수요가 높은 기술을 예측하거나, 실제 기술이 개발되는 동향, 진화 기술 분석의 개념 방향을 예측하는데 효과적인 방법으로, 연구 단계 초기의 거시적 트렌드 예측 또는 두 가지 이상의 기술이 융합된 융합 분야의 기술을 예측하는데 유용하게 활용될 수 있을 것이라 판단된다. 또한, 기계학습 방법을 도입하여, 대량의 텍스트에 잠재되어 있는 주제(topic)들을 추출·유추하거나 문서간의 유사도(similarity)를 기반으로 대량의 문서를 주제별로 분류(classification)하는 시스템에도 확장 응용이 가능한 방법으로, 향후 기술 예측이나 기술 기획, 소비자 수요 파악 등으로 그 활용범위가 크게 확장될 것으로 기대된다.

한국특허전략개발원 "KISTA 웹진"은 반기별 발행되는 온라인 소식지 입니다.

Copyright(c) Korea Intellectual Property Strategy Agency, All right reserved.


0 개 댓글

답장을 남겨주세요