빅 데이터(big data)
빅 데이터란, 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.
빅 데이터의 정의
빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의
수용 한계를 넘어서는 크그의 데이터를 말한다.
빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수집 테라바이트에서
수 테라바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.
빅 데이터의 중요성
빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게
가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
빅 데이터의 전망
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는
빅 데이터는 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고
개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며
과거에는 불가능했던 기술을 실현시킨다.
빅 데이터의 문제점
빅 데이터의 문제점을 바로 사생활 침해화 보안 측면에 자리하고 있다.
빅 디에터는 수 많은 개인들의 수많은 정보의 집합이다.
그렇기에 빅 데이터를 수집, 분석할 때에 개인들의 사적인 정보까지 수집하여
관리하는 빅 브라더의 모습이 될 수도 있는 것이다.
그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들이
정보가 유출되는 것이기에 큰 문제가 될 수 있다.
빅 브라더란 무엇인가?
두문자가 소문자로 표기된 big brother은 물론 형이나 오빠를 의미하지만,
대문자로 된 Big Brother에는 크게 두 가지 뜻이 있습니다.
그 하나는 미국의 BBS운동에서 나온 Big Brother입니다.
BBS운동이란, Big Brothers and Sisters Movement를 자칭하는 것으로서
결손가정의 아이들이 비뚤어지지 않도록 자원봉사자 젊은이들이 이런 아이들의
Big Brother 혹은 Big Sister가 되어주는 것입니다.
또 다른 Big Brother은 '독재자'의 의미를 갖고 있습니다.
이 때에는 주로 전체주의 국가의 절대적인 권력을 대표하는 독재자나 혹은
정치지도층 그 자체를 가리키며, 이러한 Big Brother의 의미는
George or well소설 '1984'에서 유래했다고 합니다.
소설 속에 등장하는 빅 브라더는 텔레스크린을 통해 사회를 끊임없이 감시하며
실로 가공할 만한 사생활 침해를 보여주었습니다.
빅 데이터 분석 기법
빅 데이터의 분석, 활용을 위한 빅 데이터 처리 기법을 크게 분석 기술과
표현 기술로 나눈다.
분석 기술
대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던
데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식등이 해당된다.
데이터 마이닝(data mining)이란 무엇인가?
대규모로 저장된 데이터 안에서 체계적으로 자동적으로 통계적이나 규칙이나
패턴을 찾아내는 것.
기계 학습이란 무엇인가?
머신 러닝(machine learning)이라고도 하며, 인공 지능의 한 분야로 컴퓨터가
학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.
예를 들어, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있다.
자연 언어 처리란 무엇인가?
자연어 처리라고도 하며, 인간의 발화(소리를 내어 말을 하는 현실적이 언어 행위)
하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는
자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는
제반 기술을 뜻한다.
특히 최근 소셜 미디어 등 비정형 데이터의 증가로 인해 분석 기법들 중에서
텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집분석 등이 주목 받고 있다.
텍스트 마이닝이란 무엇인가?
비정형 데이터에 대하여 자연어 처리 기술과 문서처리 기술을 적용하여
유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
오피니언 마이닝이란 무엇인가?
선거 캠페인과 관련해 사회네트워크 혹은 커뮤니티, 블로그, 트위터,
기타 온라인 사이트 등에 올라오는 대화언어를 분석하느 소프트웨어로
네티즌이 그들에 애해 이야기 하는 댓글이나 포스팅 등을 긍정, 부정, 중립으로
분류하여 더 객관적이고 정확하게 평판을 파악하는 기술이다.
하기의 그림은 오피니언 마이닝을 사용한 사례이다.
군집분석이란 무엇인가?
각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고,
군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을
규명하는 통계분석방법이다.
이러한 대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인
인프라로 '하둡'이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해
'NoSQL'기술이 활용되기도 한다.
하둡이란 무엇인가?
'아파치 하둡'이라고도 하며, 대량의 자료를 처리하는 데 있어서
분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다.
대량의 데이터를 처리할 수 있는 어플리케이션을 쉽게 제작하고 운영하도록 도와줌.
NoSQL이란 무엇인가?
전통적인 관계형 데이터베이스 보다 덜 제한적인 일관성 모델을 이용하는
데이터의 저장 및 검색을 위한 메커니즘을 제공한다.
NoSQL 데이터베이스는 단순 검색 및 추가 작업을 위한 매우 최적화된
키 값 저장 공간이다.
표현 기술
빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로
표현하기 위한 기술로 대표적인 것으로는 R(프로그래밍 언어)이 있다.
2015년 12월 27일 일요일
피드 구독하기:
댓글 (Atom)
결혼이민비자 신청방법(F-6-1 국민의 배우자)
제가 일본인 여자친구와 결혼 후, 한국에 귀국하기 위해 신청한 결혼이민비자에 대하여 작성해보도록 하겠습니다. 필자는 일본에서 근무하고 있었으며, 한국에서의 소득은 없었습니다. 결혼이민비자를 신청한 날짜는 2021-04-21 이며, 사증이 발급된 날짜...
-
MySQL 8.0.21 소스를 컴파일 하여 설치하는 방법에 대해 알아보자. 설치 환경 CentOS 7.6(64 bit) 선행 작업 1. 유저 및 그룹 생성 # 그룹 생성 groupadd mysql # 유저 생성 # options means # -M:...
-
리눅스에서 외부로부터 접속(접근)을 차단해보자. 방법은 두 가지가 있다. 1. route 2. iptables route란, 간단하게 말하면 "구글"에 들어갈 때 경로를 정해주는 역할이라고 정의할 수 있다....
-
MySQL을 이중화 하는 대표적인 MMM과 MHA 차이에 대해서 알아보도록 하자. 가장 큰 차이점은 MMM(Multi-Master Replication Manager For MySQL)는 데이터 정합성이 보장되지 않을 수 있고, MHA(MHA fo...
댓글 없음:
댓글 쓰기