본문 바로가기

빅데이터3

빅데이터란? 빅데이터란? 양(volume)이 매우 많고, 증가 속도(velocity)가 빠르며, 종류(variety)가 매우 다양한 데이터를 말합니다. 이것을 3V라고도 합니다. 빅데이터의 3대 요소(3V) 양(volume) 데이터의 양이 중요합니다. 빅 데이터를 사용하면 저밀도 비정형 데이터를 대량으로 처리해야 합니다. Twitter 데이터 피드, 웹 페이지나 모바일 앱의 클릭 스트림, 센서 지원 장비와 같이 알려지지 않은 값의 데이터가 여기에 해당될 수 있습니다. 일부 조직의 경우, 데이터 양이 수십 테라바이트가 될 수 있습니다. 아니면 수백 페타바이트가 될 수 있습니다. 속도(velocity) 속도는 데이터가 얼마나 빨리 수신 및 처리되는가를 나타냅니다. 일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직.. 2022. 6. 16.
기존 데이터와 빅데이터를 처리하는 방법의 차이점 Q . 기존 데이터와 빅데이터를 처리하는 방법의 차이점을 자세히 설명하세요. 크기 기존 데이터 세트는 일반적으로 기가바이트와 테라바이트 단위로 측정됩니다. 따라서, 서버 한 대에도 중앙 집중식 스토리지를 사용할 수 있습니다. 빅데이터는 크기뿐만 아니라 볼륨으로도 구분됩니다. 빅데이터는 일반적으로 페타바이트, 제타바이트 또는 엑사바이트 단위로 측정됩니다. 점점 더 커지는 빅데이터 세트의 규모는 현대적인 고용량 클라우드 기반 데이터 스토리지 솔루션에 대한 수요를 뒷받침하는 주요 요소 중 하나입니다. 구성 전통적인 데이터는 일반적으로 레코드, 파일 및 테이블로 구성된 정형 데이터입니다. 기존 데이터 세트의 필드는 관계형이므로 서로의 관계를 파악하고 그에 따라 데이터를 조작할 수 있습니다. SQL, Oracle.. 2022. 1. 4.
텍스트 마이닝 기술의 절차 Q . 텍스트 마이닝 기술의 절차를 설명하세요. 텍스트 마이닝 절차 비정형 텍스트 데이터는 대체로 API 호출, 크롤링 등의 방법에 따라 수집됩니다. API 호출이든 크롤링이든 비정형 텍스트 데이터가 수집이 되었다면, 본격적인 텍스트 마이닝 절차에 들어가게 됩니다. 그중 첫 번째 절차는 수집된 텍스트 데이터의 형태소 분석 혹은 토큰화입니다. 형태소(morpheme)란 의미를 가지는 최소 단위 단어로서 더 이상 두 개 이상의 의미를 가지는 단어로 나눌 수 없는 말 그대로 의미를 가지는 최소 단어 단위입니다. 또한 문서 혹은 문장을 이러한 형태소로 구분하는 과정을 토큰화라고도 합니다. 텍스트 마이닝에서 형태소 분석은 형태소 자체를 분석하는 것이 아니라 텍스트를 형태소로 구분하여 분석하는 것을 뜻합니다. 영어.. 2022. 1. 4.