안녕하세요. 저희는 현직 데이터분석가와 통계학, 컴퓨터공학, 경제학을 전공하는 학부생으로 구성된 팀입니다.

여러 증권성 자산에 대해 관심을 갖고있던 차에 뮤직카우 서비스를 접하게 되었고, 지난 수개월 간 뮤직카우 데이터분석 프로젝트를 진행하여 자체 분석 엔진(MINT)을 구축했습니다.

뮤직카우에 투자하시는 많은 분들께서 정보의 부재로 겪는 어려움을 조금이나마 해소하고자 프로젝트 기간 중 분석했던 일부 내용을 위주로 투자에 도움이 되실만한 정보를 공개하기로 결정했습니다. 많은 이용부탁드립니다.


문의사항 jaealways56@gmail.com



팀원 소개

이윤수

분석엔진: 여러 데이터 가공 및 분석

웹서비스: 웹 페이지 개발


"안녕하세요. 데이터 가공 분석 및 웹 개발에 기여한 조원 이윤수입니다."

"데이터의 특성을 파악하기 위한 군집화 및 시계열 분석, 머신러닝을 기획하고 결과를 시각화하여 인사이트를 찾는데 기여했습니다. 데이터의 특성을 발견하기 위해 어떠한 형태로 데이터가 가공되어야하는지를 고민하고, 가공된 데이터에 통계 기법을 적용하여 데이터 패턴을 찾아낼 수 있었습니다."

"또한 팀원들이 적재해준 데이터, 그로부터 지표화를 통해 추출된 결과등을 서비스 형태로 제공하기위해 flask를 통한 웹 사이트 구축을 시도하였습니다."

"저희 팀이 만든 결과물이 음원 저작권 거래 고객들에게 도움이 될 수 있길 바랍니다."

이재형

분석엔진: 금융데이터 분석 및 지표 제작, 뉴스기사 토픽모델링, 분석부분 엔진 구축

웹서비스: 웹 페이지 시각화 개발


"안녕하세요. 금융 데이터분석을 위주로 맡은 이재형입니다. 투자시장에 적용되는 새로운 통찰을 발견하고 이를 지표화하는데 관심이 있습니다."

"음악저작권 시장이 아무래도 신규시장이다보니 의미있는 지표를 구축하는데 상당히 많은 시행착오를 겪었습니다. 여러 고민 끝에 단순하지만 가장 강력하게 금융자산의 본질을 설명해주는 PER, 베타계수 등의 지표를 중심으로 분석을 진행하기로 했습니다. 프로젝트를 진행하며 가장 중요하게 생각한 부분은 음악저작권 시장이 주식시장처럼 여러 설명가능한 개념들에 기반해야 안정적이고 지속가능한 시장이 될 수 있겠다는 점이었습니다."

"이와 더불어 음악저작권 시장 자체의 특성을 잘 반영한 지표도 필요함을 느꼈습니다. 가령, 가상자산 시장에서 사용하는 지표 중 두나무에서 만든 공포탐욕지수를 유동성이 극히 부족한 음악저작권 시장에 맞게 변형했고, 이를 통해 시장의 과열에 경고하는 역할을 하고자 했습니다. 또한 아티스트 관련 기사 자연어처리를 통해 음악시장에 작동하는 일종의 시장 컨센서스가 있는지 확인하려했고, 토픽모델링을 통해 투자에 도움이 될만한 정보를 축약했습니다. 여러 지표를 시계열로 배열해서 이용자가 한눈에 여러 지표를 비교하는게 좋을거라 생각하여 이와 같이 웹화면을 구성했습니다. 저희가 시행착오를 통해 발견한 사실들을 아래의 정리된 아티클의 형태로 공개하고자 합니다. 많은 분들이 좋은 결과 거두시길 바랍니다."

프로젝트 뮤테크 아티클(추후 공개)     깃허브     링크드인

정예원

분석엔진: 데이터 크롤링 코드 구현


"안녕하세요, 데이터 엔지니어링 파트를 맡은 정예원 입니다. DB에 어떤 식으로 뮤직카우 데이터를 저장하고 수집 할 지를 설계하고 이를 코드로 구현했습니다"

"데이터를 수집할 때, '검색 엔진 사이트에 어떤 검색어 쿼리를 날려서 검색된 데이터를 수집할 것인가?'에 대해 많은 고민을 했습니다. 검색어 쿼리에 따라 검색되어 나오는 데이터가 다르기 때문에 곡과 가수의 가장 대표적인 데이터를 수집할 수 있는 검색어 쿼리를 연구했습니다"

"원하는 데이터를 끌어오기 위해서 데이터 접근 방법을 많은 시간을 들여 연구했습니다. 웹사이트 구조를 분석하고, 이에 따라 크롤링 전략과 정적/동적 크롤링 기법을 적절히 혼용하여 사용하였습니다. 특히 '종가' 와 '거래량' 데이터를 얻어오기 위해서 웹사이트의 html 설계도 전체를 파악하였고, 원하는 데이터만 추출하기 위해 다양한 알고리즘으로 크롤링 코드를 만들었습니다."

"또한 크롤링 할 때마다 수집 해야하는 데이터의 양이 꽤 상당했기 때문에 데이터 수집 시간의 단축을 위해 코드를 어떻게 설계하면 좋을 지에 대해 많이 고민했습니다. 데이터 분석을 하는 모든 협업자들이 같은 시점에서 갱신된 데이터를 똑같이 공유해야 하기 때문에 최대한 적은 시간안에 데이터 수집이 이루어져 디비가 갱신되도록 노력했습니다."

"저희가 얻어올 수 있는 거의 모든 정보를 다 끌어 모아 데이터 분석을 진행하였습니다. 가공된 이미 존재하는 데이터가 아니라, 직접 날 것의 데이터를 추출하는 것 부터 직접 작업하였습니다."

개인블로그