매일매일 IT
[NodeJS] Wikipedia Title DataBase 본문
- Wikipedia는 콘텐츠를 자유롭게 다운로드할 수 있도록 데이터 공개하고 있기 때문에 사이트 자체에 대한 크롤링은 금지되어 있당.
- https://dumps.wikimedia.org/kowiki/latest/
- https://ko.wikipedia.org/wiki/위키백과:데이터베이스_다운로드
타이틀 목록 취득
- 위키피디아 항목의 타이틀만 따로 모은 파일이 'all-titles-in-ns0.gz' 이름으로 제공되고 있음.
- G확장자(.gz)로 되어 있어 GZIP 형식으로 압축되어 있다.
- 난 Mac이니까
- $ gunzip kowiki-latest-all-titles-in-ns0.gz
위키피디아 타이틀 데이터베이스 만들기 !
- 타이틀 목록 데이터를 다운로드
- GZip 파일 압축 해제
- 데이터베이스에 삽입
'Programming Language > JavaScript' 카테고리의 다른 글
[NodeJS] 작업 디렉토리에 있는 GZ 파일을 전부 압축 해제하기 (0) | 2017.08.02 |
---|---|
[NodeJS] Google Charts 이용하여 꺾은선 그래프 그리기 (0) | 2017.08.01 |
[NodeJS] 환율 및 주식 정보 수집 (0) | 2017.07.31 |
[NodeJS] mecab-ko 특정 품사의 단어들을 추출 (0) | 2017.07.29 |
[NodeJS] Node.js에서 모듈 작성하기 (0) | 2017.07.26 |
Comments