코퍼스 명
|
용도
|
설명
|
링크
|
Naver sentiment movie corpus v1.0
|
분류
|
네이버 영화 리뷰 (긍정, 부정) 분류 라벨링 됨
| |
Chatbot_data
|
분류
|
채팅 대화 (일상,긍정,부정) 분류 라벨링 됨
| |
청와대 국민청원 사이트의 만료된 청원 데이터 모음
|
RAW
|
일자,카테고리,제목,내용 등 만료된 청원 Raw 데이터
| |
Korean NER Corpus
|
NER
|
한국어 NER 용 데이터 (NER, 형태소)
| |
Korean Parallel corpora
|
번역
|
번역용 한국어/영어, 한국어/불어 병렬 데이터
| |
KorQuAD 1.0
|
MRC
|
MRC 용 Wikipedia에 대한 질문 답변 데이터
| |
KorQuAD 2.1
|
MRC
|
MRC 용 Wikipedia에 대한 질문 답변 데이터 (1.0 보다 데이터가 큼)
| |
AI허브 AI데이터
|
다양
|
법률,특허,상식,대화 등 다양한 분야의 학습용 데이터 제공 (데이터 신청 별도 해야함)
| |
국립국어원 언어정보나눔터
|
다양
|
말뭉치, 대화 자료등등 방대한 한국어 데이터 제공 (학습을 위해서는 전처리가 많이 필요함)
|
Thursday 16 April 2020
한국어 NLP dataset 모음
Subscribe to:
Post Comments (Atom)
Popular Posts
-
image segmentation dataset github : https://github.com/divamgupta/image-segmentation-keras google drive : https://drive.google.com/uc...
-
**Paper:** https://arxiv.org/abs/1908.08345 **Dataset:** 1) the CNN/DailyMail news highlights dataset: somewhat Extractive - News Articles...
-
github: https://github.com/layumi/University1652-Baseline
-
Dataset Domain License Reference Availablility CONLL 2003 News DUA Sang and Meulder, 2003 Easy to find NIST-IEER...
-
Best interesting data is football network refer to this page: http://www-personal.umich.edu/~mejn/netdata/
-
https://www.biomotionlab.ca/movi/
-
Recent Additions The UZH-FPV Drone Racing Dataset: High-speed, Aggressive 6DoF Trajectories for State Estimation and Drone Racing Hotels...
-
Data size is 100GB. Torrent files Link : https://bit.ly/2z8Rryd
-
The goal: Given a sequence of click events performed by some user during a typical session in an e-commerce website, the goal is to predict...
-
This data set was created to understand the potential for machine learning, computer vision, and HPC to improve the energy efficiency aspec...
No comments:
Post a Comment