코퍼스 명
|
용도
|
설명
|
링크
|
Naver sentiment movie corpus v1.0
|
분류
|
네이버 영화 리뷰 (긍정, 부정) 분류 라벨링 됨
| |
Chatbot_data
|
분류
|
채팅 대화 (일상,긍정,부정) 분류 라벨링 됨
| |
청와대 국민청원 사이트의 만료된 청원 데이터 모음
|
RAW
|
일자,카테고리,제목,내용 등 만료된 청원 Raw 데이터
| |
Korean NER Corpus
|
NER
|
한국어 NER 용 데이터 (NER, 형태소)
| |
Korean Parallel corpora
|
번역
|
번역용 한국어/영어, 한국어/불어 병렬 데이터
| |
KorQuAD 1.0
|
MRC
|
MRC 용 Wikipedia에 대한 질문 답변 데이터
| |
KorQuAD 2.1
|
MRC
|
MRC 용 Wikipedia에 대한 질문 답변 데이터 (1.0 보다 데이터가 큼)
| |
AI허브 AI데이터
|
다양
|
법률,특허,상식,대화 등 다양한 분야의 학습용 데이터 제공 (데이터 신청 별도 해야함)
| |
국립국어원 언어정보나눔터
|
다양
|
말뭉치, 대화 자료등등 방대한 한국어 데이터 제공 (학습을 위해서는 전처리가 많이 필요함)
|
Thursday, 16 April 2020
한국어 NLP dataset 모음
Subscribe to:
Post Comments (Atom)
Popular Posts
-
Natural-Image Datasets MNIST: handwritten digits : The most commonly used sanity check. Dataset of 25x25, centered, B&W handwritten d...
No comments:
Post a Comment