Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

wos-v1/ontology와 관련한 지하철 역명 표기 문제 #10

Open
taepd opened this issue Jun 12, 2021 · 1 comment
Open

wos-v1/ontology와 관련한 지하철 역명 표기 문제 #10

taepd opened this issue Jun 12, 2021 · 1 comment

Comments

@taepd
Copy link

taepd commented Jun 12, 2021

안녕하세요. 자연어, 그리고 DST에 관심이 많은 태영돈이라고 합니다. 🙂

wos-v1/ontology와 관련하여 찾게된 지하철 역명 표기 문제에 대해 말씀드리고자 합니다.

WoS 데이터셋의 경우, 관광지 이름이나, 지하철역명 등은 실제 이름 그대로 사용하고, 숙소/식당 이름 등은 가상의 이름을 사용한 것으로 알고 있습니다.

이를 바탕으로 wos-v1/ontology를 EDA 해본 바로 다음 두 가지 문제가 있다고 생각합니다.

1. 오기재된 지하철역명

  • 택시-출발지/도착지 : 동대문사문화공원역
    • 동대문역사문화공원역 이 공식명칭이고 해당 value가 존재합니다.
  • 택시-출발지/도착지 : 신도역
    • 서울에 신도역은 존재하지 않고, 충청권에 폐역된 신도역이라 하기엔 대화 맥락에서 많이 벗어납니다.
    • 신도림역의 오기재라고 생각합니다.

2. 다중 표기의 문제

이는 WoS의 데이터셋 구축에서 '지하철역명은 정식명칭을 기준으로 한다' 는 원칙이 있다는 가정 하에 발생하는 문제입니다.

  • 2.1 실제 명칭과 다른 경우

    • 택시-출발지/도착지 : 홍익대학교역

      • 홍대입구역이 정식명칭이며, 해당 value는 택시, 지하철 도메인에 모두 포함되어 있습니다.
      • dialogue에서 사례가 매우 풍부하게 존재합니다.
    • 택시-출발지/도착지 : 예술의전당역

      • 정식명칭은 남부터미널역입니다. 해당 value는 ontology에 존재하지 않습니다.
      • 남부터미널(예술의전당)역으로 오래 유지되었지만 현재는 남부터미널역으로 간소화 된 것 같습니다.
  • 2.2 다중 표기로 혼용되어 사용되는 경우

    • 지하철/출발지/도착지 : 수유역

      • 이 경우 수유(강북구청)역 이 정식명칭에 해당하지만 수유역 이라는 value가 지하철-출발지/도착지 , 택시-출발지/도착지 에 포함되어 있습니다.
      • 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.
    • 택시-출발지/도착지 : 삼성동중앙역

      • 삼성중앙역이 정식명칭이고, 역시 해당 value가 지하철/택시-출발지/도착지 에 포함되어 있습니다.
      • 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.

1. 오기재된 지하철역명 의 경우엔 수정되는게 맞다고 생각합니다.
2. 다중 표기의 문제 는 어떤 식으로 대응하는게 좋을지 개인적으론 판단이 명확히 서지 않습니다. DST WoS데이터셋을 구축할 때 해당 이슈를 어떤 기준으로 처리하셨을지 궁금합니다. 👀

  • 위 내용 중 오류인 것을 확인해주시면 관련해서 후속적으로 PR 하도록 하겠습니다. 🤗
@DSKSD
Copy link
Collaborator

DSKSD commented Jun 17, 2021

안녕하세요! 답변이 늦었네요.
리포트 감사드립니다.

지하철역 관련하여 말씀해주신 이슈를 예전에 한번 정제를 했었는데, 조금 남아있었나보군요.
다음 버전업을 진행하게 된다면 해당 이슈를 리졸브해보도록 하겠습니다.

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants