Paraphrase 25가지 기준
May 2022
개요
- What Is a Paraphrase?, Computational Linguistics (2013) 39 (3): 463–472.
- 기준을 일반화(수식화) 시킬 수 있는지?
- 기준이 한국어에도 통할지?
paraphrase를 measure하는 효과적인 방법?
- semantic textual similarity
- https://www.koreascience.or.kr/article/CFKO201435553773917.pdf
기능어
기능어(functional words)는 전치사, 조사 등의 부류를 의미하는 말입니다.
언어 차이
- 국어는 영어에 비하여 어순의 위치가 자유롭다. 특히 영어에 비해 국어의 동사 위치는 자유로운 편
- 국어에는 관사가 없다. ex) a, an, the 등
- 국어와 영어는 어순이 다르다. 영어는 동사+목적어, 국어는 목적어+서술어
- 국어에는 비교급과 최상급 표현이 없다.
- 국어에는 전치사가 없다.
- 국어는 철자, 띄어쓰기 같은 문법을 엄격하게 지키지 않아도 됨 특히 순서는 거의 의미 없음
사람이 paraphrasing 하는 순서
패러프레이징 (Paraphrasing)을 하는 순서
-
원문을 반복해서 읽고, 그 내용을 완전히 숙지한다
-
원문의 핵심 내용을 문장이 아닌 단어나 어구로 간단히 메모한다.
-
원문을 보지 않은 채 메모를 토대로 내용을 요약해본다.
-
원문과 요약한 내용을 비교한다.
-
원문에 없던 내용이 추가되거나 핵심 논지가 누락되어 원문의 의미가 왜곡되지 않았는지 확인하고, 두 글의 유사성이 최소화되도록 단어와 어구가 서로 겹치지 않게끔 재차 글을 다듬어 써본다.
-
원문의 출처를 명시한다.
paraphrase 종류
1. Synonym substitution
단어/구를 같거나 비슷한 의미의 단어/구로 교체하여 paraphrase 문장을 생성합니다.
접어를 변경하는 것도 포함합니다. 예를 들면 of를 of the 같은 식으로
- Google
bought
YouTube. ⇔ Googleacquired
YouTube. - Chris is
slim
. ⇔ Chris isslender
. ⇔ Chris is skinny. - 구글이 유튜브를
샀다
. ⇔ 구글이 유튜브를인수했다
.
고찰
- 적용: 유의어/동의어 사전을 이용해서 만들 수 있다고 생각합니다.
- 단어 토큰 벡터의 유사도를 사용해 측정 가능
- 단순히 유의어/동의어 사전을 사용하여 overlap을 카운트할 수도 있음
-
한국어 적용 가능[o]
2. Antonym substitution
단어/구를 부정과 함께 반의어로 대체하거나 단어를 부정함으로써 paraphrase 문장을 생성합니다.
적절한 기능어를 추가/삭제를 함으로써 만들 수 있습니다.
- Pat
ate
. ⇔ Patdid not starve
. - A는
먹었다
. ⇔ A는굶지 않았다
.
고찰
- 적용: 반의어 사전과 그에 맞는 적절한 부정화
- 토큰 벡터가 반의어와 부정을 적절히 연산(벡터의 방향을 반전 시킨다던지…)할 수 있다면 측정 가능
- 반의어
-
한국어 적용 가능[o]
3. Converse substitution
단어/구를 반의어로 대체하여 구성 요소 간의 관계를 반전시키면
같은 문장을 반대 관점에서 표현하여 paraphrase 문장을 생성합니다.
적절한 기능어를 추가/삭제 그리고 문장 구조 변경으로 만들 수 있습니다.
- Google
bought
YouTube. ⇔ YouTubewas sold to
Google. - 구글이 유튜브를
샀다
. ⇔ 유튜브는 구글에게팔렸다
.
고찰
- 적용: 반의어 사전과 그에 맞는 적절한 구성 요소 변경
- 반의어와 구성 요소 간의 관계를 반전시킬 접미어?
-
한국어 적용 가능[o]
4. Change of voice
동사를 능동형에서 수동형으로 바꾸거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
적절한 기능어 추가/삭제 그리고 문장 구조 변경으로 만들 수 있습니다.
의미를 강하게 보존하는 paraphrase 문장이 주로 만들어집니다.
- Pat
loves
Chris. ⇔ Chrisis loved by
Pat. - A는 B를
사랑한다
. ⇔ B는 A에게사랑받는다
.
고찰
- 적용: 능동형 ⇔ 수동형
- 적절한 접미어 변경
-
한국어 적용 가능[o]
5. Change of person
참조된 객체의 인칭을 변경하면 문장/구를 paraphrase 할 수 있습니다.
- Pat said, “
I
like football.” ⇔ Pat said thathe
liked football. - A는 말했다, “
나
는 축구가 좋아” ⇔A
는 축구를 좋아한다고 말했다.
고찰
- 참조 문장의 적절한 인칭 변화, co-reference 정보가 필요
-
한국어 적용 가능[o]
6. Pronoun/Co-referent substitution
대명사를 명사로 대체하여 paraphrase 문장을 생성합니다.
- Pat likes Chris, because
she
is smart. ⇔ Pat likes Chris, becauseChris
is smart. - A는 B를 좋아한다 왜냐면, 그녀가 똑똑하기 때문에 ⇔ A는 B를 좋아한다 왜냐면, B가 똑똑하기 때문에
고찰
- 대명사를 명사로 대체함, co-reference 정보가 필요
-
한국어 적용 가능[o]
7. Repetition/Ellipsis
축약 또는 생략으로 paraphrase 문장을 생성합니다.
- Pat can run fast and Chris can
run fast
, too. ⇔ Pat can run fast and Chris can, too. - A도 잘달리고, B 또한
잘 달린다.
⇔ A는 잘 달리고 B 또한그렇다.
고찰
- 영어에서 사용하는 문법적 축약은 한국어에서 사용하기 힘들듯 하다.
- 한국어에서는 두어서 ⇔ 둬서 같은 것도 예시가 될 것 같다.
-
한국어 적용 가능[o]
8. Function word variations
의미에 영향을 미치지 않는 기능어를 변경하면 paraphrase 문장을 생성할 수 있습니다.
- Results
of
the competition have been declared. ⇔ Resultsfor
the competition have been declared. - Pat
showed a nice demo
. ⇔ Pat’sdemo was nice
. - A의
발표는 좋았다
. ⇔ A의발표가 좋았다.
고찰
-
한국어 적용 가능[o]
9. Actor/Action substitution
행동을 하는 사람을 행동으로 바꾸거나 그 반대로 하여 paraphrase 문장을 생성합니다.
적절한 기능어 추가/삭제가 따라올 수 있습니다.
- I dislike rash
drivers
. ⇔ I dislike rashdriving
. - 나는 성질 급한
운전자
들이 싫다. ⇔ 나는 성질 급하게운전하는 것
이 싫다.
고찰
- 명사를 동사로 대체
-
한국어 적용 가능[o]
10. Verb/“Semantic-role noun” substitution
행동의 주체나 행동을 받는 사람에 해당하는 명사로 동사를 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
적절한 기능어 추가/삭제 및 문장 재구성이 따라올 수 있습니다.
- Pat
teaches
Chris. ⇔ Pat is Chris’steacher
. - Pat
teaches
Chris. ⇔ Chris is Pat’sstudent
. - Pat
tiled
his bathroom floor. ⇔ Patinstalled tiles
on his bathroom floor. - A는 B를
교육시킨다
. ⇔ A는 B의교육자다
.
고찰
- 동사를 명사화
-
한국어 적용 가능[o]
11. Manipulator/Device substitution
장치를 사용하는 사람을 나타내는 단어를 장치 이름으로 바꾸거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- The
pilot
took off despite the stormy weather. ⇔ Theplane
took off despite the stormy weather. 조종사
는 폭풍우 치는 날씨에도 불구하고 이륙했다. ⇔비행기
는 폭풍우 치는 날씨에도 불구하고 이륙했다.
고찰
- 사람과 장치의 관계
-
한국어 적용 가능[o]
12. General/Specific substitution
적절한 문맥에서 단어/구를 보다 일반적이거나 구체적인 단어/구로 바꾸어 paraphrase 문장을 생성합니다.
- I dislike rash
drivers
. ⇔ I dislike rashmotorists
. - Pat is flying in this
weekend
. ⇔ Pat is flying in thisSaturday
. - 나는 성질 급한
운전자
들이 싫다. ⇔ 나는 성질 급한자동차 여행자
들이 싫다.
고찰
- 일반화 또는 구체화 정보
-
한국어 적용 가능[o]
13. Metaphor substitution
명사를 표준적으로 사용하는 은유적 표현으로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- I had to drive through
fog
today. ⇔ I had to drive through awall of fog
today. - Immigrants have used this network to send
cash
. ⇔ Immigrants have used this network to sendstashes of cash.
- 나는 오늘
안개
를 뚫고 운전해야 했다. ⇔ 나는 오늘안개 벽
을 뚫고 운전해야 했다.
고찰
- 은유적 표현 매칭
-
한국어 적용 가능[o]
14. Part/Whole substitution
부분을 전체로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- American
airplanes
pounded the Taliban defenses. ⇔ Americanairforce
pounded the Taliban defenses. - 미
전투기
들이 탈레반을 격파. ⇔ 미공군
이 탈레반을 격파.
고찰
- 부분, 전체 매칭 사전
-
한국어 적용 가능[o]
15. Verb/Noun conversion
동사를 명사 형태로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- The police
interrogated
the suspects. ⇔ The police subjected the suspects to aninterrogation
. - The virus
spread
over two weeks. ⇔ Two weeks saw aspreading
of the virus. - 바이러스는 2주에 걸쳐
확산
되었다. ⇔ 바이러스의확산세
가 2주다.
고찰
- 동사 ⇔ 명사 매칭 사전
-
한국어 적용 가능[o]
16. Verb/Adjective conversion
동사를 형용사 형태로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- Pat
loves
Chris. ⇔ Chris islovable
to Pat. - A는 B를
사랑한다
. ⇔ B는 A에게사랑스럽다
.
고찰
- 동사 ⇔ 형용사 매칭 사전
- 한국어에서 동사를 형용사로 바꾸는 것은 접미어를 바꾸면 되는 일?
-
한국어 적용 가능[o]
17. Verb/Adverb conversion
동사를 부사 형태로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- Pat
boasted
about his work. ⇔ Pat spokeboastfully
about his work. - A는 그의 일을
자랑했다
. ⇔ A는 그의 일을자랑스럽게
말했다.
고찰
- 한국어에서 부사는 용언이나 문장 앞에 놓여 그 뜻을 분명하게 해주는 품사를 의미합니다.
- 16과 비슷한 일?
-
한국어 적용 가능[o]
18. Noun/Adjective conversion
명사를 형용사 형태로 대체하거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- I’ll fly by the
end
of June. ⇔ I’ll flylate
June. - 저는
6월 말
까지 비행기를 탈거에요. ⇔ 저는늦은 6월
까지 비행기를 탈거에요
고찰
- 명사 ⇔ 형용사 매칭 사전
-
한국어 적용 가능[o]
19. Verb-preposition/Noun substitution
동사와 위치를 나타내는 전치사를 위치를 나타내는 명사로 바꾸거나 그 반대로 바꾸어 paraphrase 문장을 생성합니다.
- The finalists will
play in
Giants stadium. ⇔ Giants stadium will be theplayground
for the finalists. - 결승 진출자들은 자이언츠 스타디움
에서 경기한다
. ⇔ 자이언츠 스타디움은 결승 진출자들의경기장
이 될 것이다.
고찰
- 한국어는 조사가 영어의 전치사를 대신한다.
-
한국어 적용 가능[x]
20. Change of tense
동사의 시제를 바꾸어 paraphrase 문장을 생성합니다.
이것은 의미 정확도가 다른 방법에 비해서 떨어집니다.
- Pat
loved
Chris. ⇔ Patloves
Chris. - A는 B를
사랑했다
. ⇔ A는 B를사랑한다
.
고찰
- 의미 정확도가 떨어지는 경우가 많다면 빼는게?
-
한국어 적용 가능[o]
21. Change of aspect
동사의 진행형 시제를 바꾸어 paraphrase 문장을 생성합니다.
적절한 기능어 추가/삭제가 따라올 수 있습니다.
- Pat is
flying
in today. ⇔ Patflies
in today. - A는 오늘
날고 있다
. ⇔ A는 오늘난다
.
고찰
- 20과 비슷 묶기?
-
한국어 적용 가능[o]
22. Change of modality
조동사를 추가/삭제/대체 하여 paraphrase 문장을 생성합니다.
- Google
must buy
YouTube. ⇔ Googlebought
YouTube. - The government
wants
to boost the economy. ⇔ The governmenthopes
to boost the economy. - 구글은 유튜브를
샀음이 틀림없다
. ⇔ 구글은 유튜브를샀다
.
고찰
- 한국어에서는 조동사라는 개념이 없고 비슷한 걸로는 보조 용언이 있음
-
한국어 적용 가능[x]
23. Semantic implication
동작, 이벤트 등을 나타내는 단어/구를 미래의 효과를 나타내는 단어/구로 바꾸어 paraphrase 문장을 생성합니다.
- Google
is in talks to buy
YouTube. ⇔ Googlebought
YouTube. - The Marines are
fighting
the terrorists. ⇔ The Marines areeliminating
the terrorists. - 구글은 유튜브를
인수 논의 중
이다. ⇔ 구글은 유튜브를샀다
.
고찰
- 동작에 대한 미래 효과 정보를 알아야함 어찌보면 유의어의 관계일 수도…
-
한국어 적용 가능[x]
24. Approximate numerical equivalences
숫자 표현을 대략적으로 동등한 숫자 표현(단위 변경이라도)으로 바꾸어 paraphrase 문장을 생성합니다.
- At least 23 U.S. soldiers were killed in Iraq last month. ⇔ About 25 U.S. soldiers were killed in Iraq last month.
- Disneyland is 32 miles from here. ⇔ Disneyland is around 30 minutes from here.
- 디즈니랜드는 여기서 32마일 떨어져 있다. ⇔ 디즈니랜드는 여기서 30분 거리이다.
고찰
- 문장 내 숫자 표현을 이해
-
한국어 적용 가능[o]
25. External knowledge
단어/구를 언어 외 지식을 이용하여 다른 단어/구로 대체하여 paraphrase 문장을 생성합니다.
- We must work hard to win this election. ⇔
The Democrats
must work hard to win this election. The government
declared victory in Iraq. ⇔Bush
declared victory in Iraq.우리
는 이번 선거에서 승리하기 위해 열심히 일해야 합니다. ⇔민주당
은 이번 선거에서 승리하기 위해 열심히 일해야 합니다.
고찰
- 외부지식을 이용하는 것으로 KT에서 원했던 방식과 가장 비슷하지 않을까?
- 한국어 적용 가능[o]