언어 현장의 다면성과 구어의 복합지식
도서+교보Only(교보배송)을 함께 15,000원 이상 구매 시 무료배송
15,000원 미만 시 2,500원 배송비 부과
20,000원 미만 시 2,500원 배송비 부과
15,000원 미만 시 2,500원 배송비 부과
1Box 기준 : 도서 10권
알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.
작가정보
저자 서상규는 연세대학교 국어국문학과 교수. 언어정보연구원 원장. 인문한국사업단 단장.
국어문법론, 말뭉치언어학, 사전학 전공. 국어정보학입문 (공저 1998), 한국어 구어 연구 (1,2) (공편 2003, 2005), 한국어교육과 학습사전 (2003), 외국인을 위한 한국어 학습 사전 (공저, 2004, 2006), 한국어 구어말뭉치 연구 (공저 2013), 한국어 기본어휘 연구 (2013), 한국어 기본어휘 의미빈도 사전 (2014), 한국어 구어 빈도 사전 (1,2) (2015), 최현배의 [우리말본] 연구 1 (2017) 둥의 저서와, 한국어 문법 연구, 말뭉치언어학과 국어정보학, 학습사전 편찬, 한국어 기본어휘 등과 관련된 여러 논문을 발표했다.
목차
- 머리말
제1부 구어 복합지식의 구축
[한국어 구어 빈도 사전]의 편찬과 말뭉치의 주석 / 서상규
북한 구어 말뭉치의 전사와 주석 / 이진병·소강춘
한국어 학습자 구어 자료 전사에서의 쟁점과 구어 전사의 실제 / 강현화·한송화 __
제2부 구어 복합지식의 분석
학습자 작문 교육을 위한 텍스트의 구어성 측정 연구 / 안의정
한국어 듣기 교재 제시대화문에서 출현한 형용사에 대한 계량언어학적 연구 / 노성화·이아회
담화에 나타난 ‘그래서’ 연구 / 전영옥
책 속으로
[머리말]
연세대학교 언어정보연구원 인문한국(HK)사업단이 이제 일곱 번째 “인문언어학과 복합지식총서”로 ?언어 현장의 다면성과 구어의 복합지식?을 세상에 내어 놓게 되었다. 이 책은 “인문언어학의 정립―의사소통의 다면성과 복합지식”을 주제로 하는 우리 인문한국사업단이 제3단계(2015~ 2019)의 학술활동을 전개하는 한 방법으로 수행한 학술대회의 결실이다. 즉 이번 총서는 지난 2016년 1월 19일, “A Multiplicity of Language Settings and Complex Knowledge of Spoken Language”라는 주제로 개최된 국제학술대회에서 발표한 논문을 토대로 하여 발전해 온 성과이다.
이 학술대회는 1990년대 후반부터 약 20년간 국가적 규모로 이루어진 구어 자료 구축의 연구 성과를 반성적으로 돌아보기 위해 기획된 것이다. 따라서 그간 국내의 언어 자료 구축을 선도해 온 연세대학교 언어정보연구원과 상명대학교 한국어학과, 그리고 최근에 특수한 구어 자료 구축에 참여한 전주대학교와 연세대 국어국문학과의 연구진을 초빙하였다. 아울러 그 영역을 넓혀 중국 연변대학교, 미국 UCLA에서 꾸준히 한국어 구어 연구를 선도해 온 대표적인 국외 기관의 연구자를 초빙하여 그 성과 교류를 추진하였다. 이번 학술대회에서는 언어의 현장성, 담화에서의 구어 연구, 특수 구어 자료 구축, 구어 자료의 다양한 활용 등에 집중하였으며, 언어 자료 처리와 구어 문법 연구 방법론의 최신 동향을 살피고자 하였다. 그리고 각 방면의 전문가들의 발표를 통해 연구 방법의 타당한 적용을 위한 기반을 마련하게 되었다. 또한 이 학술대회에서는 전문 분야 교수와 신진학자의 발표 및 토론의 장을 통해 한국어 구어 연구의 다양한 방법론의 타당성을 모색해 볼 수 있었다. 이에 따라 이 책은 제1부 “구어 복합지식의 구축”과 제2부 “구어 복합지식의 분석”으로 구성된다.
우선 제1부 “구어 복합지식의 구축”은 ?[한국어 구어 빈도 사전]의 편찬과 말뭉치의 주석?, ?북한 구어 말뭉치의 전사와 분석?, ?한국어 학습자 구어 자료 전사에서의 쟁점과 구어 전사의 실제?와 같은 말뭉치 구축의 실제적인 문제를 다룬 논문들로 구성되어 있다. 첫 번째 논문인 ?[한국어 구어 빈도 사전]의 편찬과 말뭉치의 주석?에서는 ?한국어 구어 빈도 사전?(2015)과 같은 말뭉치 기반의 한국어 빈도 조사에 있어 구어 말뭉치를 활용하기 위해서 필요한 여러 요건과 문제점을 구체적으로 밝히고, 구어의 빈도 조사 결과를 통해서 우리가 어떠한 구어 정보를 알아낼 수 있는지를 밝혔다. 나아가, 언어 실태의 파악과 연구에 필수적인 정밀한 언어 정보를 얻어내기 위해서는 그 밑바탕으로서의 구어 주석 말뭉치에 대한 세심한 설계와 주석이 선행되어야 할 뿐 아니라, 말뭉치의 주석에 관해 앞으로 더 해결해야 할 많은 문제들이 있음을 보여주고자 하였다.
두 번째 논문인 ?북한 구어 말뭉치의 전사와 분석?은 북한어를 남한 연구자의 입장에서 구축할 때 발생하는 여러 문제점에서 출발하였다. 북한어 구어를 구축하면서 발생하는 문제점을 진단하고 그 해결 방안을 모색하고자 하였는데, 구어의 원전 자료인 음성 자료를 말뭉치로 전사하면서 직면하게 되는 중요 문제와 이를 지침으로 완성하는 과정을 살펴보았다. 먼저 구축의 현황과 방향성을 짚어 보았다. 북한어 구어 말뭉치의 구축 현황은 남한어 말뭉치 대비 1%대에 머무르고 있기 때문에, 일단은 양적 확보에 주력해야 한다. 질적인 균형성의 확보는 여러 가지 현실적인 제약에 걸려 있으며, 말뭉치 지도 자체를 문어 말뭉치의 경우와 달리하여 개략적으로 설계할 필요가 있다. 다음으로 구축상의 문제점과 지침에 대하여 논의하였는데, 지침은 간결성, 방언으로서의 북한어, 후속 작업과의 연계성, 이용자의 편의성, 구축 과정의 수월성 등을 고려하여 설계되어야 한다. 특히 원시 말뭉치의 전사 과정에서는 이중 전사를 고려할 필요가 있으며, 형태 분석 과정에서는 문어 지침과의 통일성 및 변별성을 아울러 고려할 필요가 있음을 논하였다.
제1부의 마지막 논문인 ?한국어 학습자 구어 자료 전사에서의 쟁점과 구어 전사의 실제?는 학습자 구어 자료의 전사 단위와 전사 방법을 논의의 대상으로 삼았다. 우선, 기존 모어 화자 및 학습자 구어 자료 구축에서의 전사 지침을 비교, 검토하였으며, 다음으로 실제 학습자 구어 전사 자료를 분석해 보고, 학습자 구어 자료의 특수성으로 인한 문제점을 살펴본 뒤, 이를 바탕으로 하여 한국어 학습자 구어 자료 전사를 위한 전사 방안을 제안하였다. 아울러 이 연구는 소규모 자료 구축이 아닌 대규모 컴퓨터 기반 주석을 바탕으로 하므로, 이에 따른 자료 구축의 효율성과 경제성의 측면을 함께 고려하여 최종 전사 방안을 제시하였다.
다음으로 제2부 “구어 복합지식의 분석”은 ?텍스트의 구어성
출판사 서평
[한국어 구어 빈도 사전]의 편찬과 말뭉치의 주석
서상규
1. 머리말
이 글에서는 [한국어 구어 빈도 사전](2015)과 같은 말뭉치 기반의 한국어의 빈도 조사에 구어 말뭉치를 활용하기 위해서 필요한 여러 요건과 문제점을 구체적으로 밝히고, 구어의 빈도 조사 결과를 통해서 우리가 어떠한 구어 정보를 알아낼 수 있는지를 밝힌다. 나아가, 언어 실태의 파악과 연구에 필수적인 정밀한 언어 정보를 얻어내기 위해서는 그 밑바탕으로서의 구어 말뭉치에 대한 세심한 설계와 주석이 선행되어야 할 뿐 아니라, 말뭉치의 주석에 관해 앞으로 더 해결해야 할 많은 문제들이 있음을 보여주고자 한다.
2. 한국어 빈도 조사에서 구어는 어떻게 다루어졌는가
한국어에 연구 분야에서 계량적 분석 방법에 의한 실제적 성과를 처음으로 보여 준 것은 최현배(1930)이다. 최현배(1930)는 출판과 교육 등에서의 필요성에 따라 한글 낱글자 하나하나가 실제로 쓰인 잦기(당시에는 이를 ‘번수’라고 했다)를 조사한, 한국어 최초의 빈도 조사이다. 이 조사는 말뭉치로서의 요건으로서의 여러 가지 장점을 잘 갖추기는 했지만, 그 규모가 신문 3면으로 다소 작다는 문제가 있었으며, 조사 자료의 규모 문제를 해결할 수 있었던 것은 최현배?이승화(1955, 1956)의 글자와 말수(어휘) 사용의 잦기 조사에 이르러서이다. 그런데 여기에서도 해결하지 못한 또다른 문제가 하나 있었다. 그것은 바로 최현배?이승화(1955, 1956)에서 “산 말인 입말(口語)을 녹음한 것, 곧, 실사회의 대중이 많이 모인 시장, 극장, 오락처, 술자리, 각종 대합실 등에서 몰래 녹음한 것을 가지고, 조사함이 이상적인 국어의 실태 조사이라고 하겠으나, 시설과 비용 등 온갖 사정이 허락지 않아서, 모든 글월을 낱말의 단위에 좇아 분석하여 조사했”다고(최현배?이승화 1955: 7) 한 점이다. 구어(입말)야말로 이상적인 조사의 대상이지만 그럴 사정이 못 되어 그 대신 문어(글말)로 대신할 수밖에 없다는 것이다. 그렇다면 이러한 사정은 오늘날에 이르러 과연 모두 해결된 것일까?
2.1. 한국어의 빈도 조사는 어떻게 이루어져 왔는가
1930년 이래 이제까지 한국어 빈도 조사는 여러 가지 방법과 대상으로 이루어져 왔는데, 그 발표된 순서대로 보면 다음과 같다.
(1) ㄱ. 최현배(1930), ?한글의 낱낱의 글자의 쓰히는 번수로써의 차례잡기?, [조선어문연구] 1, 연희전문학교출판부, 100~109쪽.
ㄴ. 최현배·이승화(1955), [우리말에 쓰인 글자의 잦기 조사 -문자 빈도 조사-], 문교부, 239쪽.
ㄷ. 최현배·이승화(1956), [우리말 말수 사용의 잦기 조사 -어휘 사용 빈도 조사-], 문교부, 995쪽.
ㄹ. 문영호 외(1993), [조선어 빈도수 사전], 과학백과사전종합출판사, 729쪽.
ㅁ. 김흥규·강범모(1997), [한글 사용빈도의 분석], 고려대 민족문화연구원, 192쪽.
ㅂ. 서상규(1998a), [현대 한국어의 어휘 빈도], 연세대 언어정보개발연구원, 799쪽.
ㅅ. 김흥규·강범모(2000), [한국어 형태소 및 어휘 사용 빈도의 분석 (1)], 고려대 민족문화연구원, 346쪽.
ㅇ. 조남호(2002), [현대 국어 사용 빈도 조사], 국립국어연구원, 1192쪽.
ㅈ. 강범모·김흥규(2004), [한국어 형태소 및 어휘 사용 빈도의 분석 (2)], 고려대 민족문화연구원, 309쪽.
ㅊ. 김한샘(2005), [현대 국어 사용 빈도 조사 2], 국립국어원, 780쪽.
ㅋ. 강범모·김흥규(2009), [한국어 사용 빈도], 한국문화사, 294쪽.
ㅌ. 장경희 외(2012), [초·중·고등학생의 구어 어휘 조사], 지식과교양, 504쪽.
ㅍ. 서상규(2014), [한국어 기본어휘 의미 빈도 사전], 한국문화사, 623쪽.
ㅎ. 서상규(2015), [한국어 구어 빈도 사전 1(잦기순)], 한국문화사, 546쪽.
ㄲ. 서상규(2015), [한국어 구어 빈도 사전 2(가나다순)], 한국문화사, 600쪽.
ㄸ. Sun-Hee Lee, Seok Bae Jang, Sang Kyu Seo(2016), A Frequency Dictionary of Korean, Routledge, UK, 348쪽.
2.2. 무슨 목적과 단위로 조사했는가?
이제까지의 빈도 조사들을, 그 조사 목적과 단위의 측면에서 보면, (2)와 [표 1]에서 볼 수 있듯이, 글자, 형태소, 낱말(단어), 한 낱말의 용법 등을 대상으로 다양하게 이루어졌다.
(2) 조사 단위에 따른 분류
ㄱ. 글자: ㄱ, ㄴ, ㅁ, ㅊ (4종)
ㄴ. 형태소: ㅅ, ㅈ, ㅋ (3종)
ㄷ. 낱말: ㄷ, ㄹ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ, ㄲ, ㄸ (13종)
ㄹ. 한 낱말의 여러 용법: ㅍ (1종)
초기의 (ㄱ~ㄷ)에서는 주로 교과서를 만들고 맞춤법을 정하는 실천적 목적으로 조사가 이루어졌는데, 1990년대에 들어 컴퓨터를 이용한 조사가 가능해지면서 (ㄹ~ㅅ, ㅈ, ㅋ)에서와 같이 차차 국어학 연구, 자동 정보 처리, 사전 편찬 등으로 확대되고, 2000년대에 이르러서는 언어 교육을 위한 기본 어휘 선정이나(ㅇ, ㅊ, ㅌ, ㄸ), 한 낱말의 모든 용법의 빈도를 밝혀내려는 데(ㅍ)까지 나아가고 있다.
2.3. 구어는 어떻게 다루어져 왔는가
이제까지의 한국어 빈도 조사들을, 그 조사 대상에서 살펴보면, 대부분은 문어(글말)를 대상으로 하여 이루어져 왔고, 더러 구어를 포함한다고 해도 전체 자료의 약 10% 내외에 불과하다. 온전히 구어만으로 빈도를 조사하는 일은 장경희 외(2012)와 서상규(2015)에서 비로소 이루어졌다.
(3) 조사 대상에 따른 분류
ㄱ. 문어(글말)을 대상으로: ㄱ, ㄴ, ㄷ, ㄹ, ㅂ, ㅅ, ㅈ, ㅋ (8종)
ㄴ. 문어와 구어를 합해서: ㅁ, ㅇ, ㅊ, ㅍ, ㄸ (5종)
ㄷ. 구어(입말)만을 대상으로: ㅌ, ㅎ, ㄲ (3종)
문어와 구어를 합해서 조사 자료로 삼은 5종의 빈도 조사(ㅁ, ㅇ, ㅊ, ㅍ, ㄸ)에서의 구어 비율을 살펴보면, 가장 적은 (ㅈ)의 9.2%, (ㅇ)의 10%, (ㅋ)의 13.7%에서 알 수 있듯이, 대체로 10% 내외의 비율로 구성되어 왔는데, 왜 이러한 비율로 정했는지에 대해서는 아무도 밝힌 바 없다.
그런데 최현배?이승화(1955: 7)의 조사 이래, 많은 연구자들이 구어의 어휘 및 문법(말본)을 밝히는 일이 꼭 필요한 일이라고 하면서도, 이와 같이 구어를 조사 대상으로 삼는 데 소극적이었던 까닭은 무엇일까? 실제로 담화에서 음성으로 실현된 구어를 수집하는 대신, 구어를 흉내내어서 “글로 적은 문어”인 ‘준구어’, 즉 영화 시나리오, 연극 대본, 드라마 극본 따위를 통해서도 구어의 특성을 포착할 수 있을 것으로 생각해 온 까닭은 무엇일까? 이에 대한 해석은 여러 모로 할 수 있겠지만, 연구자들이나 일반의 구어에 대한 이해 부족뿐만 아니라, 구어를 실제 연구 자료로 삼고자 할 때 일어나는 현실적인 부담 등이 크게 작용했을 것은 틀림없다.
3. 구어 말뭉치와 구어 빈도 사전
이제, 구어 빈도 조사의 결과로서의 구어 빈도 사전을 편찬하기 위한, 구어 말뭉치의 제반 특성과 균형 말뭉치의 구성을 위한 구어의 유형 등의 실제적 문제점을 살펴보기로 하자.
3.1. 구어 말뭉치는 어떻게 정의되며 그 범위는 어떠한가
구어를 어떻게 정의하는가에 따라서 구어 말뭉치의 실질적 내용과 대상은 달라진다. 100만 어절이 넘는 최초의 대규모 말뭉치로 구축된 21세기 세종계획의 [현대 국어 구어 전사 말뭉치] 구축 과제에서는 ‘구어’와 구어 말뭉치를 다음과 같이 정의하였다.
(4) 입말뭉치란, 입말의 언어학적 분석을 위하여 자연스러운 담화를 녹음하여, 기본적인 철자법 전사와 또는 더 자세한 수준의 전사로 보충적으로 표현하고, 기계적으로 읽을 수 있는 문서화와 마크업이 되어 있는, 대량의 말 자료 뭉치를 말한다. (서상규 1998ㄴ: 404)
(5) 구어 말뭉치란, 입말의 언어학적 분석을 위하여 자연스러운 담화를 녹음하여, 기본적인 철자법 전사와 또는 더 자세한 수준의 전사로 보충적으로 표현하고, 기계적으로 읽을 수 있는 문서화와 마크업이 되어 있는, 대량의 언어 자료 뭉치를 말한다. (서상규 외 1999: 193)
앞절에서도 살펴본 바와 같이, 구어(즉 입말)를 빈도 조사와 문법(말본)의 기술에 바탕으로 삼아야 한다는 생각은 최현배(1955)에서 분명하게 선언되었지만, 그의 이와 같은 생각은 이보다 훨씬 이전부터 드러나 있었다.
(6) ㄱ. 이 책은, 오늘날에 實際로 쓰히는 입말(口語)과 글말(文語)의 본(法)을 풀이한 것이다. (최현배 1937: 일러두기 1)
ㄴ. 우리말에 입말(口語)과 글말(文語)의 다름이, 어떤 경우, 特히 풀이씨(用言)의 씨끝(語尾)에서, 얼마큼 나타남이 없지 아니하지마는, 이 책에서는 그것을 區別하지 아니하고 섞어 썼노니: 이는 하나는, 그 區別이 必要가 없다고 생각한 때문이요; 또, 하나는, 저절로 이렇게 된 것을 일부러 한 가지로만 고루기가 쓸대없이 힘을 많이 허비하게 되는 때문이다. (최현배 1930: 일러두기 3)
ㄷ. 어느 나라의 말에든지 제각기 일정한 본(法)이 있나니, 그 본을 말본(語法)이라 하며, 그 말본을 닦는 학문을 말본갈(語法學), 더러는 줄이어서 말본(語法)이라 하느니라. (최현배 1930: 2)
ㄹ. 산 말인 입말(口語)을 녹음한 것, 곧, 실사회의 대중이 많이 모인 시장, 극장, 오락처, 술자리, 각종 대합실 등에서 몰래 녹음한 것을 가지고, 조사함이 이상적인 국어의 실태 조사이라고 하겠으나, 시설과 비용 등 온갖 사정이 허락지 않아서, 모든 글월을 낱말의 단위에 좇아 분석하여 조사했는데, (최현배?이승화 1955: 7)
(6ㄴ)에서는 1937년 당시 우리말에서 구어와 문어의 차이가 용언의 어미에서 일부 보이지만, 언문의 일치를 위해서 굳이 이를 구별하지 않고 섞어 쓰겠다는 태도를 볼 수 있으며, (6ㄷ)에서는 당시 흔히 쓰이던 ‘문전(文典)’이나 ‘문법(文法)’이라는 일본식 용어가 아니라, 굳이 ‘말본(語法)’이라는 용어를 가려 사용함으로써, 언어 연구의 기초는 글(文)이 아니라 말(言)이어야 한다는 굳은 믿음을 드러내고 있다. 이와 같은 생각이 뚜렷하게 드러나는 것은, (6ㄹ)에서와 같이, 빈도 조사와 같은 한국어의 실태를 밝히려면 살아 있는 입말을 통해서 조사해야 한다는 생각이다. (6ㄹ)의 뜻이 그 때 온전히 이루어졌다면, 한국어 최초의 구어 말뭉치가 이루어졌을 것임은 분명하다.
최현배?이승화(1955: 7)에서 토로한 바 “시설과 비용 등 온갖 사정”이라고 가리킨 것은, 그 후로도 줄곧 구어 말뭉치에 대한 본격적인 연구가 미루어진 결정적인 까닭이 된다. 구어 말뭉치를 수집하고 이를 분석, 활용하기 위해서는, 음성을 녹음하고 이를 언어 연구에 활용할 수 있는 형태로 바꾸어 주는 일, 즉 전사(傳寫 transcription)와 주석(해석) 같은 수고가 필수적인데, 여기에는 막대한 시간과 노력이 들 뿐 아니라, 전사 작업자 역시 잘 훈련되어 있어야 하기 때문이다.
구어를 규정하고 그 범위를 정하는 데에는, 음성이라는 전달매체를 필수적 요건으로 설정할 수도 있고, 실시간성과 상호교류 등의 언어적 특징을 요건으로 하여 그 범위를 설정할 수도 있다. 전자의 경우에는 음성을 매개로 해서 전달되는 “일상대화, 전화대화, 강연, 연설, 발표” 따위만을 구어로 보게 되는 데 비해, 후자의 경우에는 구어의 언어적 특징을 지닌 문어 즉 “희곡, 시나리오, 드라마 대본” 등도 구어에 포함시키게 된다.
그러나 21세기 세종계획에 의해 이루어진 [현대 국어 구어 전사 말뭉치]에서는, 앞서 (4, 5)에서 밝힌 바와 같이, “일상대화를 비롯한 자연스러운 담화를 녹음하여 문자화한 것”으로 구어가 정의되기 때문에, 희곡이나 시나리오, 극본 등과 같이 연극, 영화, 드라마를 위해 쓰여진 것이나 흔히 신문이나 잡지에서 흔히 보는 것과 같은 인터뷰나 좌담을 정리한 기사를 구어 말뭉치에 넣지 않는다.
“일상에서 자연스레 발화된 말”로서의 구어라고 하더라도 이것을 어떤 목적과 관점으로 다루는가에 따라서, 구어 전사 말뭉치(줄여서, 구어 말뭉치)와 음성 말뭉치로 구별되어 다루어진다.
음성 말뭉치는 주로 음성 합성과 음성 인식, 음성 처리 기술(speech processing technology)의 응용 분야에서 적극적으로 활용되는 데 비해, 구어 말뭉치는 주로 말뭉치를 기반으로 하는 언어학적 연구에서 많이 사용된다. 특히 구어 말뭉치를 적극적으로 활용하는 언어학 분야로는 대화 분석, 사회언어학, 방언학, 심리 언어학, 아동 언어 습득, 언어 병리학, 제2언어 습득과 교육, 대량의 자료에 기반을 둔 언어정보학, 말뭉치 기반 사전 편찬학 등을 꼽을 수 있다.
그렇다면 왜 구어 말뭉치를 따로 만들어서 활용해야 하는 것일까? 가장 큰 까닭은 앞서 지적한 바와 같이, 언어의 존재 양식로서의 구어가 문어보다 더 본질적이라는 믿음에 있다. 그뿐만 아니라, 구어는 문어와는 그 기능적인 특성과 문법적인 특성에서 상당한 차이를 보인다. 이러한 차이는 단순히 어휘 사용의 차이에서만이 아니라, 문법적 차이에 이르기까지 각 층위에서 드러나기 때문에, 말뭉치 텍스트의 자동 분석과 인식, 자동 처리를 어렵게 하는 요소로 작용한다.
이렇게 나타나는 한국어의 구어(입말)의 여러 가지 특징을, 노대규(1996)에서는 문장 의미론적 특징, 통어론적 특징, 어휘 의미론적 특징, 음운론적 특징으로 나누어 기술하고 있다. 이 중 특히 구어 말뭉치를 만들 때에 어려움을 일으키는 주된 특징으로는 다음과 같은 것들이 있다.
구어에서 두드러지게 눈에 띄는 것은 반복적 표현과 미완성 발화이다. 문어에서는 문장이 대부분 종결 어미로 끝나고 구두점이 있으므로 문장 사이의 경계가 분명한 데 비해, 구어에서는 종결어미로 끝나지 않는 일이 매우 많다. 또한 흔히 주저어(hesitation filler)라고 불리는 머뭇거림이나 망설임의 표현이 구어에서는 자주 사용된다. 또 대화 중에 대화 참여자들 사이에 끼어들기, 맞장구치기, 말 끊기 등의 간섭이나 겹침 따위의 현상이 활발히 일어난다는 점도 문어와 구별되는 특징으로, 구어 말뭉치의 수집과 주석을 어렵게 하는 요소로 작용한다.
구어에서는 음운의 축약 현상이나 자모음 변동, 체언과 조사의 통합에 있어서의 모음 변동, 단어 내부에서의 된소리되기(경음화)나 거센소리되기(격음화) 등의 현상이 문어에 비해서 두드러지기 때문에, 이른바 ‘구어적 변이형(태)’가 다양하게 나타난다. 이러한 변이형태는 “조금 ] 좀, 그러니까 ] 그니까”와 같이 한 단어의 내부에서 나타날 수도 있고, “내버려 두어 ] 냅둬”처럼 통사적 구성에서, 또는 “것이 ] 게”처럼 체언과 조사의 형태 결합, “하려고 ] 할려고”와 같이 용언의 활용형에서도 나타날 수 있다. 이와 같이 문법적 규칙에 의해서 예측하기 어려운 변이형태가 다양하게 나타나기 때문에, 구어 자료는 자동 분석이나 번역 등에서 큰 어려움을 일으키게 된다.
이와 같은 특성을 지닌 구어 자료를 바탕으로 구어와 문어를 비교, 분석하기 위해서는, 먼저 말뭉치가 정밀하게 분석되어 구어와 문어의 특성들이 충분히 밝혀져야 하는 것이다. 운율, 형태, 통사, 의미, 화용 등의 언어학적 해석을 각종 정보 표지(태그)로 말뭉치에 붙이는 주석을 통해서, 우리는 용례 색인(concordancer)을 만든다든가, 단어의 빈도와 단어 결합, 연어 정보 등 각종의 통계적인 데이터를 손쉽고 신속하게 얻어낼 수 있을 뿐만 아니라, 기계 번역, 문법 오류와 맞춤법 검사기의 개발 등 폭넓은 연구와 기술 개발 분야에 원천 자료로 제공할 수 있게 된다.
아래 그림은 연세대학교 언어정보연구원에서 제공하고 있는 인터넷 용례 검색 시스템 가운데, [연세 구어 균형 말뭉치]에서 용례를 검색한 화면이다. (https://ilis.yonsei.ac.kr/corpus/spoken2)
[그림 1]에서는 [연세 구어 균형 말뭉치](①)의 주석 말뭉치(①)를 대상으로 하여, ②의 ‘말뭉치’라는 검색어로 검색한 결과, ③에 보는 바와 같이 모두 43개의 용례가 추출되어, 그 앞뒤의 맥락과 함께 제공되고 있다. 검색할 때에는, ④에서와 같이, 구어 말뭉치의 하위 범주인 “사적 독백, 공적 독백, 사적 대화, 공적 대화”의 구분 중에서 선택적으로 지정할 수 있도록 되어 있다. 한편, 형태소의 동형어가 여럿일 경우에는 ⑤에서처럼 그 중 하나를 선택할 수 있는데, 여기에 사용된 동형어 구분 기호는 이 글의 5.3에 소상히 밝히기로 한다.
검색 화면에서는 이와 함께, ⑥에서 보는 것과 같은, [연세 구어 균형 말뭉치]의 주석 결과를 분석한 빈도 목록을 함께 제공하고 있다.
기본정보
ISBN | 9788968175084 ( 896817508X ) | ||
---|---|---|---|
발행(출시)일자 | 2017년 06월 10일 | ||
쪽수 | 232쪽 | ||
크기 |
160 * 233
* 21
mm
/ 533 g
|
||
총권수 | 1권 | ||
시리즈명 |
인문언어학과 복합지식 총서
|
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립