한국어 특성과 사업보고서 가독성 측정치

조현권 (성균관대학교)  ·  이준일 (경희대학교)

국문초록

한국어에 적합한 가독성 측정치가 존재하지 않기 때문에, 재무제표 가독성을 측정하기 위해서는 미국 등에서 사용하는 측정치를 대신 사용하고 있다. 이 연구에서는 한국어의 특성이 영어 기반의 가독성 측정치에 미치는 영향을 분석하여, 가독성 측정치의 내적 정합성을 알아보았다. 비교분석 결과, Fog Index와 글의 길이 (Length)는 내적 정합성이 높은 것으로 나타났으나, Flesch Reading Ease formula는 그렇지 않은 것으로 나타났다. 섹션별로 나눠서 분석한 결과, "사업의 내용", "이사의 경영진단", "주석"에서도 유사한 결과를 발견하였다. 또한, 전체 사업보고서의 가독성 측정에서, FOG Index의 경우 주석의 가독성에 큰 영향을 받는다는 점 역시 발견하였다. 이와 같은 결과는 앞으로 가독성 측정치를 사용하는 연구에 참고가 될 것으로 보인다. 이 연구의 한계점으로, 가독성 측정치가 외적 정합성이 있는지는 확인할 수 없다는 점을 지적한다.

Abstract

Due to the lack of readability measure for Korean, the literature uses English based readability measures to measure the readability. In this study, we investigate the effect of Korean specific characteristics, which are different from English, on the variation of the readability measure. The results show that Fog Index and Length are robust across various Korean characteristics, while Flesch Reading Ease formula is not. Using three major sections separately, we find similar results. Interestingly, FOG Index is affected by FOG Index of footnote, rather than readabilities of other two major sections. Such findings will provide important implication on the choice of readability measure for Korean language. We note that such robustness does not indicate that these measures capture readability of Korean language.

I. 서론

한글로 쓴 공시 텍스트의 가독성에 대한 분석은 영어로 쓴 공시 텍스트에 대한 분석에 비해 널리 이루어지지 않고 있다. 그 이유 중 하나로, 한글 텍스트를 분석하기 위한 방법론이 미비하다는 점이 꼽힌다. 물론, 관심있는 연구자들에 의해 계속적으로 한글 분석에 대한 방법론이 개발되고 있으나, 영어와 한국어의 차이로 인해 영어 텍스트에 적용한 방법론을 그대로 한글 텍스트에 준용하기 어려워 다양한 연구에 난항을 겪고 있다. 회계/재무 텍스트의 한글 가독성에 대한 연구는 정태진 외 (2018)에서 주의 깊게 다루어, Flesch Reading Ease formula (FLESCH), FOG index (FOG), 그리고 사업보고서의 길이 (LENGTH)라는 세 가지 척도를 사용하여 한글의 가독성을 측정한 바 있다.

이 연구에서는 정태진 외 (2018)에서 사용한 세 가지 측정치에 한국어의 특성이 어떻게 영향을 미치는지에 대해 비교분석한다. 특히 단어 정의의 어려움, 표음문자, 어미와 조사의 사용이라는 세 가지 특성에 집중하여 분석하였다. 분석 결과, FOG index (FOG)와 사업보고서의 길이 (LENGTH)는 다양한 한국어 특성을 조정한 후 계산한 경우도 높은 상관관계를 보였으나, Flesch Reading Ease formula는 상관관계가 높지 않으며 때로는 음의 상관관계도 나타났다. 따라서, FOG index (FOG)와 사업보고서의 길이 (LENGTH)의 경우 내적정합성이 있는 것으로 볼 수 있다.

이 연구의 결과는 이후 연구의 가독성 측정치 선택에 도움이 될 것으로 기대한다. 그러나, 이 연구의 결과는 Fog index와 사업보고서의 길이가 반드시 한국어 가독성을 잘 측정한다는 외적 정합성을 의미하지는 않는다. 이에 대해서는 추후 많은 연구가 이루어져야 할 것이다.

II. 가독성 측정 방법론과 한글 텍스트의 특성

정태진 외 (2018)에서 사용한 가독성 측정치는 각각 다음과 같이 계산할 수 있다.

FLESCH = 206.835 − 84.6 × AWL − 1.015 × ASL

FOG = (ASL + Ratio of complex words) × 0.4 1

LENGTH = log(Word_num)

여기서 AWL은 글의 음절수/단어수, ASL은 글의 단어수/문장수이며, complex words는 3음절 이상의 단어로 정의된다.2 Word_num은 글의 전체 단어 수로 측정한다. 이상의 가독성 측정치는 영어 텍스트에 널리 사용되는 방법이다. 다만, 이상의 측정치를 한글 텍스트에 사용할 때, 한국어와 영어의 차이로 인하여 다음과 같은 여러 어려움이 생긴다.

첫째, 단어 수 측정의 어려움이 있다. 띄어쓰기로 단어 간의 구분이 확실한 영어에 비해, 한글은 띄어쓰기가 상대적으로 명확하지 않다.3 따라서, 단어 수를 사용하는 측정치의 입력 요소인 AWL, ASL, 그리고 Word_num 세 요소가 모두 "단어"를 어떻게 정의하느냐에 따라 달라질 수 있다. 이 문제는 FLESCH와 LENGTH에서 더욱 두드러질 수 있는데, FOG에서는 띄어쓰기로 인해 단어 수가 늘어날 경우 복잡한 단어 수가 (많은 음절을 가진 단어의 수) 줄어들기 때문이다.

둘째, 음절의 수로 가독성을 측정하는 문제가 있다. 영어와 달리 한국어는 한 글자가 한 음절을 구성한다. 따라서, 기계적으로 음절을 적용할 경우, "하였습니다"가 "하였다"보다 가독성이 떨어지는 것으로 측정되게 되는데, 실제로 이 두 단어의 차이로 인해 읽기에 어려움을 느낀다고 보기는 어렵다. 복잡한 단어의 사용 (FOG index에서 complex words)을 단순히 음절로 측정할 것이 아니라 어미와 조사 등을 고려해야 한다는 것이다.4 회계 계정명 등의 긴 단어 사용으로 인해 복잡한 단어가 늘어날 경우, 이는 "가독성"의 문제라기보다는 "회계용어의 이해"의 어려움이 더욱 두드러질 수 있다.5

셋째, 문장의 길이 역시 한글의 특성을 고려할 필요가 있다. "상각후 무형자산"을 "상각한 후의 무형자산"으로 쓸 경우, 실질적인 의미와 가독성의 차이는 존재한다고 보기 어렵지만 문장 길이를 기계적으로 적용하면 후자가 40% 더 가독성이 떨어지는 것으로 측정되게 된다. 또한, 회계용어를 완전히 이해한다는 전제 하에서는 긴 계정명이 반드시 가독성이 떨어지는 문장을 만든다고 보기 어려운 측면이 있다.6

이 연구에서는 이와 같은 한국어의 특성이 가독성 측정치에 미치는 영향을 확인하기 위하여 다음과 같이 한국어 텍스트를 조정하여 그 영향을 살펴보았다.

처리 0. 회계용어를 "회계"라는 두 글자로 모두 대체한다. 이는 사업보고서 독자가 회계용어에 대한 기본 지식을 갖추었다는 전제 하에, 긴 회계용어의 사용이 가독성 측정치에 미치는 영향을 최소화하기 위해서이다.7

처리 1. 머신러닝 기반 한글 텍스트 분석 방법론 (Mecab을 사용한 형태소 분석)을 사용하여 각 문장을 토큰화하여, 이 토큰의 수로 단어수를 대체한다.

처리 2. Part-of-Speech (POS) tagging 기법을 사용하여 조사와 어미를 제외한 후, 문장 길이와 음절 등을 계산한다.

처리 3과 4는 각각 0과 1, 그리고 0과 2를 순차적으로 적용한 결과다.

다음 예시는 이와 같은 처리 과정에서 생기는 가독성 측정치 입력값의 변화를 보여준다.

Table 1. Example of Changes in Inputs for Readability Measures

처리 문장 단어 수 음절 수8 Complex words
원문 연결회사는 재고자산의 판매에 따른 수익을 인식하는 기간에 재고자산의 장부금액을 매출원가로 인식하고 있습니다 12 48 11
처리 0
(회계용어 대체)
연결회사는 회계의 판매에 따른 수익을 인식하는 기간에 회계의 장부금액을 회계로 인식하고 있습니다 12 42 11
처리 1
(Mecab 적용)
연결 회사 는 회계 의 판매 에 따른 수익 을 인식 하 는 기간 에 회계 의 장부 금액 을 회계 로 인식 하 고 있 습니다 27 42 1
처리 2
(조사·어미 제거)
연결 회사 회계 판매 따른 수익 인식 하 기간 회계 장부 금액 회계 인식 하 있 16 29 0

위 예시에서 볼 수 있듯, 단어 수는 Mecab을 사용한 형태소 분석 결과 2배 이상 크게 증가한다. 조사와 어미를 제거하는 것은 음절의 수를 크게 감소시키며, 복잡한 단어의 수는 원문 11개에서 최종적으로 0개로 변화한다. 이는 조사가 붙으면 2음절 이상의 모든 단어가 3음절 이상 단어로 변하고, 어미의 활용이 존재하면 마찬가지로 3음절 이상 단어로 변하는 한국어의 특성 때문이다.9

여기서는 2015년부터 2020년까지 공시된 사업보고서를 대상으로 공시 텍스트를 분석하여, 앞서 언급한 세 가지 요소에 의한 가독성 측정치의 변화의 기초통계량을 제시하고, 이러한 변화 사이의 상관관계를 제시한다. 공시 텍스트에서 표 (Table Tag)은 모두 제외하였다.

Table 2. Descriptive Statistics of Readability Measures

측정치 Mean SD P25 Median P75
FLESCHorg−109.958.11−115.94−110.65−104.44
FLESCH032.632.3731.1332.8134.25
FLESCH128.001.7026.9128.1329.19
FLESCH2−88.475.09−92.22−88.92−85.20
FLESCH338.182.1436.8438.3239.64
FLESCH433.861.7432.7533.9535.08
FOGorg6.250.485.936.246.56
FOG012.701.1711.9412.7113.46
FOG19.210.808.699.209.73
FOG26.110.485.816.116.42
FOG311.831.0511.1411.8512.54
FOG48.410.707.958.408.86
LENGTHorg9.310.369.079.339.56
LENGTH010.060.379.8110.0910.32
LENGTH19.740.379.499.7710.00
LENGTH29.280.369.059.319.54
LENGTH39.990.379.7510.0210.25
LENGTH49.650.369.419.679.90
처리 표기: org = 원문, 0 = 회계용어 대체, 1 = Mecab 적용, 2 = 1에서 조사·어미 제거, 3 = 0에 Mecab 적용, 4 = 3에서 조사·어미 제거. 상하 1% winsorize.

위 표에서 볼 수 있듯, LENGTH를 제외하면 각 처리에 따라 값들의 변화가 상당하다. 다만 연구목적으로는 이와 같은 변화가 각 기업 공시의 가독성 측정 결과를 체계적으로 변화시키는지 여부가 중요하다. 즉, 이러한 처리에 따라서 가독성에 대한 기업간 상호 비교 결과가 바뀌는지가 중요하다. 왜냐하면, 상호 비교 결과, 가독성의 상대적 좋고 나쁨이 바뀌지 않는다면 한국어 특성을 반영한 이러한 처리에 관계없이 회귀분석 등에서 가독성 측정치와 다른 변수의 상관관계를 안정적으로 관찰할 수 있기 때문이다.

Table 3. Correlation between Readability Measures after Treatments

측정치 org 0 1 2 3 4
FLESCHorg1.0000.439***0.286***0.911***0.141***−0.175***
FOGorg1.0000.951***0.967***0.997***0.966***0.982***
LENGTHorg1.0000.997***0.998***1.000***0.998***0.999***
처리 표기: org = 원문, 0 = 회계용어 대체, 1 = Mecab 적용, 2 = 1에서 조사·어미 제거, 3 = 0에 Mecab 적용, 4 = 3에서 조사·어미 제거. *** p<0.01. 상하 1% winsorize.

위 표에서 볼 수 있듯, FLESCH의 경우는 때로는 상관관계가 음수로 변하는 등, 텍스트 처리에 따라서 많은 변화가 있다. FOG와 LENGTH의 경우는 상관관계가 대체로 0.95 이상으로, 텍스트 처리에 강건한 것을 확인할 수 있다. 특이할만한 점은, 조사와 어미의 제거가 큰 영향을 주지 않는다는 점이다 (FOG2, FOG4, LENGTH2, LENGTH4). 이는 사업보고서가 상대적으로 일관성 있는 어미활용을 한다는 점과, 조사의 제거가 가독성의 측정에 큰 영향을 미치지 않는다는 점을 암시한다.

다만, 이와 같은 강건성은 한국어에서 가독성 측정치를 사용하는 것에 대한 한계점을 보여주기도 한다. 텍스트의 길이를 조사와 어미 제거를 통해 조정했음에도 불구하고 가독성 측정치의 순서에 큰 변화가 없다는 점은, "텍스트의 길이"가 가독성에 영향을 미친다는 전제가 한국어에서 잘 작동하지 않을 가능성을 보여준다.

III. 사업보고서 세부 섹션과 가독성 측정치

사업보고서에서 텍스트가 많은 부분은 "사업의 내용", "이사의 경영진단", 그리고 "주석" 부분이다. 사업보고서 전체에 대한 가독성을 측정할 때, 이 세 섹션의 가독성이 각각 주요한 영향을 미치게 되는데, 이 세 섹션은 각각 상당히 다른 정보를 담고 있다. "사업의 내용"은 회사가 영위하는 영업의 내용, "이사의 경영진단"은 내부자가 바라본 기업의 운영 및 전망에 대한 정보, 그리고 "주석"은 회계처리에 대한 세부적 내용을 보고한다. 여기서는 각 섹션 텍스트를 따로 추출하여 분석하였다.

Table 4. Descriptive Statistics of Readability Measures of Each Section

섹션 측정치 Mean SD P25 Median P75
Business
Section
FLESCHorg−86.4912.24−94.06−85.89−78.36
FLESCH030.505.6227.0730.5134.05
FLESCH126.305.0123.4026.3829.44
FLESCH2−82.4010.57−89.08−82.32−75.75
FLESCH331.675.9527.9831.6435.49
FLESCH427.635.3724.3727.6630.99
FOGorg7.131.226.387.167.89
FOG013.272.2111.9813.3714.65
FOG19.691.568.779.7110.66
FOG27.111.226.367.157.87
FOG313.132.2411.8313.2414.55
FOG49.561.598.629.5810.54
LENGTHorg7.010.826.567.107.58
LENGTH07.670.827.237.758.23
LENGTH17.350.816.917.447.91
LENGTH27.010.826.557.107.58
LENGTH37.660.827.227.748.22
LENGTH47.340.816.907.427.90
MD&A
Section
FLESCHorg−89.6915.61−98.51−88.30−79.79
FLESCH033.926.9529.8834.3038.51
FLESCH131.136.5127.0431.3935.56
FLESCH2−79.2013.61−87.68−79.42−71.17
FLESCH336.807.4832.5437.0841.52
FLESCH434.467.1730.2734.5038.87
FOGorg6.711.445.816.697.58
FOG012.842.7611.1712.8514.47
FOG19.401.998.219.4210.58
FOG26.651.465.746.647.53
FOG312.472.8210.7412.5214.18
FOG49.072.047.829.1010.30
LENGTHorg5.590.755.045.586.06
LENGTH06.280.755.756.276.75
LENGTH15.970.745.435.956.44
LENGTH25.580.755.045.576.06
LENGTH36.250.755.726.246.72
LENGTH45.930.755.405.926.40
Footnote
Section
FLESCHorg−117.1911.99−124.85−119.05−111.43
FLESCH032.214.1730.1032.6234.75
FLESCH127.893.2726.5528.3229.82
FLESCH2−91.339.19−96.95−93.02−87.69
FLESCH338.293.9636.4338.6940.61
FLESCH434.503.2633.3034.9436.31
FOGorg6.230.825.796.236.66
FOG013.001.9811.8913.1014.16
FOG19.341.348.579.3610.12
FOG26.150.825.716.166.59
FOG312.111.8311.0912.1913.19
FOG48.511.217.858.539.20
LENGTHorg8.721.268.468.989.46
LENGTH09.501.299.249.7710.25
LENGTH19.171.288.919.439.91
LENGTH28.711.268.458.969.45
LENGTH39.431.299.189.7010.18
LENGTH49.081.278.829.349.82
처리 표기: org = 원문, 0 = 회계용어 대체, 1 = Mecab 적용, 2 = 1에서 조사·어미 제거, 3 = 0에 Mecab 적용, 4 = 3에서 조사·어미 제거. 상하 1% winsorize.

다음 표는 각 섹션별로 계산한 가독성 측정치를 여러 조정을 거쳐 상관관계를 보고한 표이다. 세 패널 모두에서 FLESCH는 상관관계가 유의하지 않거나 유의한 음의 상관관계를 보이는 등, 한국어 특성을 반영한 조정을 하였을 때 강건하지 못한 모습을 보인다. FOG와 LENGTH에서는 상관관계가 0.95 이상으로 강건한 결과를 볼 수 있다. 다만 회계용어의 영향이 주석에서 크다는 것은 앞으로 연구에서 주석에 대한 가독성을 측정할 때 고려해야 할 점이다.

Table 5. Correlation between Readability Measures after Treatments within Section

섹션 / 측정치 org 0 1 2 3 4
Panel A. Business Section
FLESCHorg1.0000.082***0.080***0.952***−0.000−0.018
FOGorg1.0000.963***0.965***1.000***0.971***0.974***
LENGTHorg1.0000.998***0.998***1.000***0.998***0.999***
Panel B. MD&A Section
FLESCHorg1.0000.170***0.171***0.808***0.027*0.000
FOGorg1.0000.968***0.968***0.999***0.972***0.977***
LENGTHorg1.0000.997***0.997***1.000***0.997***0.998***
Panel C. Footnote
FLESCHorg1.0000.356***0.235***0.897***0.173***−0.031**
FOGorg1.0000.954***0.971***0.999***0.966***0.981***
LENGTHorg1.0000.999***1.000***1.000***1.000***1.000***
처리 표기: org = 원문, 0 = 회계용어 대체, 1 = Mecab 적용, 2 = 1에서 조사·어미 제거, 3 = 0에 Mecab 적용, 4 = 3에서 조사·어미 제거. *** p<0.01, ** p<0.05, * p<0.1. 상하 1% winsorize.

Table 6에서는 전체 사업보고서에 대한 가독성 측정치와 각 섹션별 가독성 측정치와의 상관관계를 보고한다. FLESCH와 FOG의 경우 주석 텍스트의 계수값이 가장 크다는 점을 알 수 있다. 앞서 상관관계에서도 확인한 바와 같이, FLESCH는 음의 상관관계를 보이는 등 강건하지 못하다. 주석을 사용한 경우에서 FLESCH 역시 유의한 양의 상관관계를 보고하는데, 이는 주석 텍스트가 전체 사업보고서 가독성 측정치에 큰 영향을 미칠 수 있다는 점을 의미한다.

Table 6. Correlation between Readability and Readability of Each Section

전체 측정치 섹션 org 0 1 2 3 4
Panel A. Business Section
FLESCHorgBusiness0.347***−0.110***−0.093***0.306***−0.140***−0.129***
FOGorgBusiness0.331***0.327***0.332***0.333***0.329***0.335***
LENGTHorgBusiness0.326***0.331***0.334***0.326***0.330***0.332***
Panel B. MD&A Section
FLESCHorgMD&A0.187***−0.014−0.0130.145***−0.040***−0.046***
FOGorgMD&A0.143***0.149***0.151***0.142***0.144***0.145***
LENGTHorgMD&A0.244***0.248***0.248***0.244***0.244***0.244***
Panel C. Footnote
FLESCHorgFootnote0.467***0.377***0.261***0.408***0.297***0.123***
FOGorgFootnote0.602***0.587***0.611***0.604***0.590***0.611***
LENGTHorgFootnote0.240***0.241***0.241***0.241***0.240***0.241***
전체 사업보고서 가독성(원문)과 각 섹션별 가독성 측정치 간의 상관관계. 처리 표기는 위와 동일. *** p<0.01. 상하 1% winsorize.

마지막으로 각 섹션의 가독성 측정치가 다른 섹션의 가독성 측정치에 더해 추가적으로 미치는 영향을 알아보기 위해 전체 사업보고서의 가독성을 종속변수로, 각 섹션별 사업보고서 가독성을 설명변수로 하여 회귀분석을 시행하였다.

Table 7. The Effects of Section Readability on Total Readability

(1) FLESCHorg (2) FOGorg (3) LENGTHorg
Readability of Business Section 0.203***
(24.79)
0.115***
(25.94)
0.126***
(21.06)
Readability of MD&A Section 0.057***
(8.90)
0.029***
(7.68)
0.093***
(14.12)
Readability of Footnote Section 0.304***
(37.04)
0.346***
(53.67)
0.063***
(16.31)
Constant −51.680***
(−41.87)
3.083***
(57.74)
7.358***
(123.14)
Observations 4,531 4,531 4,531
Adjusted R² 0.336 0.460 0.192
t-통계량은 괄호 안에 표기. *** p<0.01. 상하 1% winsorize. 사용된 측정치는 원문 기반 (org).

앞서 상관관계에서 관찰한 바와 같이, FLESCH와 FOG의 경우 주석 텍스트의 계수값이 가장 크다는 점을 알 수 있다. 이 계수값은 0.3 이상으로, 다른 섹션의 해당 계수값이 최대 0.203인데 비하여 상당히 주요한 영향을 미친다고 볼 수 있다. 특히 FOG Index의 경우는 여타 섹션인 "사업의 내용"과 "이사의 경영진단" 섹션의 계수값의 최대치는 0.115인데 비하여 주석의 계수값은 0.346으로, FOG Index를 사용할 경우 주석의 가독성이 전체 텍스트의 가독성을 결정하는 가장 주요한 요인이 된다. 따라서 연구목적이 주석의 가독성이 아닌, 여타 텍스트의 가독성에 더욱 적합할 경우 연구목적에 따라 주의해서 가독성 측정치를 선정해야 할 것으로 보인다. LENGTH의 경우 각 섹션별 가독성이 미치는 영향은 최대 0.126으로, 특정 섹션의 가독성이 전체 가독성 측정에 미치는 영향이 상대적으로 낮음을 알 수 있다.

IV. 결론 및 한계점

이 연구의 결과, 한국어 특성이 FOG와 LENGTH에 미치는 영향은 상당히 크지만, 그 결과 사이의 상관관계는 높다는 점을 발견하였다. 따라서 이 두 측정치는 내적 정합성이 높은 것을 확인할 수 있다. 다만, 이 연구에서 제시한 방법론과 결과는 다음과 같은 한계점이 존재한다.

가장 중요한 한계점은, 위 세 방법이 실제로 "한국어 가독성"을 측정하는지에 대해서는 이 연구에서 결론내릴수 없다는 점이다. 영어를 대상으로 한 가독성 측정치가 한국어 가독성을 전혀 측정하지 못할 가능성은 여전히 존재하며, 이 연구에서 확인한 것은 한국어의 특성이 기존 가독성 측정치에 미치는 영향으로 한정된다. 둘째, 이 연구에서는 조사와 어미를 제외하였으나, 조사, 어미활용 등이 가독성에 미치는 영향이 실제로 어떨지 파악하기는 어렵다. 한국어 기반의 가독성 측정치가 개발되어야 이러한 한계가 극복될 것이다. 셋째, 비록 이 연구에서 Mecab을 사용하여 띄어쓰기를 처리하였으나, 이 역시 한계가 존재하여, 띄어쓰기를 제대로 처리하지 못하였을 가능성이 존재한다. 넷째, 회계용어의 완전한 대체 역시 이루어지기 어렵다. 매각예정자산 등, 계정명은 아니지만 회계용어가 존재하며, 이러한 경우는 여전히 결과에 영향을 미친다.

References

정태진, 임승연, 이우종, 조미옥. 우리말 사업보고서 가독성 연구의 가능성에 대한 탐색적 연구. 회계학연구. 2018;43(4):37–100.

박은정, 조성준. KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지. 제26회 한글 및 한국어 정보처리 학술대회 논문집, 2014.

  1. 정태진 외 (2018)에서는 percentage of complex words를 사용하였으나 여기서는 ratio of complex words를 사용하였다.
  2. 정태진 외 (2018) 연구에서는 음절 수를 3, 5, 7 등으로 확장하여 결과가 강건함을 보였다.
  3. 예를 들어, "회계학연구"와 "회계학 연구", 혹은 "회계저널"과 "회계 저널" 중 어떤 것이 더욱 정확한지에 대해서는 정확한 답이 존재하지 않는다.
  4. 이러한 점은 영어 텍스트에서도 마찬가지로 지적된다. tf-idf 방법론 등을 활용하여 특정 문서 집합 내에서의 단어 빈도를 추가로 반영해 익숙한 단어를 복잡한 단어에서 제외하는 방법도 고려할 수 있다.
  5. 영어의 경우 회계 용어 외에도 많은 긴 단어들이 존재하지만, 한국어 공시 텍스트에서 긴 단어는 회계 용어일 가능성이 높다.
  6. 한 문장이 담고있는 의미가 길어지면서 생기는 문장의 길이와, 어미의 활용이나 긴 용어의 사용 등으로 인해 생기는 문장의 길이는 각각 다른 의미를 가진다.
  7. 회계용어는 2015년부터 사업보고서의 재무제표에 보고된 계정명들을 주로 사용하였다. Mecab 등의 형태소 분석 툴은 회계용어에 대한 고려가 부족하기 때문에, 회계용어를 대체하지 않을 경우 형태소 분석 오류가 상대적으로 높아질 가능성이 높다.
  8. 한국어는 표음문자로, 음절의 수로 측정한 문장의 길이와 음절의 수가 동일하다.
  9. 이와 같은 문제로 인해 "복잡한 단어"의 의미를 한국어에서는 음절의 수로 측정하는 것이 적합하지 않을 수 있다.

← Archive