English | 한국어

About Multilingualism

이중언어에 대하여

In Multilingualism and biculturalism, James P. Soffietti says that being multilingual is a conflict between ways of life, beliefs, customs, and value systems. He also claims that cases of perfect bilingual and biculturalism are extremely rare, if at all possible. In linguistics, code-switching occurs when a speaker alternates between two or more languages, or language varieties, in the context of a single conversation (i.e. dialect). Third culture kid (TCK) or third culture individual (TCI) are terms used to refer to children raised in a culture other than their parents’ for a significant part of their early development years.

이중 언어와 이중 문화에서 제임스 P. 소피에티는 다국어 사용이 삶의 방식, 신념, 풍습, 가치 체계 사이의 갈등이라고 말합니다. 그는 또한 완벽한 이중 언어 및 양성 문화의 사례가 가능하다면, 그 경우는 극히 드물다고 주장합니다. 언어학에서, 코드 전환은 화자가 하나의 대화 맥락에서 두 개 이상의 언어 또는 언어 다양성을 전환 할 때 발생합니다 (예를 들어, 방언). 제 3 문화 어린이 (TCK) 또는 제 3 문화 개인 (TCI)은 초기 발달 시간의 상당 부분을 부모 이외의 문화에서 자란 자녀를 가리키는 용어입니다.

About Persona A

페르소나 A에 대하여

"A" is a good example of TCK - she left her country in age of 14, and spent most of her years in Canada and the United States. Despite of the time she physically spent outside of Korea, she still strongly felt she was mentally belonged to Korea. However, as the time she stays outside of Korea gets longer and has diverse relationship, she realizes that her frequency of using English and Korean has been changed.

Although she doesn't always record herself, her footage of using different languages in internet is tracked by Google Chrome history. By using its visit history, it will be possible to track her language usage in timeline, as well as via different keywords.

"A"는 TCK의 좋은 예입니다. 그녀는 14세에 그녀의 나라를 떠났고 캐나다와 미국에서 대부분의 해를 보냈습니다. 그녀가 육체적으로 한국 밖에서 보낸 시간에도 불구하고, 그녀는 여전히 그녀가 정신적으로 한국에 속한다고 느꼈죠. 그러나 그녀가 한국 밖에서 머무르는 시간이 길어지고 다양한 관계를 가지면서, 그녀는 그녀의 영어와 한국어 사용 빈도가 바뀌어왔음을 깨닫습니다.

그녀는 항상 자신을 녹음하지는 않지만 인터넷에서 다른 언어를 사용하는 순간은 구글 크롬 기록에 의해 추적됩니다. 이 방문 기록을 통해, 타임 라인이나 다양한 키워드를 통해 자신의 언어 사용을 추적 하는 것이 가능해 집니다.

How to Track

분석 방법

The following analysis uses Chrome history titles from 1/15/2018 to 4/15/2018. Each numeric information was extracted in following ways:

다음 분석에서는 2018 년 1 월 15 일부터 2018 년 4 월 15 일까지의 크롬 기록 제목을 사용합니다. 각 숫자 정보는 다음과 같은 방법으로 추출됩니다.

  • en = [item for item in titles if re.search(r"^[^가-힣ㄱ-ㅎㅏ-ㅣぁ-んァ-ン一-龥]*$", item) and len(item)>0]
  • kor = [item for item in titles if re.search(r"[ㄱ-ㅎㅏ-ㅣ가-힣]", item) and len(item)>0]
  • jp = [item for item in titles if re.search(r"^[^가-힣]*$", item) and re.search(r"[ぁ-んァ-ン一-龥]", item) and len(item)>0]
  • none = [item for item in titles if len(item)==0]
Title Number
En 10927
Kor 2977
Jp 70
None 5337

There was a large amount of empty titles, which I assumed as a default page when you open up Chrome browser. When I looked into them, they were actually consisted of many different languages, yet being absent in titles. Japanese became one of the categories merely because I found out that they were the only titles that left by debugging numbers. Both of JP and NONE categories are interesting, yet I decided to focus on EN and KOR because they're my two main languages.

원래 무제들은 크롬 브라우저를 열었을 때 나오는 기본 페이지로 추측했지만, 실제로 그것들을 보았을 때 여러 언어로 구성되어 있는 장소들 이라는 것을 알 수 있었습니다. 일본어는 디버깅으로 남겨진 유일한 제목이라는 것을 알았기 때문에 카테고리 중 하나가되었습니다. 일본어와 무제 카테고리들 모두 흥미롭지만, 두가지 주 언어인 영어와 한국어에 초점을 맞추기로했습니다.

Monthly Chrome History

월간 크롬 히스토리

First attempt was to break down the history in monthly timeline. Each numeric information was extracted in following ways:

첫번째 시도는 월별 타임라인으로 데이터를 분석하는 것이였습니다. 각 숫자 정보는 다음과 같은 방법으로 추출되었습니다.

  • apr = re.search(r"^4/", elt["lastVisitTime"])
  • mar = re.search(r"^3/", elt["lastVisitTime"])
  • feb = re.search(r"^2/", elt["lastVisitTime"])
  • jan = re.search(r"^1/", elt["lastVisitTime"])
Month EN KOR
Jan 2385 471
Feb 2916 908
Mar 3655 1099
Apr 1971 499

However, soon I realized that because the data starts from 15th day of the month - it will make more sense to break it down as 30 days period. In that way, it can avoid having irregular results between half-month and full-month.

그러나 곧 데이터가 매월 15 일부터 시작되므로 30 일 기간으로 나누는 것이 더 합리적이라는 것을 깨달았습니다. 그런 식으로 반기와 만기 사이에 불규칙적 인 결과를 피할 수 있습니다.

  • 1st = re.search(r"\b(?:1/(1[5-9]|[2,3][0-9])|2/(\d|1[0-3]))\b", elt["lastVisitTime"])
  • 2nd = re.search(r"\b(?:2/(1[4-9]|2[0-8])|3/(\d|1[0-5]))\b", elt["lastVisitTime"])
  • 3rd = re.search(r"\b(?:3/(1[6-9]|[2,3][0-9])|4/(\d|1[0-5]))\b", elt["lastVisitTime"])
Month EN KOR
1st 4006 806
2nd 3370 1090
3rd 3551 1081

After regrouping titles in this way, it is visible that the graph is no longer in reversed U-shape due to half and full month difference. On another hand, it is still hard to see any interesting patterns in this result. It might be necessary to break down the data into smaller timeline in order to see any significant relationship.

이 방법으로 카테고리를 재분석하는 방법은 그래프가 반월 및 월간 차이로 인해 역 U자 모양을 형성하는 것을 막아줍니다 . 반면에, 이 결과에서 흥미로운 패턴을 보는 것은 여전히 ​​어렵습니다. 중요한 관계를 보기 위해 데이터를 더 작은 타임 라인으로 분할해야 할 수도 있습니다.

Weekly Chrome History

이중언어에 대하여

The next step was organizing them in weekly manner. The week cycle will starts at Mon and ends at Sun. Each numeric information was extracted in following ways:

다음 단계는 주 단위로 정리하는 것이 었습니다. 주간주기는 월요일에 시작하여 일요일에 끝납니다. 각 숫자 정보는 다음과 같은 방법으로 추출되었습니다..

  • week1 = re.search(r"\b(1/(1[5-9]|2[0,1]))\b", elt["lastVisitTime"])
  • week2 = re.search(r"\b(1/2[2-8])\b", elt["lastVisitTime"])
  • week3 = re.search(r"\b(?:1/(29|3[0-9])|2/[0-4]/2018)\b", elt["lastVisitTime"])
  • week4 = re.search(r"\b(2/([5-9]/2018|1[0,1]))\b", elt["lastVisitTime"])
  • week5 = re.search(r"\b(2/1[2-8])\b", elt["lastVisitTime"])
  • week6 = re.search(r"\b(2/(19|2[0-5]))\b", elt["lastVisitTime"])
  • week7 = re.search(r"\b(?:2/(2[6-9]|3[0-9])|3/[0-4]/2018)\b", elt["lastVisitTime"])
  • week8 = re.search(r"\b(3/([5-9]/2018|1[0,1]))\b", elt["lastVisitTime"])
  • week9 = re.search(r"\b(3/1[2-8])\b", elt["lastVisitTime"])
  • week10 = re.search(r"\b(3/(19|2[0-5]))\b", elt["lastVisitTime"])
  • week11 = re.search(r"\b(?:3/(2[6-9]|3[0-9])|4/1/2018)\b", elt["lastVisitTime"])
  • week12 = re.search(r"\b(4/[2-8]/2018)\b", elt["lastVisitTime"])
  • week13 = re.search(r"\b(4/(9|1[0-5]))\b", elt["lastVisitTime"])
01 970 193
02 982 238
03 891 134
04 940 200
05 525 150
06 680 360
07 947 361
08 1171 246
09 569 100
10 753 212
11 543 315
12 817 191
13 1139 277

It was interesting to see how they started to form a pattern of repeating decreasing and increasing - almost like a wave pattern.

주간 데이터가 물결 무늬처럼 감소하고 증가하는 패턴을 형성하는 것이 흥미로웠습니다.

What Composes KOR

한국어 이용 분석

Unlike Enlgish results, it was much easier to analyse the Korean ones because of its relatively small number. So far, it was possible to define 77% of the Korean visit history, in terms of what services I used. Each numeric information was extracted in following ways:

영어 결과와 달리 상대적으로 적은 수의 한국어 제목은 분석이 훨씬 쉬웠습니다. 지금까지 내가 사용한 서비스의 관점에서, 한국 방문 기록의 77 %를 정의 할 수있었습니다. 각 숫자 정보는 다음과 같은 방법으로 추출되었습니다.

  • kor_google = [line for line in kor if re.search(r"[Gg]oogle", line)]
  • kor_youtube = [line for line in kor if re.search(r"[Yy]ou[Tt]ube", line)]
  • kor_namu = [line for line in kor if re.search(r"나무위키", line)]
  • kor_ppss = [line for line in kor if re.search(r"ㅍㅍㅅㅅ", line)]
  • kor_naver = [line for line in kor if re.search(r"네이버", line)]
  • kor_insta = [line for line in kor if re.search(r"[Ii]nstagram", line)]
Service Number
Namu 697
YouTube 2975
Others 679
Naver 519
Google 281
Instagram 32

The following method left unclear results in terms of distinguishing these services, as many of them provide multidisciplinary functions. On another hand, the method was not always successful because I had to arbitrarily guess those keywords. In fact, it was hard to analyze which services compose the number of English visits, due to its large size and diversity. At this point, what seemed more interesting was looking for further keywords that are not limited to domains; and letting computer to filter them.

한국어로 방문한 제목의 출처가 어디에서 왔는가하는 점은 확실히 흥미로웠지만, 동시에 서비스의 목적을 구분하기는 어려웠습니다. 많은 출처가 다 분야 기능을 제공했기 때문입니다. 좀 더 자세한 정보를 얻으려면 연습에서했던 것처럼 자세한 키워드를 찾아야합니다. 이 방법에 대한 힘든 점은 키워드를 추측해야한다는 것입니다. 제시 된 방법은 이러한 서비스들을 구별하는 측면에서 불명확한 결과를 낳았습니다. 많은 출처가 다 분야 기능을 제공했기 때문입니다. 또한, 나는 그 키워드를 임의로 추측해야했기 때문에이 방법이 항상 성공적이지는 않았습니다. 실제로 크기와 다양성으로 인해 영어로 된 방문 제목들을 분석 하는 것은 어려웠습니다. 이 시점에서 더 흥미로운 아이디어는 도메인에 국한되지 않는 추가 키워드를 컴퓨터로 필터링해 찾아내는 것이였습니다.

Top 20 Keywords

키워드 상위 20

For the last part, I involved spaCy and Counter to collect the top 20 keywords in both languages. Each numeric information was extracted in following ways:

마지막으로, spaCy와 Counter를 사용하여 두 언어로 상위 20개의 키워드를 수집했습니다. 각 숫자 정보는 다음과 같은 방법으로 추출되었습니다.

  • kor_counts = Counter([item.text.lower().strip(",.;:") for item in kor_tokens if item.is_alpha and item.text.lower().strip(",.;:") not in stopwords])
  • kor_counts.most_common(20)
  • en_counts = Counter([item.text.lower().strip(",.;:") for item in en_tokens if item.is_alpha and item.text.lower().strip(",.;:") not in stopwords])
  • en_counts.most_common(20)
EN-Key KOR-Key
google youtube
search 나무위키
new 네이버
youtube google
york search
university 블로그
mail 통합검색
alice 검색결과
sun 영어사전
gmail 音思提资
wordpress 신의탑
blog 인티포털
nyu 풍월량
master 웹툰
design ㅍㅍㅅㅅ
linkedin 호라이즌
edit 제로
code 레진코믹스
post 만화
data mv

Many times these keywords suggested what kind of content or service I was visiting. However, at the same time many of them contained multidisciplinary services and broad topic. Another problem was due to their nature to be collected between spaces, certain words are rather divided in weird way. For example, “new” and “york” ranked as two separate words but they should be counted as one word: “new york”.

이 키워드들을 통해 방문한 콘텐츠 또는 서비스의 종류를 추측할 수도 있었지만, 동시에 많은 경우가 여러 서비스와 광범위한 주제를 다루었습니다. 또 다른 문제는 스페이스를 기준으로 나눠지는 특성상, 어떤 단어들이 이상하게 분리되어졌다는 점이었습니다. 예를 들어, "new"와 "york"는 두 개의 별개 단어로 평가되었지만 "new york" 한 단어로 계산되어야합니다.



  • "A" has a weekly cycle of internet usage.
  • Monthly cycle was not that significant, possibly due to spring semester.
  • EN and KOR correspond inversely in the weekly cycle.
  • Google, YouTube, and “search” are all in top 5 keywords, in both languages.
  • Top 1 keyword in EN is Google. Top 1 keyword in KOR is YouTube.
  • Majority of KOR keywords are game, animation, entertainment, and casual discussion/wiki related.
  • Majority of EN keywords are personal account, education, work, and email contact related.
  • 주간 인터넷 사용주기가 있습니다.
  • 월간주기가 그다지 중요하지 않았습니다. 아마도 봄 학기 때문일 것입니다.
  • EN 및 KOR은 매주주기에 반비례합니다.
  • Google, YouTube 및 '검색'은 두 언어에서 모두 탑 5 키워드 안에 들었습니다.
  • EN의 탑 키워드는 Google입니다. KOR의 탑 키워드는 YouTube입니다.
  • KOR 키워드의 대다수는 게임, 애니메이션, 엔터테인먼트, 일상적 토론 및 위키와 관련 있습니다.
  • 대부분의 EN 키워드는 개인 계정, 교육, 직장 및 이메일 연락처와 관련이 있습니다.