'콘텐츠'에 해당되는 글 53건

  1. 2019.10.28 네이버가 공개하는 양질의 블로그 포스트 판독법 C-Rank
posted by 알짜 정보 岳岩 2019. 10. 28. 07:42

주제별 출처의 신뢰도와 인기도를 반영하는 C-Rank 알고리즘

지난 포스트에서는 흔히 이야기하는 '최적화 블로그'와 '저품질 블로그'의 개념이 어떻게 시작되었는지 유추해 보고, 이러한 개념에 매몰되어 불필요한 일에 노력을 집중하는 것이 왜 무의미한 것인지 이야기했습니다.

항상 자신의 블로그가 검색 결과에서 뒤로 밀리는 현상의 이유와, 이러한 현상을 벗어날 수 있는 단기 속성 꿀팁을 기대하셨던 블로거라면 지난 포스트가 쓸데없는 이야기만 길게 늘어놓고 당장의 블로그 운영엔 전혀 도움이 안 되는 실망스런 내용이라고 느끼셨을 것도 같습니다.
그러나 이른바 '검색에 잘 나오는 블로그'가 되려면, 그 시작 단계에서 올바른 문제 해결을 위해 잘못된 개념을 바로 잡고 어떻게 접근하는 것이 옳은 방식인지 설정하는 것이 필요하다고 생각합니다. 이에 대한 공감대가 얼마나 형성되어 있느냐에 따라 '네이버가 알려주는 네이버 검색'에서 드리는 말씀이 자신의 블로그 이야기가 될 수도 있고 딴 세상 이야기가 될 수도 있을 것 같습니다.

'네이버가 알려주는 네이버 검색'은 검색 이용자가 선호하거나 기피하는 블로그 유형을 블로거 여러분께 알려 드리면서 네이버 검색이 이러한 유형의 블로그를 어떻게 구분하여 제공하는지 알려드리고 있습니다.
 무조건 자신의 블로그를 검색 결과 1등으로 올릴 수 있는 꼼수를 원하신다면 앞으로 이어질 포스트는 별다른 도움이 되지 않을 수 있습니다.
항상 강조하는 내용이지만, 네이버 검색은 '검색 이용자가 만족할 수 있는 블로그'라면 검색 결과에 잘 노출되도록 네이버 검색 랭킹 알고리즘을 지속적으로 개선하고 발전시켜 나가고 있습니다.
이번 포스트에서는 검색 이용자가 선호하거나 기피하는 유형의 블로그가 어떤 기준으로 평가되고 어떻게 검색 결과에 반영되는지, 네이버 검색의 랭킹 알고리즘 중 하나인 C-Rank 알고리즘을 통해 이야기하겠습니다.

검색 결과의 랭킹을 결정하는 검색 모델(search model)

 네이버 검색 랭킹 알고리즘을 이해하기 위해서 먼저 알아두어야 할 개념이 '검색 모델(search model)'입니다.
 시스템이 모든 문서의 내용을 검토해서 문서가 좋은지 나쁜지 판단하기는 어렵기 때문에 이를 평가할 수 있는 다양한 정보와 패턴을 이용하여, 검색 이용자가 찾고자 하는 문서와 그렇지 않은 문서의 표본을 구성한 것이 '검색 모델'이라고 할 수 있습니다.
 예를 들어, 누군가 '김치'를 검색했다면 '김치'라는 단어가 포함된 모든 문서를 펼쳐 놓고, 현재 시점에서 '김치'를 검색한 사람이 찾는 문서일 가능성이 높은 순서대로 1등부터 꼴등까지 줄 세워야 합니다.
 문서에서 파악할 수 있는 요소를 바탕으로 각각의 조건별 가중치를 부여하고 그렇게 계산된 값을 기준으로 실시간에 가깝게 순서를 정하는데, 만약 이러한 검색 모델이 없다면 아래 그림의 검색 결과와 같이 시장에 갔다가 김치 가게를 지나갔다는 글이 '김치'를 검색한 결과에 가장 먼저 노출되는 경우가 생길 수 있습니다.

<검색 모델이 적용된 '관련도순' 검색 결과와 '최신순' 검색 결과>

 그리고 만약 수입 김치에서 대장균이 검출되었다는 뉴스가 화제인 상황이라면, 아래와 같이 김치 만드는 방법보다는 대장균 검출과 관련된 내용의 블로그 포스트가 검색 결과에 먼저 나오는 것 역시 검색 모델을 통해 검색 랭킹이 결정된 결과라고 할 수 있습니다.

<시의성에 따른 '관련도순' 검색 결과>

 이처럼 검색 이용자의 요구에 적합한 검색 결과를 제공하기 위해서는 어떤 문서가 더 적합한 문서인지 판단할 수 있는 단서가 필요하고, 검색 랭킹에 활용할 수 있는 유의미한 단서가 많을수록 이용자 요구에 더 적합한 검색 결과를 제공할 수 있습니다.

C-Rank 알고리즘과 네이버 라이브 검색

 검색 랭킹의 정확도를 높이기 위해 사용되는 기술 중 문서 자체보다는 해당 문서의 출처인 블로그의 신뢰도를 평가하는 알고리즘이 있는데 네이버 검색에서는 이를 'C-Rank'라고 부릅니다.
 C-Rank 알고리즘에서 블로그 신뢰도를 평가할 때는 다음과 같은 요소를 종합적으로 계산하며 그 결과는 블로그 검색 랭킹에 일부 반영됩니다.

<C-Rank 알고리즘>

 이처럼 C-Rank 알고리즘을 통해 해당 블로그가 주제별 관심사의 집중도는 얼마나 되고(Context), 생산되는 정보의 품질은 얼마나 좋으며(Content), 생산된 콘텐츠는 어떤 연쇄반응을 보이며 소비/생산되는지(Chain)를 파악해 이를 바탕으로 해당 블로그가 얼마나 믿을 수 있고 인기 있는 블로그인지(Creator)를 계합니다.
 물론 C-Rank 알고리즘은 검색 결과 순서를 결정하는 네이버 블로그 검색 랭킹 알고리즘 중 출처와 관련된 부분을 계산하는 알고리즘이기에 검색 랭킹을 C-Rank로만 설명하기엔 무리가 있습니다. 왜냐하면 만약 검색 랭킹에 출처의 인기도만 반영한다면 C-Rank값이 높은 블로그의 글만 항상 검색 결과 상위에 노출되기 때문입니다. 그래서 그 동안 C-Rank 알고리즘으로 계산된 값은 블로그 검색 결과에서 매우 제한적인 영향만 미치도록 활용되어 왔습니다.
 그러나 오랜 기간 동안의 데이터 학습과 테스트, 시스템 튜닝을 통해 끊임없이 관련 알고리즘을 개선해 왔고, 2016년 '네이버 라이브 검색'에서 라이브 검색의 서비스 특징에 맞는 일부 요소를 추가해 비로소 'C-Rank'라는 이름으로 외부에 공개하기에 이르렀습니다.
 '네이버 라이브 검색'은 특정 주제의 검색어에 대해 공통의 관심사를 가진 이용자 간의 정보 네트워크를 찾아내고, 그 안에서 현재 가장 주목 받는 문서와 생산자(Creator)의 정보를 찾아 검색 이용자와 생산자 간의 활발한 소통을 특히 강조한 검색이라고 할 수 있습니다.
 따라서 '네이버 라이브 검색'에서는 아이돌이나 게임, 여행, 방송 등 특정 주제에 대한 관심과 집중도가 높은 블로그의 포스트가 검색 결과에 더 잘 노출되도록 검색 랭킹에서 C-Rank 알고리즘의 결과를 높은 비중으로 반영하고 있습니다.

C-Rank 알고리즘과 네이버 블로그 검색

 네이버 라이브 검색에 적용된 C-Rank와 블로그 검색에 적용된 C-Rank가 같다고 할 수는 없습니다.
 라이브 검색에서는 관심사를 기반으로 주제에 따라 역동적인 검색 결과를 제공하기 위해 '좋아요'나 댓글 등의 피드백, 유사한 이용자의 네트워크 정보, 그리고 장소, 시간, 날씨 등 현재 상황에 따른 맥락을 고려하고 있는데 이러한 요소가 보통의 블로그 검색에서는 보편적으로 검색 이용자에게 만족을 준다고 할 수 없기 때문입니다.
 그러나 C-Rank 알고리즘의 기본이 되는 개념인 출처의 신뢰도와 인기도는 라이브 검색과는 또 다른 방식으로 블로그 검색 결과에 반영되고 있으며, 그 비중을 점차 늘려 가고 있습니다.
 C-Rank 알고리즘에서 블로그의 신뢰도와 인기도를 측정하는 핵심은 해당 블로그가 특정한 주제, 즉 '특정 관심사에 대해서 얼마나 깊이가 있는 좋은 콘텐츠를 생산해 내는가'입니다.
 이전 포스트에서도 의무적으로 포스팅되는 일상 글보다는 전문성을 살린 단 하나의 글이 블로그 검색 결과 노출에 더 도움 될 것이라고 말씀드린 바 있는데요, 블로그 검색 결과에 C-Rank 알고리즘 반영 비율을 높일수록 더욱 더 그러한 블로그와 그렇지 않은 블로그의 차이가 커집니다.

<C-Rank 적용 전후 블로그 검색 결과의 차이>

 위 '산후다이어트' 블로그 검색 결과 예시에서 보시는 것과 같이 C-Rank를 검색 랭킹 알고리즘에 반영했을 때와 반영하지 않았을 때의 검색 결과는 크게 차이가 납니다.
 C-Rank 적용 전에는 별다른 차별성 없는 내용의 단순 병원 홍보 글이 상단에 나오는 것과 달리. C-Rank를 적용하면 피트니스센터나 출산상담센터 등 '산후 다이어트'를 검색한 이용자에게 보다 더 유익한 정보가 검색 결과 상단에 노출됩니다. 이러한 검색 결과가 나타나는 이유는 위 피트니스 블로그에서는 다이어트에 대한 전문적인 내용을, 출산상담센터 블로그에서는 산모와 관련된 전문적인 내용을 지속적으로 포스팅했고, C-Rank에서 이러한 주제별 신뢰도와 인기도를 계산해 반영했기 때문입니다.
 만약 위 피트니스 블로그와 출산상담센터에서 주제와 관련이 없는 일상 글이 블로그에서 많은 비중을 차지하고 있었다면 결코 '산후다이어트' 검색 결과의 상위에 위치할 수 없었을 것입니다.

C-Rank에 반영되는 정보

 그럼 과연 어떤 정보가 C-Rank 알고리즘에 반영되는지 살펴보겠습니다.
 현재 C-Rank가 참고하는 데이터는 다음과 같습니다. 물론 향후 알고리즘 개선 작업에 따라 변경될 수 있지만 네이버 검색에서 블로그 검색 랭킹을 결정하기 위해 어떤 방식과 기준으로 접근하고 있는지에 대한 참고가 될 수 있을 것 같습니다.

<현재 블로그 C-Rank 알고리즘에서 참고하는 데이터>

 이처럼 기본적으로 블로그 검색에 사용하는 데이터뿐만 아니라 사이트나 인물 정보 등 다양한 데이터를 참고합니다. 이러한 데이터를 이용해서 어떤 블로그가 어떤 주제에 집중하고 있는지, 얼마나 검색 이용자에게 인기 있는 블로그인지 계산하고 있습니다.
 특히 블로그 전체에서 생산된 문서의 주제 분포로 특정 주제에 대한 집중도가 어느 정도 되는지를 계산하기 때문에, C-Rank의 반영 비중이 높아질수록 다양한 일상 주제에 대한 포스트보다는 특정 주제에 대한 자신만의 포스트가 늘어날 수록 검색 결과에서는 더 잘 노출될 수 있습니다.
 이러한 C-Rank 알고리즘은 특정 분야에 집중해서 전문적인 내용을 포스팅하는 블로그가 그렇지 않은 블로그에 비해 검색 이용자들로부터 선호된다는 통계에 근거하고 있습니다.
 과거의 검색 랭킹 알고리즘이 질의에 대한 유사도와 문서의 품질, 사용자 반응으로 구성된 것과 달리, 주제별로 품질을 계산하고 출처의 신뢰도와 인기도를 검색 랭킹에 적절히 반영했을 때 검색 이용자의 검색 만족도가 높아진다는 가설과 실험 결과를 바탕으로 좋은 문서를 추정하고 있으며 그 정확도를 높이기 위해 검색 랭킹 알고리즘을 계속 개선해 나가고 있습니다.

C-Rank 알고리즘의 한계와 개선 방향

 그런데 위에서 설명드린 C-Rank 알고리즘에도 명확한 한계가 있습니다. C-Rank 알고리즘을 통해 계산된 결과가 검색 랭킹에 많이 반영되면 될수록 문서 자체의 품질보다는 출처의 품질에 따른 결과가 검색 결과에서 강조될 가능성이 있다는 점입니다.
 물론 좋은 블로그에서 좋은 문서를 포스팅할 확률은 그렇지 않은 블로그보다 높다고 할 수 있겠으나 좋은 블로그라고 항상 좋은 글만, 나쁜 블로그라고 항상 나쁜 글만 생산하는 것은 아니기 때문입니다.
 그렇기 때문에 C-Rank 알고리즘을 확대해 반영할수록 지난 포스트에서 설명드린 속칭 '최적화 블로그'나 '저품질 블로그'라고 이야기되는 것과 유사한 현상이 나타날 수 밖에 없고, 이러한 현상이 많은 블로거분들께 쉽게 해결할 수 없는 고충으로 작용하기에 C-Rank 알고리즘 역시 많은 개선과 테스트를 진행하고 있습니다.
 그러나 남들과 다른 나만의 차별적인 콘텐츠가 검색 결과에 잘 노출될 수 있도록 하는 네이버 블로그 검색의 방향성은 앞으로도 쉽게 바뀌지 않을 것이며, C-Rank 등 검색 알고리즘을 지속적으로 개선하여 검색 결과의 품질을 높여 나갈 예정입니다.
 어떤 블로그가 좋은 블로그이고 어떤 블로그가 나쁜 블로그인지 시스템이 사람처럼 절대적인 기준을 갖고 평가할 수는 없습니다. 그렇게 때문에 결국 좋은 문서라고 여겨지는 문서를 모아 놓고 그 문서의 공통된 특징을 패턴화하여 이러한 패턴이 많이 관찰되는 문서를 좋은 문서로 판별하고 있습니다.
 결국 블로그 검색 랭킹은 이러한 좋은 패턴과 나쁜 패턴이 얼마나 많이 탐지되는지에 따라 결정된다고 할 수 있는데, 그렇기 때문에 단기간에 검색 결과에 잘 나오는 블로그로 만드는 것은 어려울 수 있습니다. 그러나 그렇다고 아무리 노력해도 검색 결과에서는 항상 뒤쳐지는 블로그로만 남는 것은 아닙니다.
 만약 블로그 검색 랭킹과 관련해 고충을 겪고 계시다면, 이러한 랭킹 알고리즘의 특성에 대한 이해 없이 떠도는 루머에 휘둘려 의무적인 포스팅만 계속하는 대신, '네이버가 알려주는 네이버 검색'에서 소개해 드리는 사례를 참고해 새로운 시각에서 블로그를 운영해 보시는 것은 어떨까요?
검색 이용자가 선호하는 블로그와 기피하는 블로그의 유형, 그리고 네이버 블로그 검색 랭킹을 결정하는 검색 랭킹 알고리즘에 대한 이야기는 앞으로도 쭉 '네이버가 알려주는 네이버 검색'에서 소개해 드리겠습니다. /네이버검색 세상만사

댓글을 달아 주세요