| 실시간 급상승 검색어 조작 논란에 종지부를 찍자
내 생각/이슈 | 2008/06/13 23:18

일단 정리를 하죠. 관련 글입니다.

네이버에 관련한 제 글 :
반복되는 "실시간 검색어 순위" 조작 음모론

네이버는 정말 악의적인 뉴스 편집을 하고 있을까? - 포탈의 언론화에 대한 논의
네이버는 독점이 아니다
인터넷의 언론화 - 우려했던 일

네이버의 입장:
http://tw.naver.com/

======================================================================

결국 네이버 게시판에 올라온 해명대로라면 "실시간 급상승 검색어"의 원리는 제가 전에 올렸던 글에서 설명했던 내용과 같습니다.

그러니까, 누적 검색어 순위와 급상승 검색어 순위의 차이는 함수값접선의 기울기 크기의 차이와 같다는 거죠. (정확한 비유는 아니지만요.)

제가 처음 "급상승"이라는 단어를 들었을 때는 바로 접선의 기울기가 떠올랐어요. 그게, 제 전공이 물리학인지라..-_-;; 학교 다닐 때 맨날 했던 일이 속도 구하고 가속도 구하는 일이었거든요. (가속도는 속도 그래프의 접선의 기울기 크기죠. 속도를 시간에 대해 미분하면 가속도가 됩니다.) 그래서 제가 보기엔 아닌데, 사람들이 왜 급상승 순위가 조작됐다고 말하는지 잘 이해가 안 갔죠.

그런데 곰곰 생각해보니 기울기 개념에 익숙치 않은 분은 이해가 쉽게 안 가실만도 할 것 같네요.

하여튼, 전에 설명에 덧붙여 움직이는 그림으로 급상승 순위 선정 원리를 표현해 봤어요. 아래 그래프는 실제 데이터는 아니고, 그냥 이해하기 쉽도록 가상적으로 그려본 것입니다.

사용자 삽입 이미지

실시간 급상승 순위 선정 원리



그러니까, 누적 순위는 검색어 A가 B보다 항상 높지만, 기울기의 크기를 비교하면 A,B의 순위가 수시로 바뀌는 것을 볼 수 있죠? 기울기의 크기가 곧 실시간 급상승 순위입니다. 그리고 저런 그래프 모양이 나오는 것은 크게 이상하지는 않죠. 그러니 검색어가 순위에서 갑자기 사라지는 것도 충분히 나타날 수 있는 일입니다.

실시간 급상승 순위의 단점은 누적 검색수가 높은 검색어일 수록 더 빨리 순위에서 사라질 수 있다는 점입니다.  누적 검색 수가 10에서 20이 될 때의 기울기와, 1000에서 2000이 될 때의 기울기가 같거든요. 이 경우에 두 검색어의 급상승 순위는 똑같습니다. 그러니까 누적 검색수가 높은 검색어는 그 검색 수가 기하급수적으로 증가하지 않는 이상, 금방 순위에서 사라지게 됩니다.

"이명박" 같은 검색어는 누적 검색수가 높은 편이니 실시간 급상승 순위에서 갑자기 사라질 확률이 더 높았겠죠.

어쨌든 이걸로 급상승 검색어 조작 루머는 더이상 확대되지 않았으면 합니다. 

이제 슬슬 포탈의 언론화에 대한 논의를 하는 것이 더 생산적일 것 같아요.


덧글:  그리고 위 그림은 제가 네이버 해명글과 도움말을 읽고 추정한 것이니, 네이버의 알고리즘은 저것과 다를 수도 있습니다. 참고해주세요.
2008/06/13 23:18 2008/06/13 23:18
- Related Posts :
v Trackback(0) |  v Comment(14)  

  Trackback Address ::    http://mcfrog.org/tt/trackback/809


  1. 양치기오빠 2008/06/14 01:48  address  modify / delete  reply

    ㅎㅎ 그렇게 생각하면 안되죠.
    접선은 한 점에서 변화율입니다. 네이버의 설명대로라면 <기준시간 내에 입력 횟수의 증가비율이 가장 큰 검색어>입니다. 즉 분모의 측정시간이 점이 아니라 구간이라는 말입니다.
    이해되시나요?

    • mcfrog 2008/06/14 08:46  address  modify / delete

      네. 접선의 기울기를 실제로 구할 땐 구간을 정해서 하죠. dy/dt 에서 dt를 짧은 시간으로 주고요. 보통은 부드러운 곡선을 구할 수 없으니까요.

      그리고 네이버에서는 dt를 거의 분 단위로 하는 것 같으니까 이 정도면 충분히 한 점에서 변화율이라고 말할 수 있습니다.


  2. DP 2008/06/14 06:04  address  modify / delete  reply

    지금 제기하시는 근거는 말이 안됩니다. 정말 급상승의 기준이 시간당 증가율이라면 아직도 상위권인 서강대녀는 지금 대체 얼마나 검색된다는 소리입니까? 어제 아침부터 현재까지 계속 급상승이었으니 무슨 지금은 시간당 수억 건 검색되나보죠?

    • mcfrog 2008/06/14 08:51  address  modify / delete

      제가 보기엔 서강대녀 그렇게 하루 종일 걸려있진 않았습니다. 올라갔다 내려갔다를 반복하면 충분히 가능한 일이고요.

      그리고 "서강대녀"라는 단어가 평소에는 *거의* 검색될 일이 없었던 검색어니까, 굉장히 낮은 숫자부터 시작했겠고 그럼 충분히 오랜 시간 걸릴 수 있죠.


  3. 버즈 2008/06/14 08:49  address  modify / delete  reply

    가장 중요한것은 민감한 키워드만 삭제가 되었다는겁니다 우연이라고 하기엔 한두번이 아니지요...

    • mcfrog 2008/06/14 08:59  address  modify / delete

      뭔가 순위가 자주 변한다고 할 때, 민감한 키워드만 계속 보고 있다보면 우연이 아닌 것처럼 느껴집니다. 일종의 머피의 법칙이죠..

      이런 말도 가능하거든요.

      "저는 전에 계속 봤는데 "연예인 이름"들이 갑자기 사라지더군요. 이것은 네이버가 기획사의 사주를 받고 다른 기획사 연예인의 인기를 죽이려고 조작하는 것이다." 라고요.

    • 버즈 2008/06/14 09:10  address  modify / delete

      물론 그 가능성에 대해서도 인정합니다. 아까 말하려고도 했었구요... 그런데 그 정치적인 키워드를 누가 짜고서 단시간에 올렸다고 보기엔 힘든점이 있기때문에 네이버의 손이 작용했을 가능성을 크게보는겁니다.

    • mcfrog 2008/06/14 09:25  address  modify / delete

      정치적인 키워드가 단시간에 올라가서 생긴 문제라기보단, 단시간에 내려가서 생긴 문제니까요..음.

      그러니까 정치적인 단어를 밀어낸 검색어를 누가 짜고서 단시간에 올렸다고 보기 힘들다고 말씀하시는 거죠?

      굳이 짜지 않아도 그 정도는 가능할 것 같아요. 키워드가 교체되는 것은 늘상 있는 일이고요..


  4. 버즈 2008/06/14 08:51  address  modify / delete  reply

    우연이라고 하기엔...

    (글좀 써볼려고헀더니 계속 금칙어가 들어있다고하네요 -_- 찾아봐도 도저히 금칙어가 뭔지 모르겠어서 포기합니다)

    • mcfrog 2008/06/14 08:56  address  modify / delete

      아..죄송합니다. 휴지통에서 댓글 살렸어요. ;;

    • mcfrog 2008/06/14 08:57  address  modify / delete

      저기서 금칙어가 될만한 건 안 보이는데 왜 안 올라갔는지 잘 모르겠네요.;;


  5. neo 2008/06/14 11:01  address  modify / delete  reply

    실시간 급상승 검색어 차트 순위가 차라락 바뀌면서 1회 로테이션 하는 시간은 불과 10-15초 남짓입니다. 요컨대 10-15초 단위로 끊어서 단순 누적 쿼리수 순위로 보여주더라도 이슈가 되고 있는 검색어 순위를 충분히 보여줄 수 있지 않을까요? 상승률을 잡는 기준이며 산출 방법이 베일에 쌓여진 이상 상승률이라는 요소는 오히려 듣보잡 검색어의 등장이나 어뷰징을 가능케 함으로써 순위 공신력과 품질에 오해를 불러 일으키는 요소란 생각이 듭니다.

    최근엔 유심히 안 봐서 잘 모르겠습니다만 얼마전까지는 새벽녁에 네이버 가면 실시간 급상승 검색어에 와우 인벤, 리니지 플포, 아이템베이 같은 현거래 온라인 게임 관련 검색어가 주로 상주하고 있었는데요. 걸려 있는 기간이 하루 이틀, 일주일 정도라면 점점 이슈가 파급되면서 상승률이 유지되고 이에 따라 차트에 거의 상주하다시피 되는 것이라 이해할 수 있을텐데, 평소의 평균적인 쿼리수 대비 상승률 기준으로 랭킹이 매겨지는 차트에서, 하나의 검색어가, 하루 이틀 일주일 수준이 아닌 일 년 가까이, 특정 시간대 3-5 시간에 걸쳐 차트에 상주한다는 게 상당히 의아했습니다. 과연 기준이 되는 분 단위의 단순 누적 쿼리가 어느 정도 폭으로 증가해야 네이버라는 1위 포탈에서 일년 가까운 상주가 가능할 지 궁금했고요.

    해명하고자 한다면, 사태가 심각하다고 느낀다면, 문제가 되는 키워드들의 해당 기간 분당 쿼리수 데이타와 산출 로직을 공개하는 게 차라리 심플하지 않나 싶기도 하고 그렇습니다.

    • mcfrog 2008/06/14 12:30  address  modify / delete

      동의합니다. 산출 로직을 완전히 다 뒤집어서 보여주면 괜찮을 것 같아요. 회사 비밀이려나;;;

      그래도 tw.naver.com 에서는 기본적인 해명 논리도 읽지 않고 욕하시는 분들이 너무 많아서요 -_-; 그러고 있으면 오해한다는 표현 말고 달리 할 말이 없는 거기도 하고요..


  6. 카이 2008/06/18 00:52  address  modify / delete  reply

    검색은 단순한 시스템이 아니라 앞으로 IT 에서 없어서는 안될 그리고 가장 핵심이 될 분야입니다.

    검색 알고리즘은 복잡하더라도 수식 하나로 만들어 질수 없는 것이고, 상황에 따라서 또 여러 변수에 따라서 변경이 되게 되어있습니다.

    실시간 급상승 검색어 뿐만 아니라, 검색시 사이트의 순위를 매기는 방법 또한 마찬가지 입니다. 구글의 경우 페이지 랭킹 알고리즘이 많이 알려져 있습니다. 그런데 이 알고리즘이 전부가 아니고 사이트 랭킹을 결정하는 수십개의 방법이 더 있습니다. 이건 구글의 1급 기밀에 속합니다.

    왜냐면 이런 방법이 알려질 경우 악용하여 사이트 랭킹을 조작하는데 사용될 가능성이 높기 때문입니다.
    랭킹 조작으로 검색엔진의 신뢰도가 떨어지면, 결국 그 검색엔진의 생명은 끝나는 것이죠.

    아무튼 검색 알고리즘은 검색사이트마다 고유의 방법이 있고 검색엔진의 생명과도 같은 부분이라 공개할 수 없고 이걸 따로 일일이 설명할 수도 없는 부분입니다.
    물론 이점이 양날의 검처럼 장/단점이 있습니다.


Post a comment.


[Login][OpenID?]


>> top

# Menu

@ Tags

단상     감상   이슈   생활   영화   독서록   잡담   블로그   독서   미술   창작   그림   우리말   재미   최근에 산 책   과학   게임   애니메이션   네이버   국어   생각   따라하기   보드게임   음악   사회   수학문제   수학   물리학   종이씨의 편지  

@ Category

분류 모두 보기 (815)
mcfrog는 (1)
(111)
종이씨의 편지 (17)
과학, 수학 (45)
내 관심 (200)
내 생활 (123)
내 생각 (198)
기타 (120)

@ Recent Comments

@ Recent Trackbacks

. 사이의 생각
- bcc's me2DAY
. 직육면체가 특정한 면으로 착...
- 추유호's encyclopedia
. foldit - 과학 발전에 도움이...
- 추유호's encyclopedia
. 번역의 공격과 수비
- The note of Legendre
. [Wheatfield with Crows] by...
- 바람나무, 생각가는대로
. [Angel] by Sarah McLachlan...
- 바람나무, 생각가는대로

@ Monthly Archives


@ Search

@ Contact


@ RSS Feed

Add this blog to HanRss
Creative Commons License 이 블로그의 모든 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 3.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
This blog is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.
Powered by Textcube 1.7.8. Designed by mcfrog.*