구글 콘텐츠 랭킹 방식과 원인 밝혀져

발견된 취약점, 구글 검색 알고리즘에 대한 단서

마크 윌리엄스-쿡(Mark Williams-Cook)이 발견한 취약점은 구글이 검색 질의와 웹사이트를 분류하기 위해 사용하는 2,000개 이상의 속성을 밝혀냈다. 이 중에는 합의 점수(consensus scoring)와 검색 질의 종류와 같은 구체적인 분류 방법도 포함되어 있다.


구글 검색 알고리즘의 작동 방식, 새로운 통찰 제공

올해 초 Content API Warehouse의 데이터 유출 사건 이후, 이번 발견으로 인해 구글의 점수 산정, 분류 방식, 사이트 품질 평가 방식에 대한 추가적인 정보가 드러났다. 특히, 구글은 콘텐츠 내에서 "일반적 합의"와 일치하거나 모순되거나 중립적인 문장 수를 기반으로 '합의 점수'를 산출하며, 이러한 점수는 특정 검색 질의의 순위에 영향을 미칠 가능성이 높다.


구글의 검색 질의 8가지 분류

구글은 거의 모든 검색 질의를 다음의 8가지 세분화된 의미적 분류로 정리한다.

  1. 짧은 사실(Short Fact)
  2. 예/아니요 질문(Bool)
  3. 기타(Other)
  4. 설명서(Instruction)
  5. 정의(Definition)
  6. 이유(Reason)
  7. 비교(Comparison)
  8. 결과(Consequence)

이와 같은 분류 방식은 검색 질의 유형에 따라 알고리즘이 어떻게 조정되는지를 결정한다. 특히, 'Your Money or Your Life'(YMYL)와 같은 민감한 주제에 대해 구글은 다른 순위 가중치를 적용한다는 것이 알려져 있다.


검색 순위에 영향을 끼치는 '사이트 품질 점수'

윌리엄스-쿡에 따르면, 구글의 검색 결과는 사이트 품질 점수(site quality score)에 따라 영향을 받는다. 이 품질 점수는 브랜드 가시성, 사용자 상호작용, 웹 전반에서의 앵커 텍스트 적합성을 기반으로 계산된다. 특정 기준 수준에 미치지 못하는 사이트는 일부 검색 기능을 사용할 자격이 제한될 수 있다.


클릭 가능성과 순위의 간접적 연관성

구글은 클릭율(CTR)을 직접적으로 순위 매기기에 사용하지는 않지만, 유기적 검색 결과에 대해 '클릭 가능성(click probability)'을 계산하는 것으로 보인다. 이는 검색 사용자가 특정 결과를 클릭할 가능성을 기반으로 한다. 흥미롭게도, 제목(title)을 수정하면 이러한 클릭 가능성에도 변화가 일어난다.


데이터 분석의 결과와 취약점 보상

윌리엄스-쿡과 그의 팀은 총 2테라바이트 용량의 데이터와 9천만 건 이상의 검색 질의를 분석했다. 이번 발견으로 인해 구글로부터 엔드포인트 취약점을 발견한 대가로 보상을 받았다.

출처 : 원문 보러가기