← 대시보드로

HeatNews 방법론

노출·신뢰도·반응 점수의 산출 공식과 데이터 처리 파이프라인

1. 데이터 수집

2. 테마 노출(prominence) 점수

각 투자 테마의 뉴스 노출량은 단순 기사 수가 아니라 다음 공식으로 산출합니다:

prominence = articleCount × 1.0 + uniquePublishers × 0.35 + termHits × 0.15 − spamPenalty

각 항목 설명

이렇게 설계함으로써 한 매체에서 같은 사건을 여러 번 다루어도 점수가 선형 증가하지 않고, 다양한 매체가 다루는 테마일수록 점수가 가산됩니다.

3. 종목 매칭 신뢰도(confidence)

한 종목이 특정 테마에 속한다는 신뢰도 점수:

confidence = min(0.2 + aliasHits × 0.26 + (aliasHit ? 0.42 : 0) + themeHits × 0.08, 0.98)

임계값과 매칭 유형

기본 표시 임계값은 confidence ≥ 0.58이며, 매칭 방식은 다음과 같이 구분됩니다:

유형설명대표 confidence
명시 언급(entity)기사에서 종목명·티커가 직접 언급된 경우0.62 ~ 0.98
하이브리드(hybrid)직접 언급 + 테마 키워드가 함께 일치0.78 ~ 0.98
테마 유사(theme)테마 키워드만 일치 (직접 언급 없음)0.28 ~ 0.65

themeHits가 누적될수록 confidence는 0.98 상한에 부드럽게 수렴합니다. 한 종목이 같은 테마에 너무 약하게 연결된 채 노이즈로 잡히지 않도록 임계값 필터를 둡니다.

4. 반응(reaction) 점수

테마의 시장 반응 점수는 신뢰도로 가중평균한 상대수익률입니다:

reaction = Σ(confidence × relativeReturn) ÷ Σ(confidence) → [-15, 15] 클램프

각 항목 설명

가중평균을 사용함으로써 신뢰도가 낮은 종목이 테마 전체 반응 점수를 크게 흔들지 않게 됩니다.

5. 중복 제거

제목을 정규화(소문자 변환 + 연속 공백 압축 + 특수문자 정리) 후 완전 일치하면 동일 기사로 처리합니다. 동일 사건을 여러 매체가 보도해도 단일 기사로 카운트되어 도배성 노출이 점수에 미치는 영향을 줄입니다.

발행 시각 차이가 크더라도 정규화 후 제목이 일치하면 단일로 묶이며, 첫 보도 기준 시각이 보존됩니다.

6. 색상·시각화

7. 예시 계산 (full walkthrough)

가상의 "2차전지" 테마를 예로 들어 점수 산출 과정을 보여줍니다. (수치는 설명용 예시이며 실제 값과 다를 수 있습니다.)

입력 데이터 (지난 1일)
prominence 계산 24 × 1.0 + 6 × 0.35 + 41 × 0.15 − 2.0 = 24 + 2.1 + 6.15 − 2.0 = 30.25

→ 2차전지 테마의 노출 점수는 30.25. 트리맵 타일의 크기를 결정합니다.

종목 매칭 (LG에너지솔루션 예시) confidence = min(0.2 + 3 × 0.26 + 0.42 + 5 × 0.08, 0.98) = min(0.2 + 0.78 + 0.42 + 0.40, 0.98) = min(1.80, 0.98) = 0.98

→ LG에너지솔루션의 매칭 신뢰도는 0.98 (상한). 임계값 0.58 이상이므로 표시 대상.

reaction 계산 (테마 내 3종목 가정)
종목변동률KOSPI 변동률relativeReturnconfidence
LG에너지솔루션+3.2%+0.4%+2.80.98
삼성SDI+1.8%+0.4%+1.40.85
포스코퓨처엠-0.5%+0.4%-0.90.72
reaction = (0.98 × 2.8 + 0.85 × 1.4 + 0.72 × -0.9) ÷ (0.98 + 0.85 + 0.72) = (2.744 + 1.19 − 0.648) ÷ 2.55 = 3.286 ÷ 2.55 ≈ +1.29

→ 2차전지 테마의 반응 점수는 +1.29. 트리맵에서 옅은 녹색 타일로 표시됩니다.

8. 한계와 가정

9. 자주 묻는 질문 (FAQ)

Q. 노출 점수가 높다는 것은 무엇을 의미하나요?

해당 테마와 관련된 기사가 단순히 많을 뿐 아니라, 여러 매체에서 보도되고 테마 핵심 키워드가 자주 등장했음을 의미합니다. 같은 매체의 도배성 기사는 spamPenalty로 감점됩니다.

Q. 매칭 신뢰도 0.58 임계값은 어떻게 정해졌나요?

수작업으로 검증한 샘플에서 false positive 비율과 recall 사이의 균형점입니다. 0.58 이상은 명시 언급 또는 강한 테마 일치를 보장하며, 이보다 낮으면 노이즈가 빠르게 증가합니다.

Q. 반응 점수가 [-15, 15] 범위인 이유는?

단기 시세의 극단값을 잘라(clamp) 시각화 색상이 외곽값에 의해 왜곡되지 않도록 합니다. 색상은 ±5%에서 포화되도록 sqrt 스케일을 적용합니다.

Q. 중복 제거는 어떻게 작동하나요?

기사 제목을 소문자 변환 + 연속 공백 압축 + 특수문자 정리로 정규화한 뒤 완전 일치하면 동일 기사로 간주합니다. 동일 사건을 여러 매체가 보도해도 단일 기사로 카운트됩니다.

Q. 벤치마크는 어떻게 선택하나요?

각 종목의 상장 시장에 따라 KOSPI 상장이면 KOSPI(^KS11), KOSDAQ 상장이면 KOSDAQ(^KQ11)을 벤치마크로 사용합니다. 상대수익률은 종목 변동률 - 벤치마크 변동률입니다.

Q. 방법론은 향후 바뀔 수 있나요?

네. 분류 사전 확장, 가중치 튜닝, 새로운 점수 항목 추가 등 지속적으로 개선합니다. 주요 변경은 본 페이지에 반영되며, 이전 점수와의 호환성보다 정확성을 우선합니다.

⚠ 모든 데이터·점수·분석은 투자 참고 자료이며 투자 권유가 아닙니다. 매매 판단은 사용자 본인 책임이며, 본 서비스는 결과에 대한 책임을 지지 않습니다.