3. 데이터 마이닝을 어떻게 할 것인가 - Investigative Journalism Manual

단언컨대, 데이터 마이닝은 단서를 찾는 데 도움이 되는 가장 객관적인 절차다. 어떤 데이터로 시작해야 올바른 방향으로 나아갈 가능성이 클지 생각해보라.

(A) 간호사가 도둑질했다는 환자의 민원 1건이 좋은 데이터일까? (B) 아니면 보건당국의 지난 5년간 절도행위 징계청문·해임 결과 DB가 나을까? 모든 정보가 그런 것처럼 통계조차도 조작될 수 있으며 잘못된 정보를 주기 위해 이용될 수 있다. 그러나 효과적으로 DB를 ‘마이닝’한 결과, 지난 10년 동안 굉장히 중요한 기사들이 나올 수 있었다는 점을 유념해야 한다.

국제적인 데이터에서 훨씬 연관성이 큰 결과를 얻을 수 있다. 예를 들어, 개발 원조 국가들은 해당 연도에 자금을 어떻게 썼는지에 대해 보고서를 발간하기도 한다. 원조국들의 데이터를 수집·분석해서 ‘원조국 지원금, 공무원 연수에 최다 지출’과 같은 헤드라인으로 시작하는 기사를 쓸 수도 있다.

데이터베이스 마이닝은 항상 재정에 관한 것은 아니다. 소셜 네트워크 분석은 테러리스트 네트워크, 정당 지지자, 특정 지역 사회에서 가장 영향력 있고 부유 한 사람들에 대한 이야기를 만들어 낼 수 있다. 이러한 네트워크는 특정 직업의 구성원, 지리적인 커뮤니티 또는 정당의 저명한 사람들에 관한 게 될 수도 있다. 그들이 얼마나 많은 돈을 벌었는지, 그들이 함께 일하고 만난 사람이 사회에 미치는 영향에 대해 알려주는 소셜 네트워크 그림을 그리는 데이터를 결합 할 수도 있다.

다른 저널리스트나 타 기관의 DB를 이용하면서도 필요한 모든 데이터는 스스로 구축하는 게 중요하다. 당신이 참조하는 저널리스트와 기관들은 DB에 정보를 저장할 때 주제별로 태그를 붙여둔다. 해당 DB에는 기사, 조사·연구결과, 연락처 등이 담겨 있을 것이다. 이런 정보를 배경 조사 (background research) 에 활용할 수 있다. 미국과 유럽에서는 탐사 저널리스트들이 전 세계 언론인이 사용할 수 있도록 정보 수집용 DB를 구축하는 기관도 설립했다.

미국 컴퓨터활용보도협회 (NICAR·The National Institute for Computer-Assisted Reporting) 는 쿠바 관타나모 미국 해군기지 수용소 수감자들에 대한 DB를 구축해 공개하기도 했다.