Khai phá dữ liệu được cho là quá trình khách quan nhất để giúp bạn đi đến bằng chứng. Hãy suy nghĩ xem đầu mối thông tin nào có khả năng đưa bạn đi đúng hướng: khiếu nại của một bệnh nhân tại bệnh viện về việc y tá ăn cắp thuốc hay cơ sở dữ liệu từ Bộ Y tế về các phiên họp kỷ luật và sa thải sau 5 năm nhận được các khiếu nại về hành vi trộm cắp thuốc trong bệnh viện? Với tất cả các thông tin, bạn nên chú ý rằng kể cả các số liệu thống kê cũng có thể bị thao túng và sử dụng để thông tin sai lệch sự việc. Tuy nhiên, việc “khai phá” cơ sở dữ liệu một cách hiệu quả đã phơi bày những vụ việc vô cùng quan trọng trong thập kỷ qua.

Dữ liệu quốc tế có thể cung cấp kết quả thậm chí phù hợp hơn. Ví dụ, thỉnh thoảng, các nhà tài trợ của các chương trình viện trợ phát triển công bố các báo cáo về cách thức chi tiêu của họ trong một năm bất kỳ nào đó. Bằng cách thu thập những dữ liệu như vậy từ các nhà tài trợ đang hoạt động tại quốc gia của bạn và phân tích các dữ liệu này, bạn có thể có các phóng sự với tiêu đề như “Các nhà tài trợ cho đất nước X đã chi phần lớn tiền viện trợ vào đào tạo công chức nhà nước”.

Khai phá dữ liệu không phải lúc nào cũng phải liên quan đến thông tin tài chính. Các phân tích trên mạng xã hội đã tạo nên những câu chuyện về các mạng lưới khủng bố, những người ủng hộ đảng phái chính trị nào đó và những người có ảnh hưởng nhất trong các cộng đồng nhất định. Những mạng lưới này có thể là thành viên của một nghiệp đoàn, một cộng đồng dân cư hoặc những nhân vật cộm cán nào đó trong một đảng phái chính trị. Bạn có thể kết hợp dữ liệu liên quan đến việc: họ kiếm được bao nhiêu tiền một tháng, họ gặp gỡ và làm việc với những ai – những thông tin này sẽ khắc hoạ nên một bức tranh về mạng xã hội và cho bạn biết một phần về sức ảnh hưởng của những người này trong xã hội.

Bạn không nhất thiết phải luôn bắt đầu từ con số không; nhiều phóng viên và tổ chức đã công bố dữ liệu khả dụng mà bạn có thể dùng làm cơ sở cho các nghiên cứu bổ sung. Những cơ sở dữ liệu này có thể bao gồm các bài báo, nghiên cứu và cả các mối liên hệ. Ở Mỹ và châu u, các phóng viên điều tra đã thành lập các trung tâm sản xuất cơ sở dữ liệu cho công chúng sử dụng. Gần với Việt Nam hơn, chính phủ Singapore cũng đã đưa một số dữ liệu công khai cho người dân và báo giới tiếp cận tự do.

Ví dụ, Chương trình Nicar tại Mỹ đã thu thập dữ liệu về những người bị giam giữ tại Vịnh Guantanamo và đã công khai cơ sở dữ liệu này tại: www.ire.org/nicar