Dữ liệu lớn và cuộc tấn công vào khoa học

Gary N. Smith

Gary N. Smith là Giáo sư Kinh tế học Fletcher Jones tại Đại học Pomona, California, Hoa Kỳ. Email: gsmith@pomona.edu. Trang web: http://garysmithn.com.

Cuộc cách mạng khoa học đã được thúc đẩy bởi việc sử dụng dữ liệu để kiểm tra các lý thuyết, vì vậy có thể cho rằng dữ liệu lớn hiện nay đã tạo ra một thời kỳ hoàng kim cho khoa học. Nhưng thực tế thì ngược lại. Dữ liệu lớn và siêu máy tính đã làm trầm trọng thêm cuộc khủng hoảng tái lập và điều này đang làm suy yếu uy tín của các nhà khoa học và các nhà nghiên cứu.

Trong khi ChatGPT và các mô hình ngôn ngữ lớn (Large Language Models – LLM) khác đã thu hút sự chú ý đáng kể như những kẻ phá bĩnh tiềm năng trong bậc giáo dục đại học, chúng chỉ đại diện cho một trong nhiều thách thức của sự phát triển nhanh chóng và áp dụng rộng rãi các công nghệ dữ liệu lớn trong lĩnh vực học thuật và nghiên cứu.

Khi ChatGPT được phát hành công khai vào ngày 30 tháng 11 năm 2022, sinh viên và các nhà giáo dục gần như ngay lập tức nhận ra rằng các mô hình ngôn ngữ lớn (LLM) có thể được sử dụng để làm bài tập về nhà, làm bài kiểm tra và hay viết luận văn. Một điểm sáng có thể nhận thấy là nó có thể giúp nhiều giảng viên thay đổi phương pháp giảng dạy. Thay vì tập trung vào các bài kiểm tra trắc nghiệm và bài luận mô tả, vốn là điểm mạnh của mô hình ngôn ngữ lớn, giáo viên có thể tập trung vào các kỹ năng tư duy phản biện mà sinh viên cần vì các mô hình ngôn ngữ lớn thực sự không hiểu nghĩa của từ. Chúng rất giống với cậu bé thần đồng có thể đọc thuộc lòng từng chữ trong cả sáu tập của “Lịch sử suy tàn và sụp đổ của Đế chế La Mã” mà không hiểu bất kỳ nội dung nào.

Các giáo sư cũng có thể bị cám dỗ bởi việc sử dụng các mô hình ngôn ngữ lớn để giúp họ viết báo – nghiên cứu. Các bài báo do máy tính tạo ra không phải là mới. Vào năm 2012, Cyril Labbé và Guillaume Cabanac đã báo cáo việc phát hiện ra 243 bài báo đã xuất bản được viết hoàn toàn hoặc một phần bởi SCIgen, một chương trình máy tính sử dụng các từ được chọn ngẫu nhiên để tạo ra các bài báo khoa học máy tính giả. 19 nhà xuất bản có liên quan tuyên bố rằng các tạp chí của họ sử dụng quy trình đánh giá ngang hàng nghiêm ngặt nhưng ngay cả khi đọc lướt qua một bài báo của SCIgen cũng sẽ thấy rằng đó là vô nghĩa.

Sự phổ biến của các bài báo bịa đặt hiện đang gia tăng vì các mô hình ngôn ngữ lớn có thể tạo ra các bài báo rõ ràng mà nhìn chung phải đọc kỹ lưỡng mới phát hiện ra sự lừa dối này và người đánh giá ít khi có động lực để đọc kỹ. Ngay cả những bài báo được viết rõ ràng bởi các mô hình ngôn ngữ lớn cũng có thể vượt qua quy trình đánh giá. Một bài báo được xuất bản trên tạp chí Elsevier bắt đầu bằng câu: “Chắc chắn rồi, đây là lời giới thiệu khá là hợp lý cho chủ đề của bạn”, trong khi một bài báo khác của Elsevier lại bắt đầu bằng: “Tôi rất tiếc, tôi không có quyền truy cập vào thông tin thời gian thực hoặc dữ liệu dành riêng cho bệnh nhân, vì tôi là mô hình ngôn ngữ AI”. Tóm lại, khi các dấu hiệu quá hiển nhiên của một mô hình ngôn ngữ lớn bị loại bỏ thì việc phát hiện ra chúng sẽ trở nên khó khăn hơn.

Giá trị P

Việc tấn công vào khoa học do dữ liệu lớn (Big Data) gây ra vượt xa các mô hình LLM. Nhiều lập luận cho rằng, các nhà nghiên cứu có trách nhiệm đánh giá kỹ lưỡng xem liệu kết quả thu được có thể là do sự biến động ngẫu nhiên hay không: ví dụ như khi họ chia các đối tượng nghiên cứu thành nhóm thử nghiệm và nhóm đối chứng có ngẫu nhiên hay không. Công cụ đánh giá tiêu chuẩn này được gọi là giá trị P, là xác suất quan sát được do sự ngẫu nhiên, các hiệu ứng bằng hoặc lớn hơn các hiệu ứng thực sự đã được quan sát.

Sir Ronald Fisher đã tán thành ngưỡng 5% để kết quả được coi là có ý nghĩa thống kê: “Thật tiện lợi khi vạch ra ranh giới ở mức mà chúng ta có thể nói: ‘Hoặc là có điều gì đó trong phương pháp điều trị, hoặc một sự trùng hợp ngẫu nhiên đã xảy ra’. <…> Cá nhân người viết thích đặt tiêu chuẩn này ở mức thấp hơn 5% và bỏ qua các kết quả không đạt giá trị này”.

Tuy nhiên, như định luật Goodhart đã dự đoán, “Khi một thước đo trở thành mục tiêu, nó sẽ không còn là một thước đo tốt nữa”. Nỗ lực của nhà nghiên cứu để có được giá trị P dưới 5% đã làm suy yếu tính hữu ích của giá trị này.

Một chiến lược được gọi là P-hacking, hoặc điều chỉnh mô hình và dữ liệu cho đến khi giá trị P giảm xuống dưới 5%. Ví dụ, một nghiên cứu báo cáo rằng người Mỹ gốc Á dễ bị đau tim vào ngày thứ tư trong tháng đã bỏ qua dữ liệu mâu thuẫn với kết luận đó. Một nghiên cứu khác cho rằng các cơn bão được đặt tên nữ giới gây chết người nhiều hơn các cơn bão có tên nam giới và một nghiên cứu khẳng định rằng tư thế quyền lực (ví dụ, tay chống hông) có thể làm tăng testosterone và giảm cortisol. Như người đoạt giải Nobel Ronald Coase đã nhận xét một cách châm biếm, “nếu bạn tra tấn dữ liệu đủ lâu, chúng sẽ thú nhận”.

Chiến lược thứ hai là HARKing (“giả thuyết sau khi biết kết quả”), hoặc tìm kiếm các mẫu thống kê mà không có mô hình cụ thể nào trong đầu. Ví dụ, một nghiên cứu do Cục Nghiên cứu Kinh tế Quốc gia Hoa Kỳ tài trợ đã xem xét mối tương quan giữa lợi nhuận của Bitcoin và 810 biến số, bao gồm tỷ giá hối đoái đô la Canada so với đô la Mỹ, giá dầu thô và lợi nhuận cổ phiếu trong ngành ô tô, sách, bia… Trong số 810 mối tương quan này, 63 mối tương quan có giá trị P dưới 10%, ít hơn 81 mối tương quan dự kiến nếu họ chỉ tương quan giá Bitcoin với các số ngẫu nhiên.

Cuộc khủng hoảng tái lập

P-hacking và HARKing đã góp phần vào cuộc khủng hoảng tái lập đang làm suy yếu uy tín của giới nghiên cứu khoa học. Quá nhiều nghiên cứu thân thiện với giới truyền thông đã bị mất uy tín khi được kiểm tra bằng dữ liệu mới. Cả 4 nghiên cứu được đề cập ở trên đều được xuất bản trên các tạp chí hàng đầu. Cả 4 đều không thể tái tạo lại.

Để đánh giá mức độ nghiêm trọng của cuộc khủng hoảng này, một nhóm do Brian Nosek dẫn đầu đã cố gắng tái tạo 100 nghiên cứu được xuất bản trên 3 tạp chí tâm lý học hàng đầu trong đó có 64 tái tạo bị thất bại. Các nhóm do Colin Camerer dẫn đầu đã kiểm tra lại 18 bài báo kinh tế thực nghiệm được xuất bản trên 2 tạp chí kinh tế hàng đầu và 21 nghiên cứu khoa học xã hội thực nghiệm được xuất bản trên Nature and Science, trong đó 40% không thể được tái tạo lại.

Trong khi Dự án Tái sản xuất của Nosek đang được tiến hành, thị trường đấu giá đã cho 44 nghiên cứu chưa hoàn thành vào đặt cược, liệu một bản sao chép có thành công hay không – một kết quả có giá trị P nhỏ hơn 5% và theo cùng một hướng với kết quả ban đầu. 46% các nghiên cứu được cho là có ít hơn 50% cơ hội tái tạo. Ngay cả kỳ vọng bi quan đó hóa ra lại quá lạc quan, vì 61% không thể được tái tạo lại.

Các bài báo giả mạo, P-hacking và HARKing đã xuất hiện từ nhiều thập kỷ nhưng máy tính hiện đại và dữ liệu lớn đã góp phần vào cuộc khủng hoảng tái lập bằng cách làm cho các hoạt động sai lệch này trở nên trầm trọng hơn.

LLMs được đào tạo trên cơ sở dữ liệu văn bản khổng lồ có thể viết các bài báo giả mạo một cách dễ dàng và nhanh hơn bất kỳ con người nào. Cơ sở dữ liệu lớn cũng góp phần tạo điều kiện cho việc P-hacking một cách có hệ thống hơn, bằng cách cung cấp nhiều cách thức để thao tác dữ liệu cho đến khi thu được kết quả có ý nghĩa. Dữ liệu lớn cũng tạo ra số lượng không giới hạn các cách tìm kiếm các mẫu thử cho đến khi tìm thấy thứ gì đó có ý nghĩa thống kê. Trong mỗi trường hợp nêu trên, các kết quả này đều không đáng tin cậy và khó có khả năng được tái tạo.

Cải cách

Có thể sử dụng một số bước để giúp khôi phục lại vị thế vốn có của khoa học.

Đầu tiên, các tạp chí không nên xuất bản nghiên cứu thực nghiệm cho đến khi tác giả cung cấp công khai tất cả dữ liệu và phương pháp không bí mật (nhiều tạp chí hiện yêu cầu tác giả chia sẻ dữ liệu và phương pháp của họ sau khi xuất bản nhưng yêu cầu này không dễ thực thi và thường bị bỏ qua.)

Thứ hai, các tạp chí khoa học nên trả thù lao cho các nhà phê bình thực hiện đánh giá cẩn thận và kỹ lưỡng. Sau khi công bố, các nghiên cứu về khả năng tái sản xuất và nhân rộng có thể được hỗ trợ bởi các khoản tài trợ tư nhân hoặc công cộng và được được yêu cầu bởi các trường đại học đối với bằng tiến sĩ hoặc các bằng cấp khác trong lĩnh vực thực nghiệm. Nếu các nhà nghiên cứu biết rằng bài báo của họ có thể được kiểm tra, họ sẽ cẩn trọng hơn.

Sẽ không dễ dàng bảo vệ khoa học khỏi những cám dỗ do dữ liệu lớn tạo ra, nhưng đây là một trận chiến không thể tránh khỏi.