베이핑 트위터 봇 연구는 비인간화하는 선전입니다.

Vaping360은 사회학자 Amelia Howard를 초청하여 최근 연구에 대한 의견을 요청했습니다. 이 연구는 최근의 pro-vaping 트위터 게시물의 대부분이 봇에 의해 생성되었다고 주장했습니다. 이 기사는 그녀가 널리 공유한 확장된 트위터 스레드를 주제로 한 내용을 확장합니다.

10월 4일, 나는 어떤 연구에 대한 내 의견을 듣고 싶어하는 월스트리트 저널 기자로부터 이메일을 받았습니다. 그 연구는 “전자 담배의 봇 마케팅”에 관한 것이었습니다.

나는 이것이 영국 회사 Astroscreen의 최근 보고서에 관한 것이라고 생각했습니다. 그들은 Wired UK에 말했다 "조정된 비진정한 소셜 미디어 캠페인이 주요 미국 정책 입안자들을 명시적으로 겨냥하여 반전자 담배 법률을 철회하도록 강요하려고 했다." 아이러니하게도 Astroscreen은 그들의 작업을 대신 수행하기 위해 봇을 만들었고, 그 봇이 “독점적인 기계 학습 기술”이기 때문에(번역: 작성자들 외에는 그들이 어떻게 결론에 도달했는지 볼 수 없다), 그들의 결론의 유효성을 판단할 방법은 없습니다.

나는 나에게 연락한 기자와 이 문제에 대해 논의할 준비가 되어 있었습니다. 하지만 그는 나에게 Astroscreen 봇 연구에 대해 연락한 것이 아니었습니다.

WSJ 기자는 PGP(공공 선 프로젝트)의 이름이 없는 연구자들이 작성하고 Nicholson 재단이라는 것에 의해 자금이 지원된 다른 보고서에 대한 의견을 요청했습니다. 내가 아직 보지 않거나 읽지 않은 연구에 대해 의견을 제공하는 것이 불편하다고 말했더니 기자는 보고서를 보내주겠다고 제안했습니다. 단, 그 이야기가 나간 후까지 공유하거나 언급하지 않겠다는 조건이었습니다. 나는 그 조건에 동의했습니다.

두 개의 별개의 민간 조직이 검토되지 않은 “연구”를 주요 뉴스 매체에 유출하여 베이핑 옹호 영역에서 명백히 만연한 “봇” 활동을 “폭로”하기로 결정한 것이 얼마나 이상한 일인지 지적하고 싶습니다. 이는 검토를 받기 위한 어떠한 계획도 없이 공공에 공개되기 전의 일입니다.

PGP 보고서를 읽었을 때, 나는 다른 유사성을 발견했습니다. Astroscreen과 마찬가지로, PGP는 그들의 방법론에 대해 변명의 여지가 없이 불투명했습니다. PGP에 따르면, 그들의 분석은 “전자 담배와 담배 제품에 대한 온라인 대화에서 현재 봇이 수행하고 있는 역할에 대한 처음 보는 정보를 제공합니다.” 구체적으로, 그들은 “미국의 공개 미디어 출처를 통해 전자 담배와 담배 제품에 관한 모든 메시지의 절반 이상이 자동화된 계정, 즉 봇에 의해 게시되었을 수도 있습니다.”라고 결론짓습니다.

그렇지만 그들은 그러한 결론에 도달한 방법에 대한 유용한 정보를 제공하지 않습니다. 독자는 그 발견이 유효하다고 신뢰해야 합니다. 그러나 나는 그 보고서에서 그것을 신뢰하지 말아야 할 이유가 있는 것을 발견했습니다. 그리고, 월스트리트 저널이 결국 발표한 기사에는 기자에게 전달한 내 의견이 없었기 때문에, 나는 여기에서 그것들을 설명하겠습니다.

그러나 그에 앞서 PGP 보고서의 더 광범위한 문제를 살펴보겠습니다.

그들이 “봇”이라고 할 때 정확히 무엇을 의미합니까?

첫째, PGP는 그들이 실제로 무엇을 했는지, 어떻게 했는지, 그리고 실제로 무엇을 발견했는지에 대해 변명의 여지가 없이 모호합니다. 따라서 보고서에서 명백해 보이는 진술을 해석하기가 매우 어렵습니다. 예를 들어, "전자 담배나 담배와 관련된 총 2,536,659개의 트위터 메시지 중 22.6%는 인간이 게시한 것이고, 20.8%는 의심되는 봇에 의해 게시되었으며, 56.6%는 봇에 의해 생성된 것으로 확인되었습니다."라는 이 진술입니다.

위의 통계는 PGP가 봇의 의미하는 바를 모르기 때문에 의미 있게 해석할 수 없습니다. 즉, 그들이 분석할 때 무엇을 봇으로 간주했는지를 모른다는 것입니다. 보고서가 어떻게 구성되어 있는지를 보면, PGP가 우리에게 베이핑에서의 봇을 자동화된 계정, 즉 인간처럼 보이도록 설계된 계정으로 생각하길 원하고, 그것이 니코틴과 전자 담배에 대한 잘못된 정보를 퍼뜨리거나 누구에게나, 특히 어린이에게 광고하기 위해 작동하는 것임을 알고 있습니다.

그러나 PGP가 우리가 “봇”이라고 들었을 때 생각하길 원하는 것은 이 연구에서 그들이 실제로 봇으로 간주한 것과 동일하지 않습니다. 그렇다면 PGP는 실제로 봇을 어떻게 식별했으며, 무엇을 봇으로 간주했습니까? 그들이 보고서에서 이렇게 말합니다:

“PGP는 어떤 게시물이 봇에서 발생했을 가능성이 높은지, 그리고 어떤 게시물이 인간에서 발생했을 가능성이 높은지를 식별할 수 있습니다…. PGP 연구자들은 게시물이 봇일 가능성을 판단하기 위해 게시물의 빈도와 타이밍, 게시물의 수, 팔로워 수, 다른 계정과의 상호작용 등 여러 계정 특성을 조사합니다. 봇, 특히 악의적인 의도를 가진 봇은 놀랍도록 세밀하며 종종 인간처럼 보이도록 설계됩니다. 따라서 기본적인 계정 및 프로필 특성의 간단한 검사는 자동화 가능성을 판단하기에 부족합니다.”

이건 쓸모가 없습니다. 나는 PGP가 그들의 방법이 얼마나 정확하다고 생각하는지 정말로 신경 쓰지 않습니다. 나는 내가 직접 그 평가를 하고 싶고, PGP가 제공하는 정보에 기반해 그것을 할 수 없습니다. 그러나 그들이 실제로 무엇을 보았는지 말해주지 않는 것에 대한 이 격식을 갖춘 애매한 구실만을 주고 싶어합니다. 그래서 나는 그들의 연구가 유효한지를 스스로 평가할 수 있습니다. 그들은 그들의 방법을 마법처럼 취급하고 그것을 독자가 이해하기에는 너무 정교하다고 구성하는데, 이는 기본적으로 거대한 적신호입니다.

PGP는 어제 그들의 분류 과정과 방법론에 대한 후속 설명을 트위터에 공유했는데, 그것은 실제 보고서에서 그들이 말한 것보다 더욱 모호하고 무의미했습니다. 예를 들어: “우리는 '자동화'를 1-100의 점수로 정의합니다. 100% 로봇은 자동 RT를 하며 원본 내용을 게시하지 않습니다.”

미디어 산업에 대해 글을 쓰는 프리랜서 저널리스트인 Peter Sterne은 개인 메시지에서 PGP의 봇 정의와 관련된 문제를 간결하게 설명했습니다: “PGP는 명백히 absurdly 광범위한 봇 정의(모든 자동 게시 앱을 사용하는 사람)를 채택하여 많은 실제 사람들을 포함하고 있으며, 모든 '봇'이 정교한 소셜 미디어 운영의 일부분이며 그들의 트윗은 문자 그대로 받아들일 수 없다는 강한 의미를 내포하고 있습니다.”

어쨌든 PGP는 그들이 정의한 대로 봇을 연구하는 데 명백히 관심이 있었습니다. 베이핑 공간에서 활동하는 봇의 비율과 그들이 옹호에서 수행할 수 있는 역할은 정당한 연구 문제이며, 많은 베이퍼들이 이러한 질문에 답할 수 있는 연구를 흥미롭게 생각할 것이라고 생각합니다. 그러나 문제는 PGP가 그들의 보고서에 동기를 부여하는 질문에 대한 답변을 제공할 수 있는 연구를 설계하지 않았다는 것입니다.

만약 PGP가 특정 트위터 사용자 집단(즉, 베이퍼)에서 계정의 특성을 이해하고자 했다면, 그 집단에서 대표 샘플을 확보하는 방법을 찾아야 했습니다. 이는 사실상 불가능하지만, 그들은 이 전혀 하지 않으면서 할 필요가 있음을 이해하지 못하는 것으로 보입니다. PGP는 계정을 샘플링하지 않았습니다. 그들은 트윗을 샘플링했습니다. 이 트윗은 계정에 의해 발송되었으니(분명히) 그들은 계정 모음을 갖게 되었지만, 연구자들이 그들의 샘플에 포함된 몇몇 계정의 트윗을 기반으로 베이핑에 대해 트윗하는 계정들에 대한 추론을 진행하는 것은 전적으로 부적절했습니다.

보고서와 관련된 또 다른 큰 문제는 여기서 그들이 언급하고 있는 고유 계정의 수에 대해 실제로 말하지 않다는 것입니다. 그들은 트윗의 수치를 보고하지만 (아마도 그 숫자가 더 크기 때문에, 그리고 PGP가 우리에게 인상을 주고 싶어하기 때문에), 우리는 얼마나 많은 계정이 그것들을 보내고 있는지 알지 못합니다. 그리고 샘플에 실제 봇이 포함되어 있다면 (아마도 몇 개가 있을 것입니다) 이는 매우 중요합니다. 왜냐하면, 팔로어가 없는 불명확한 스팸 봇이 하루 수백 번 전자담배에 대해 트윗하도록 프로그램되어 전체 샘플에서 불균형적인 수의 트윗을 생성했을 수 있기 때문입니다. 심지어 그 봇은 자신의 작은 고립된 범위를 넘어서는 효과가 거의 없더라도 말입니다.

이 봇들은 전혀 봇이 아니다

투명성 부족, 정의의 부재, 그리고 명확한 방법론의 무능력은 이 연구의 결론을 의심할 충분한 이유입니다. 그러나 PGP의 발견이 유효하지 않다는 구체적인 지표는 공개 전 삭제된 보고서의 한 섹션입니다. (PGP 웹사이트에서 공식 버전을 확인할 수 있습니다.)

월스트리트 저널로 돌아가겠습니다. 그들이 PGP 보고서에 대해 제 의견을 요청했을 때, 그들은 저에게 사본을 보냈습니다. 32페이지 길이였습니다. 결과 섹션은 15페이지 길이였고, 결과 내의 한 하위 섹션 ‘봇 네트워크’는 이러한 결과의 약 40%를 차지했습니다. 그것은 PGP의 분석 과정 전반에 걸쳐 식별된 이른바 ‘봇 계정’과 그들의 ‘봇 네트워크’에 대한 다섯 개의 ‘미세 수준’ 분석으로 구성되어 있었습니다. 그들은 각 네트워크를 나타내기 위해 그래프를 사용합니다. (기자가 저에게 준 버전입니다.)

PGP의 그래프는 중심 노드를 중심으로 구축되었으며, 이는 PGP 분석에서 ‘봇’을 나타냅니다. 그 노드는 이른바 봇의 트윗을 리트윗한 계정을 나타내는 다른 노드와 연결되어 있었습니다. 소셜 네트워크 분석가들은 이러한 그래픽 표현을 ‘에고 네트워크’라고 부르며, 이는 중앙 노드(‘에고’)와 연결된 노드(‘대체’) 간의 관계를 묘사합니다. PGP는 대체 노드가 봇이 되는 비공식 기준을 충족하는지에 따라 색상을 코딩했으며, 흰색 노드는 인간으로 결정된 계정을 나타냅니다. 흰색 노드는 PGP의 모든 네트워크에서 소수였습니다.

PGP는 전자담배에 대한 대부분의 트위터 활동이 아마도 실제 인간이 생성하지 않았다고 우리에게 믿게 하기를 원합니다. 그들은 각 봇넷의 중심에 있는 ‘에고’ 봇의 이름을 삭제했습니다. 왜 그럴까요? 보고서에서는 계정의 개인 정보를 보호하기 위해 그렇게 했다고 주장하지만, 계정이 봇이라면 왜 이것이 중요할까요?

솔직히 말해서, PGP가 실제로 사람인 척 하여 온라인 전자담배 담론에 간섭하는 봇 계정의 신원을 보호하는 데 관심이 있는 것이라면 (그들이 그렇게 말하든지), 사실은 그들이 끔찍한 작업을 수행했다는 것입니다.

저는 PGP가 원래 보고서에 포함시킨 다섯 개의 이른바 봇 네트워크에서 중심 노드로 나타낸 특정 계정을 쉽게 식별할 수 있었습니다. PGP가 제공한 내용을 바탕으로 누구나 트위터 사용자 인터페이스의 검색 바에 입력하고 찾아낼 수 있는 계정의 트윗 스크린샷을 포함했기 때문에 그것이 가능했습니다. 각 계정의 트윗에 대해 그렇게 했고, 그들의 팔로워 수와 게시물 수를 PGP가 보고한 것과 비교하여 확인했습니다. 전체 과정은 30분도 채 걸리지 않았습니다. 그리고 알았나요? 이 계정 중 그 어떤 것도 “실제 인간인 척하는 봇”이 아닙니다.

PGP가 이른바 모범적인 봇 네트워크 논의에 선택한 다섯 개의 계정 중 단 하나만 제가 알지 못하는 계정이었습니다. 그것은 영국에 본사를 두고 있는 상업적인 계정으로, 다양한 제품(전자액상 및 CBD 포함)의 eBay 목록을 광고하기 위해 트위터를 사용하고 있었습니다. 이 계정이 트윗을 게시하기 위해 자동화를 사용하고 있습니까? 네. 사람들이 그 트윗 뒤에 있지 않다는 징후가 있었습니까? 아니요. 어떤 합리적인 사람에게도 이 계정을 온라인 상거래 회사의 상업적 계정 외의 것으로 오해할 수 있습니까? 아니요. 이 계정이 자신의 팔로워 네트워크를 넘어 홍보하고 있다는 징후가 있었습니까? 아니요.

제가 아는 네 개의 계정에 대한 경우, 세 개는 오랜 전자담배 옹호자인 개인들의 비공식 계정이며, 명백히 실제 사람들입니다. 다른 하나는 이 잡지의 트위터 계정입니다. Vaping360 뉴스 편집자 짐 맥도널드가 이 계정을 관리하고 트윗하며, 짐은 봇이 아닙니다.

즉 다섯 개의 이른바 봇 중: 하나는 기사를 게시하고 다른 트위터 사용자와 소통하기 위해 사용하는 저널리스트 중 한 명이 운영하는 전자담배 출판물의 계정이고, 세 개는 전자담배를 지지하는 개인의 비공식 계정입니다. 그리고 나머지 하나는 일부 영국 소매업체입니다. 이 계정들과 친숙한 사람이 그들이 인간인 척하는 봇이라고 결론짓는 것이 매우 어렵다고 믿습니다. 또는 개인 인간인 척하는 비즈니스라고 믿는 것이 어렵습니다. 또는 개인 인간인 척하는 봇을 사용하여 홍보하는 비즈니스라고 믿는 것이 어렵습니다. 또는 심지어 어떤 사악한 활동에 연루된 사람이라고 믿는 것이 어렵습니다.

그리고 이것은 PGP가 이 다섯 계정의 이름을 삭제하기로 한 결정을 약간 의심스럽게 만듭니다. 무엇보다 그들은 그것이 계정이 누구인지 알고 싶어하는 사람이 정보로 파악할 수 있을 것이라는 것을 확실히 알고 있었을 것입니다. 그래서 그들은 누구의 개인 정보도 보호하지 않았으며, 단지 누군가가 계정의 신원을 찾는 정보를 찾는 과정을 약간 더 번거롭게 만들었습니다.

제가 이 계정의 트윗을 검색하는 데 사용할 수 있었던 스크린샷에는 ‘대체’에서 온 리트윗 및 댓글이 포함되어 있었으며, 그 또한 봇이 아닙니다. - 그리고 이러한 계정의 신원을 보호하기 위한 조치는 아무것도 취해지지 않았습니다. PGP의 스크린샷은 이른바 ‘봇넷’의 다른 계정의 이름과 핸들을 드러냈습니다. 단, 중앙 봇 (봇이 아닌) 제외하고.

이 모든 것은 ‘봇’의 개인 정보를 보호하는 것이 PGP가 계정 ID를 숨긴 주요 이유가 믿기 어렵게 만듭니다. 왜냐하면 그 보호 조치는 누구나 쉽게 무효화할 수 있었고, 보호 조치는 스크린샷에 나타나는 계정에 확장되지 않았으며, 결국 PGP는 flawed report의 신뢰성을 보호하고 그들의 개인적인 보호를 위해 정보를 숨길 훨씬 더 큰 유인이 있었기 때문입니다.

개인 정보 보호인가, 체면 유지를 위한 것인가?

왜 PGP가 월스트리트 저널과 공유한 것과 다른 버전의 보고서를 게시했는지 알고 싶습니다. 아마도 그럴 것이라고 Gregory Conley도 생각했으며, 그들은 이 선택에 대해 트위터에서 설명해 달라고 요청했습니다. PGP의 답변은 다음과 같았습니다:

“WSJ은 연구에 대한 독점권이 있었고 우리는 실사 과정 중에 정보를 공유했습니다. 한때 우리는 100만 개 이상의 메시지를 분석한 결과, 높은 자동화 점수를 가진 5개의 계정을 공유했습니다. 우리는 그 계정들이 타겟이 되기를 원하지 않았습니다. 그래서 기사나 보고서에는 그들을 언급하지 않았습니다.”

PGP는 여기서 봇넷이 월스트리트 저널에 최종 연구에 대한 추가적인 맥락으로 제공되었다고 암시하는 것 같습니다. 제가 치명적인 결함이라고 지적한 분석이 공개 소비를 전혀 의도하지 않았고, 단순히 공식 보고서와 함께 저널에 보내진 추가 자료라면, 이는 전체 연구의 유효성을 약화시킵니다.

하지만 그들이 이것을 최종 버전에서 포함할 의도가 없었다고 믿기에는 상당히 어렵습니다. 이 섹션은 저에게 전달된 보고서 버전의 목차에 기록되어 있었습니다. 이것은 그들의 결과 섹션의 핵심 부분으로, “봇넷”이 그들이 보고서에서 밝힌 추상적인 현상의 설명으로 제시되었습니다. 이 내용이 최종 보고서의 주요 부분이 아닐 것이라는 어떤 표시도 없었습니다.

Advertise with us

내가 받은 것은 최종 보고서라는 인상을 받았고, 내가 이 분석이 심각하게 결함이 있다고 (및 비윤리적이라고) 지적했을 때, 그것이 연구의 간략한 부분이거나 월 스트리트 저널에 특별한 것이라는 말을 듣지 못했습니다. 확실히 말할 수는 없지만, 나에게 그것을 보낸 기자는 이것이 최종 버전이라는 인상을 받는 것 같았습니다. 그리고 정말로, 혁신적인 보고서의 작업 초안을 독점을 제안하는 신문에 보내는 사람이 누가 있겠습니까? 그건 정말 말이 되지 않습니다. 현재 삭제된 봇넷 분석이 포함된 문서는 다듬어져 있었고, 삭제된 섹션은 목차의 일부였으며, 이것이 최종 제품이 아니라는 것을 나타내는 것은 없습니다.

만약 PGP가 그들이 이 분석을 얼마나 잘못 처리했는지 알게 된다면, 이는 그들이 그들의 전체 연구의 유효성을 의심하게 만들었어야 했다. 여기서 책임감 있고, 지적으로 정직하며, 투명한 행동은 신문사에 이야기를 보류하거나 취소하도록 요청하여 보고서를 수정할 수 있도록 하거나, 혹시 결함이 너무 심각하다면 포기하는 것이어야 했다. 최소한 저널에 보낸 버전이 웹사이트에 게시된 최종 버전과 다르다는 점을 나타내는 메모가 있었어야 했다.

나는 PGP가 그들이 저지른 중대한 오류의 명백함을 이해했을 때 그 페이지들을 삭제했다고 생각한다. 그들은 이 작업의 다른 모든 측면에서 정상적인 과학적 과정을 왜곡했다. 내가—아무도—그들이 체면을 유지하는 것 외에 다른 것에 대해 신경 썼다고 믿어야 할 이유는 무엇인가? PGP가 해당 섹션을 잘라내기로 한 결정이 그들의 봇넷이 실제로 봇넷이 아니었다는 사실과 관련이 없다는 주장을 뒷받침할 수 있는 실제 구체적인 증거가 있다면, 그들은 그것을 공개해야 한다.

정당한 시위자를 비인간화하기

PGP의 보고서는 사람들이 개별 인간이라고 믿게 만드는 방식으로 담배 흡연에 대한 담론을 조작하기 위해 설계된 정교한 봇 네트워크의 모습을 보여줍니다. 그들의 가장 좋은 사례들 중 어떤 것도 이런 종류의 계정 특성을 가지고 있지 않았다는 사실(그 중 네 명은 제가 실제로 알고 있는 인간이었습니다)은 전체 사업의 신뢰성에 대한 심각한 질문을 제기합니다.

트위터의 전자담배 옹호 분야는 특정 맥락에서 주로 개인 소셜 미디어 계정을 사용하는 개인 시민들의 느슨하게 연결된 커뮤니티입니다. 이 사람들은 그들의 사용자 생성 콘텐츠를 수집하고 맥락을 벗어난 채로 제시하여 영향력 있는 전자담배 옹호자들이 악의적인 봇의 정교한 네트워크에 불과하다는 터무니 없는 비현실적이고 지적으로 부정직한 이론을 설명하기 위해 얻을 것이 있는 기회를 노리는 “공공 건강 모니터링 및 커뮤니케이션” 연구자들의 이익을 위해 트위터에 있지 않습니다.

나는 PGP 보고서를 가득 채우는 분명한 부정직성이 조직이 대중을 속이려는 시도를 나타내는 것인지, 아니면 그들이 스스로를 속였다는 사실을 더 반영하는 것인지 확신이 없다.

하지만 상관없습니다. 삭제된 “botnets” 섹션이 있든 없든, PGP의 보고서는 전적으로 비윤리적입니다. 이 보고서는 vaping advocacy에 대한 지식에 기여하는 것이 아니라 실제로는 존재하지 않는 충격적인 발견에 대한 미디어 열풍을 일으키기 위한 것이었습니다. 이 보고서는 투명하고, 유효하며, 신뢰할 수 있는 과학적 작업의 규범을 이해하지 못하거나 관심이 없는 사적인 이름이 없는 시장 조사 그룹에 의해 수행되었습니다. 그들은 또한 vaping 트위터 사용자에 대한 연구를 수행하는 사람들과 실제로 vaping을 옹호하기 위해 Twitter를 사용하는 실제 사람들 간의 매우 실제적인 권력 불균형을 무시했습니다.

PGP 보고서는 합법적인 시위자를 비인간화하고 그들의 대의를 신뢰할 수 없게 만들며, 소셜 미디어 플랫폼에서 그들의 발언을 검열하는 것을 목표로 하는 선전이다. 이 보고서는 과학의 외관을 가지고 발표되었지만, 정치적 목적을 전적으로 수행하기 위한 것이다.