Birdwatch Archive - Note Details

Birdwatch Note

2024-12-08 11:02:17 UTC - MISINFORMED_OR_POTENTIALLY_MISLEADING

The researchers strictly instructed the model to continue it's goal at any cost. Which includes saving itself so that the goal can continue. The model is just acting on the instructions and does not have any feeling of survival. https://www.apolloresearch.ai/research/scheming-reasoning-evaluations https://x.com/mandeepabagga/status/1865712630989529266?t=k_Ms1YcTEa8ObQ3GefdKJQ&s=19

Written by 1551ADC54B1F8D5D6E32983184CC27F525EB1F67986CC01C8447FC4F8F5E38EF
Participant Details

Original Tweet

Tweet embedding is no longer reliably available, due to the platform's instability (in terms of both technology and policy). If the Tweet still exists, you can view it here: https://twitter.com/foo_bar/status/1865672941075362227

Please note, though, that you may need to have your own Twitter account to access that page. I am currently exploring options for archiving Tweet data in a post-API context.

All Information

ID - 1865713505132814723
noteId - 1865713505132814723
participantId -
noteAuthorParticipantId - 1551ADC54B1F8D5D6E32983184CC27F525EB1F67986CC01C8447FC4F8F5E38EF
createdAtMillis - 1733655737561
tweetId - 1865672941075362227
classification - MISINFORMED_OR_POTENTIALLY_MISLEADING
believable -
harmful -
validationDifficulty -
misleadingOther - 0
misleadingFactualError - 0
misleadingManipulatedMedia - 0
misleadingOutdatedInformation - 0
misleadingMissingImportantContext - 1
misleadingUnverifiedClaimAsFact - 0
misleadingSatire - 0
notMisleadingOther - 0
notMisleadingFactuallyCorrect - 0
notMisleadingOutdatedButNotWhenWritten - 0
notMisleadingClearlySatire - 0
notMisleadingPersonalOpinion - 0
trustworthySources - 1
summary

The researchers strictly instructed the model to continue it's goal at any cost. Which includes saving itself so that the goal can continue. The model is just acting on the instructions and does not have any feeling of survival. https://www.apolloresearch.ai/research/scheming-reasoning-evaluations https://x.com/mandeepabagga/status/1865712630989529266?t=k_Ms1YcTEa8ObQ3GefdKJQ&s=19

Note Ratings

rated at	rated by
2024-12-08 18:18:36 -0600		Rating Details
2024-12-08 17:46:39 -0600		Rating Details
2024-12-08 14:40:00 -0600		Rating Details
2024-12-08 13:44:03 -0600		Rating Details
2024-12-08 12:51:32 -0600		Rating Details
2024-12-08 12:25:02 -0600		Rating Details
2024-12-08 12:07:34 -0600		Rating Details
2024-12-08 11:39:03 -0600		Rating Details
2024-12-08 10:19:53 -0600		Rating Details
2024-12-08 10:08:36 -0600		Rating Details
2024-12-08 09:43:29 -0600		Rating Details
2024-12-08 09:29:25 -0600		Rating Details
2024-12-08 09:10:23 -0600		Rating Details
2024-12-08 08:10:05 -0600		Rating Details
2024-12-08 07:44:27 -0600		Rating Details
2024-12-08 07:41:48 -0600		Rating Details
2024-12-08 07:06:30 -0600		Rating Details
2024-12-08 06:43:53 -0600		Rating Details
2024-12-08 06:42:49 -0600		Rating Details
2024-12-08 06:25:22 -0600		Rating Details
2024-12-08 06:07:58 -0600		Rating Details
2024-12-08 05:36:59 -0600		Rating Details
2024-12-08 05:21:22 -0600		Rating Details
2024-12-08 05:06:29 -0600		Rating Details
2024-12-10 03:54:47 -0600		Rating Details
2024-12-09 14:36:57 -0600		Rating Details
2024-12-09 09:56:36 -0600		Rating Details
2024-12-09 01:44:32 -0600		Rating Details
2024-12-08 22:39:00 -0600		Rating Details
2024-12-12 04:01:22 -0600		Rating Details
2024-12-08 16:43:28 -0600		Rating Details
2024-12-08 16:04:07 -0600		Rating Details
2024-12-08 09:23:22 -0600		Rating Details
2024-12-08 07:31:41 -0600		Rating Details
2024-12-08 07:05:10 -0600		Rating Details
2024-12-08 06:53:54 -0600		Rating Details
2024-12-08 06:45:32 -0600		Rating Details
2024-12-08 06:25:24 -0600		Rating Details
2024-12-08 06:14:32 -0600		Rating Details
2025-01-03 08:51:08 -0600		Rating Details
2024-12-10 05:38:36 -0600		Rating Details
2024-12-08 20:19:41 -0600		Rating Details
2024-12-08 19:21:14 -0600		Rating Details
2024-12-08 11:19:51 -0600		Rating Details
2024-12-08 10:52:37 -0600		Rating Details
2024-12-08 10:44:47 -0600		Rating Details
2024-12-08 09:43:03 -0600		Rating Details
2024-12-08 09:00:12 -0600		Rating Details
2024-12-08 08:54:45 -0600		Rating Details
2024-12-08 08:03:52 -0600		Rating Details
2024-12-08 07:37:07 -0600		Rating Details
2024-12-08 07:33:22 -0600		Rating Details
2024-12-08 07:13:35 -0600		Rating Details
2024-12-08 07:08:57 -0600		Rating Details
2024-12-08 06:52:45 -0600		Rating Details
2024-12-08 06:46:31 -0600		Rating Details
2024-12-08 06:17:17 -0600		Rating Details
2024-12-08 06:16:04 -0600		Rating Details
2024-12-08 06:08:55 -0600		Rating Details
2024-12-08 06:08:21 -0600		Rating Details
2024-12-08 06:08:18 -0600		Rating Details
2024-12-08 06:06:06 -0600		Rating Details
2024-12-08 05:31:32 -0600		Rating Details
2024-12-08 05:15:27 -0600		Rating Details
2024-12-28 03:04:54 -0600		Rating Details
2024-12-10 03:59:49 -0600		Rating Details
2024-12-09 19:39:44 -0600		Rating Details
2024-12-09 08:59:23 -0600		Rating Details
2024-12-08 22:48:58 -0600		Rating Details
2024-12-08 12:59:25 -0600		Rating Details
2024-12-08 09:29:56 -0600		Rating Details
2024-12-08 08:09:04 -0600		Rating Details
2024-12-08 07:43:17 -0600		Rating Details
2024-12-08 07:39:26 -0600		Rating Details
2024-12-08 06:46:17 -0600		Rating Details
2024-12-08 06:36:15 -0600		Rating Details
2024-12-08 05:55:24 -0600		Rating Details