{
  "apiVersion": "v1",
  "methodology": "https://sourcescore.org/methodology/",
  "canonical": "https://sourcescore.org/claims/688a84a8d7211fc0/",
  "claim": {
    "vertical": "ai-ml",
    "subject": "Anthropic Constitutional Classifiers",
    "predicate": "publicly_released_on",
    "object": "2025-02-04 by Anthropic — safeguard against jailbreaks via constitutional-trained input/output filters",
    "confidence": 1,
    "sources": [
      {
        "url": "https://www.anthropic.com/news/constitutional-classifiers",
        "title": "Constitutional Classifiers: Defending against universal jailbreaks",
        "publisher": "Anthropic",
        "publishedDate": "2025-02-04",
        "accessedDate": "2026-05-16",
        "type": "official-blog",
        "excerpt": "Constitutional Classifiers are a set of input and output classifiers, trained with a constitution, that defend against universal jailbreaks while maintaining low refusal rates on benign queries."
      },
      {
        "url": "https://arxiv.org/abs/2501.18837",
        "title": "Constitutional Classifiers — research paper",
        "publisher": "arXiv",
        "publishedDate": "2025-01-31",
        "accessedDate": "2026-05-16",
        "type": "preprint"
      }
    ],
    "publishedAt": "2026-05-16T00:00:00Z",
    "lastVerified": "2026-05-16",
    "methodologyVersion": "veritas-v0.1",
    "tags": [
      "constitutional-classifiers",
      "anthropic",
      "ai-safety",
      "jailbreak-defense",
      "released_on",
      "2025"
    ],
    "id": "688a84a8d7211fc0",
    "statement": "Anthropic Constitutional Classifiers publicly released on: 2025-02-04 by Anthropic — safeguard against jailbreaks via constitutional-trained input/output filters."
  },
  "signature": {
    "algorithm": "HMAC-SHA256",
    "signedBy": "did:web:sourcescore.org",
    "signedAt": "2026-05-29T00:00:00.000Z",
    "signature": "194e70bc570aac6fbf7760e8d71ede536de3798e88a41ca8672ca8e1edca0f4a"
  },
  "citedAs": "Anthropic Constitutional Classifiers publicly released on: 2025-02-04 by Anthropic — safeguard against jailbreaks via constitutional-trained input/output filters. — SourceScore Claim 688a84a8d7211fc0 (verified 2026-05-16, signed 194e70bc…). https://sourcescore.org/claims/688a84a8d7211fc0/"
}