Spam-Filter API

Der Spam-Filter von ALTCHA ist ein einzigartiges Spam-Erkennungsmerkmal, das es ermöglicht, Text und andere Informationen zu klassifizieren und zu filtern, um Spam herauszufiltern und legitime Nachrichten zu identifizieren. Er funktioniert durch die Analyse von Texten und anderen Informationen, bewertet verschiedene Faktoren, um eine numerische Punktzahl bereitzustellen, die anzeigt, ob die Nachricht legitim erscheint oder wahrscheinlich Spam ist.

Der Spam-Filter verwendet Natural Language Processing und Machine Learning, um Daten schnell und zuverlässig zu analysieren. Für optimale Ergebnisse wird empfohlen, Sprachen mit vollständiger Unterstützung zu verwenden. Obwohl auch andere Sprachen analysiert werden können, können einige Bewertungsfaktoren möglicherweise nicht verfügbar sein.

Datenschutz und GDPR-Konformität haben für alle ALTCHA-Dienste höchste Priorität. Der Spam-Filter respektiert die Privatsphäre der Benutzer und stellt die Datenschutzkonformität sicher, um sowohl Sie als auch Ihre Kunden zu schützen. Erfahren Sie mehr über Datenschutz-Überlegungen.

Anwendungsfälle

Umfassende Spam-Erkennung: Schnelle und zuverlässige Erkennung von Spam, der über Online-Formulare oder APIs eingereicht wird, durch Analyse von Text und die Validierung von Faktoren wie E-Mail-Adressen und IP-Adressen.
E-Mail-Adressvalidierung: Erkennen von gefälschten oder verdächtigen E-Mail-Adressen und Unterscheidung zwischen “freien” und “Arbeits”-E-Mails.
IP-Adressvalidierung: Identifizierung, ob eine IP-Adresse mit einem Rechenzentrum, einem Proxy oder einem TOR-Ausgang verbunden ist, und Überprüfung gegen Blocklisten auf bösartige Aktivitäten.
Sicherheitsfirewall: Schutz vor häufigen HTML- und SQL-Injektionsversuchen in Texten sowie Identifizierung bekannter Angreifer durch umfangreiche Blocklisten.
Spracherkennung: Automatische Erkennung von bis zu 160 Sprachen aus dem bereitgestellten Text.
Geolokalisierung: Zuverlässige Erkennung des Benutzerstandorts, der gebräuchlichsten Sprachen, der Währung und anderer Informationen aus IP-Adressen oder Benutzerzeitzonen.
Geofencing: Effektive Blockierung bestimmter Länder, Regionen oder Kontinente vom Zugriff oder der Nutzung Ihrer Website oder APIs.

Probieren Sie es aus!

Testen Sie die Spam-Filter-API mit Ihrer eigenen Eingabe mithilfe des unten stehenden Formulars.

Testen Sie den Spam-Filter selbst, indem Sie das Formular mit Ihrer eigenen Eingabe absenden.

Verwenden Sie verschiedene Sprachen
Enthalten Sie Kraftausdrücke oder gebräuchliche Spam-Wörter
Verwenden Sie eine echte E-Mail-Adresse und eine unecht aussehende
Erkunden Sie eines der unterstützten Textregeln

Indem Sie das Formular absenden, stimmen Sie unserer Datenschutzrichtlinie zu. Ihre IP-Adresse und Ihr Standort werden automatisch erfasst.

Klassifizierung
Dauer
Gründe
Erkannte Sprache
IP-Adresse
Standort (IP)
Standort (Zeitzone)

Autorisierung

Der Zugriff auf die API erfordert einen API-Schlüssel. Lesen Sie die API-Autorisierungsdokumentation für weitere Informationen.

Verwendung des Widgets

Wenn Sie das ALTCHA-Widget als Captcha-Schutz verwenden, ist die Integration des Spam-Filters direkt auf Ihrer Website einfach. Das Formular wird während der ALTCHA-Verifizierung klassifiziert, bevor die Daten Ihren Server erreichen.

Um den Spam-Filter zu verwenden, fügen Sie das Attribut spamfilter zum Widget hinzu (Version 0.3+ erforderlich):

<altcha-widget
  challengeurl="https://eu.altcha.org/api/v1/challenge?apiKey=ckey_..."
  spamfilter
></altcha-widget>

Für weitere Informationen und erforderliche Serveränderungen konsultieren Sie die Dokumentation.

Betriebsarten

Der Spam-Filter bietet mehrere erweiterte Funktionen zur Spam-Erkennung. Je nach Anwendungsfall und Zielgruppe können einige Funktionen, wie die Klassifizierung von Textfeldern, datenschutzinvasiv sein. Glücklicherweise können Sie das Verhalten des Spam-Filters problemlos konfigurieren und den Verifizierungsmodus festlegen.

Standardmodus

Im Standardmodus führt der Spam-Filter Folgendes durch:

Textklassifizierung aller Textfelder im Formular
Überprüfung der E-Mail-Adresse
IP-Verifizierung
Sprachverifizierung

IP-Adressmodus

Setzen Sie spamfilter="ipAddress", um nur die IP-Adresse und die Zeitzone des Benutzers zu überprüfen. Dieser Modus sendet keine Textfelder oder E-Mail-Adressen und ist daher eine datenschutzfreundlichere Option, die die Übermittlung personenbezogener Daten vermeidet.

<altcha-widget
  challengeurl="https://eu.altcha.org/api/v1/challenge?apiKey=ckey_..."
  spamfilter="ipAddress"
></altcha-widget>

Während der IP-Adressmodus menschlich generierten Spam nicht erkennen kann, identifiziert er Bots effektiv durch umfassende IP-Adressprüfungen.

Benutzerdefinierte Modi

Sie können das Verhalten des Spam-Filters weiter anpassen, indem Sie programmatische Konfiguration verwenden. Geben Sie spamfilter als Objekt mit einzelnen Einstellungen an, die auf Ihre Bedürfnisse zugeschnitten sind.

Textklassifikation

Die Spam-Filter-API analysiert den bereitgestellten Text und sucht nach gebräuchlichen Mustern, die in Spam gesehen werden. Sie bewertet verschiedene Faktoren und bietet eine kumulative Punktzahl, die die Qualität des Textes angibt.

Sie kann wertvolle Einblicke in den Text bieten:

Spracherkennung
Gesamteinschätzung der Stimmung
Identifizierung von Spamwörtern und Kraftausdrücken
URL-Erkennung
Erfassung von HTML und schädlichen JavaScript-Injektionen
Identifizierung potenzieller SQL-Injektionen

Beachten Sie die Textregeln für weitere Details.

Sprachunterstützung

Der Spam-Filter unterstützt derzeit die Textklassifizierung in den folgenden Sprachen. Für Texte in Sprachen, die nicht auf dieser Liste stehen, wird der Standard-Englisch-Classifier verwendet. Dies bietet eine Basisfunktionalität zur Spam-Erkennung, auch für nicht unterstützte Sprachen.

Bulgarisch
Tschechisch
Dänisch
Niederländisch
Englisch
Finnisch
Französisch
Deutsch
Griechisch
Ungarisch
Italienisch
Norwegisch
Polnisch
Portugiesisch
Rumänisch
Russisch
Slowakisch
Spanisch
Schwedisch

E-Mail-Verifizierung

Die API kann E-Mail-Adressen überprüfen und deren Legitimität überprüfen. Eine höhere Punktzahl deutet auf eine verdächtige oder gefälschte E-Mail-Adresse hin.

DNS-Rekordprüfung
Erkennung von Frei-E-Mail-Providern
Blocklistenprüfung für bekannte Spammer

Siehe E-Mail-Regeln für weitere Details.

IP-Adressverifizierung

Die Verifizierung von Benutzer-IP-Adressen ist entscheidend für die Erkennung von Missbrauch. Die API identifiziert Proxies, TOR-Ausgänge, Rechenzentren und bekannte bösartige IP-Adressen.

Geo-Ortung
Geofencing
Identifizierung von Rechenzentren, Proxies, VPNs und TOR-Ausgängen
Blocklistprüfung für bekannte bösartige Akteure

Siehe IP-Adress-Regeln für weitere Details.

Zeitzone-Verifizierung

Die Benutzerzeitzone (bereitgestellt vom Browser) wird überprüft, um genaue Geo-Ortungsdaten des Benutzers zu ermitteln. Die API löst Zeitzonen in bestimmte Länder auf.

Geo-Ortung
Geofencing

Beachten Sie die Zeitzonenregeln für weitere Details.

Sie können die IANA-Zeitzone eines Benutzers mit dem folgenden JavaScript-Code abrufen:

const timeZone = Intl.DateTimeFormat().resolvedOptions().timeZone;

API-Endpunkt

API-Referenz

Um Ihre Daten zu klassifizieren, verwenden Sie den Endpunkt /api/v1/classify:

POST https://eu.altcha.org/api/v1/classify?apiKey=ckey_...
Content-Type: application/json
Referer: https://beispiel.com/

{
  "text": "To spam or not to spam, that is the question."
}

Anfrage

Um die API zu verwenden, senden Sie einen JSON-codierten Body im folgenden Format per POST:

{
  "email": "@gmail.com",
  "ipAddress": "auto",
  "text": "Ihr Text hier...",
  "timeZone": "Europe/London"
}

Alle Anfrageeigenschaften sind optional:

blockedCountries - Ein Array von Ländercodes (ISO 3166 alpha-2), die Sie blockieren möchten.
classifier - Erzwingen eines bestimmten Klassifizierers. Unterstützte Klassifizierer: cs, en, de, es, fr, it, nl, pt.
disableRules - Ein Array von Regeln zum Deaktivieren. Z.B. ["text.EMOJI"].
email - Eine E-Mail-Adresse zum Überprüfen. Um die Privatsphäre des Benutzers zu respektieren, übermitteln Sie nur @<domain>.
expectedCountries - Ein Array von Ländercodes (ISO 3166 alpha-2), von denen Sie erwarten, dass der Benutzer darin wohnt.
expectedLanguages - Ein Array von Sprachcodes (ISO 639 alpha-2), in denen der Text verfasst sein soll.
fields - Übermitteln Sie textuelle Felder als Schlüssel-Wert-Objekt. Kann anstelle von text verwendet werden (die text Eigenschaft hat Vorrang).
ipAddress - Die IP-Adresse des Benutzers. Verwenden Sie auto, um die IP des Anrufers zu verwenden. Sowohl IPv4 als auch IPv6 werden unterstützt.
text - Der zu klassifizierende Text. Es kann auch ein Array von Zeichenketten übermittelt werden.
timeZone - Die Zeitzone des Benutzers im IANA-Format, bereitgestellt vom Browser.

Antwort

Die API antwortet mit einer JSON-codierten Klassifizierung Ihrer Daten:

{
  "classification": "GOOD",
  "country": {
    "code": "gb",
    "name": "United Kingdom",
    "native": "United Kingdom",
    "phone": [
      44
    ],
    "continent": "eu",
    "capital": "London",
    "currency": [
      "GBP"
    ],
    "languages": [
      "en"
    ]
  },
  "ipAddress": {
    "city": "London",
    "country": "gb",
    "ipAddress": "10.0.0.1",
    "rules": { ... },
    "score": 0.5,
    "zip": null
  },
  "reasons": [
    "ipAddress.PROXY"
  ],
  "score": 0.5,
  "text": {
    "classifier": "en",
    "detectedLanguage": "en",
    "rules": { ... },
    "score": 0
  }
}

Das Ergebnis wird durch Eigenschaften in der Antwort bestimmt:

classification - Kann GOOD (< 1), NEUTRAL (1…2) oder BAD (> 2) sein, was eine Gesamtbewertung angibt.
score - Die Gesamtpunktzahl. Ein Score > 2 deutet auf Spam hin.
reasons - Ein Array mit übereinstimmenden Regeln, sortiert nach Score.

Bewertungsregeln

Die Klassifizierungs-API wertet mehrere Bewertungsregeln für jedes bereitgestellte Attribut aus. Die individuellen Regeln und deren Punktzahlen werden von der API in der Antwort zurückgegeben. Der resultierende Gesamtscore ist eine Summe aller Regel-Scores.

Es gibt 4 verschiedene Kategorien von Bewertungsregeln, basierend auf den bereitgestellten Eingaben:

Textregeln
E-Mail-Regeln
IP-Adress-Regeln
Zeitzonenregeln

Textregeln

Der Text wird mit den folgenden Regeln mittels Natural Language Processing und Machine Learning analysiert. Diese Regeln sind darauf ausgelegt, gebräuchliche Muster zu erkennen, die in unerwünschten Nachrichten wie Spam und Werbung verwendet werden, aber auch Kraftausdrücke und schädliche Inhalte erkennen.

`CAPITALIZATION`

Diese Regel findet GROSSGESCHRIEBENE Wörter im Text. Die Großschreibung von Texten deutet auf eine unerwünschte Nachricht hin.

Bedeutung: niedrig
Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

`CURRENCY`

Diese Regel findet alle Token, die den gebräuchlichen Preis- oder Währungsformaten entsprechen. Preise im Text deuten auf ein kommerzielles Angebot hin.

Bedeutung: niedrig
Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

`EMOJI`

Diese Regel findet alle Emoji-Zeichen. Ein übermäßiger Einsatz von Emoji wird als schädlich angesehen.

Bedeutung: niedrig
Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

`EXCLAMATION`

Diese Regel findet alle Ausrufezeichen. Der übermäßige Einsatz von Ausrufen wird als schädlich angesehen.

Bedeutung: niedrig
Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

`HASH_TAGS`

Diese Regel findet alle #Hashtags. Der übermäßige Einsatz von Hashtags wird als schädlich angesehen.

Bedeutung: niedrig
Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

`HTML`

Diese Regel findet alle HTML-Tags. Die Verwendung von HTML wird als schädlich angesehen.

Bedeutung: mittel
Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

`HTML_INJECTION`

Diese Regel findet alle schädlichen HTML-Tags wie <script>, <style> und <iframe>, die auf einen böswilligen Versuch hinweisen.

Bedeutung: hoch
Punktzahl: n × 5 wobei n die Anzahl der Vorkommen ist.

`NUMBERS_ONLY`

Diese Regel entspricht, wenn der gesamte Text nur aus Zahlen besteht und auf zufällige Eingaben hinweist.

Bedeutung: mittel
Punktzahl: 0 | 2

`PROFANITY`

Diese Regel findet gebräuchliche Kraftausdrücke im Text.

Bedeutung: hoch
Punktzahl: n × x wobei n die Anzahl der Vorkommen und x eine variierende Wortbewertung ist.

`RANDOM_CHARS`

Diese Regel findet Zeichenfolgen, die zu zufälligen Eingaben passen.

Bedeutung: mittel
Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

`SENTIMENT`

Diese Regel bewertet die allgemeine Stimmung des Textes. Eine schlechte oder schädliche Stimmung erhöht die Punktzahl.

Bedeutung: mittel
Punktzahl: 0 | 1

`SHORT_TEXT`

Diese Regel entspricht, wenn der Text zu kurz ist, unter 40 Zeichen.

Bedeutung: mittel
Punktzahl: 0 | 1

`SPAM_WORDS`

Diese Regel findet gebräuchliche Spam-Wörter im Text.

Bedeutung: mittel
Punktzahl: n × x wobei n die Anzahl der Vorkommen und x eine variierende Wortbewertung ist.

`SPECIAL_CHARS`

Diese Regel findet nicht-alfanumerische Sequenzen länger als 5 Zeichen.

Bedeutung: mittel
Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

`SQL_INJECTION`

Diese Regel findet potenzielle SQL-Injections, wie z.B. 1; drop table ....

Bedeutung: hoch
Punktzahl: n × 5 wobei n die Anzahl der Vorkommen ist.

`UNEXPECTED_LANGUAGE`

Diese Regel entspricht, wenn die erkannte Sprache nicht mit erwarteteSprachen übereinstimmt.

Bedeutung: hoch
Punktzahl: 0 | 5

`UNKNOWN_LANGUAGE`

Diese Regel entspricht, wenn die Sprache nicht aus dem Text erkannt werden kann.

Bedeutung: mittel
Punktzahl: 0 | 1

`URL`

Diese Regel findet URL-Adressen im Text. Der übermäßige Einsatz von URLs wird als schädlich angesehen.

Bedeutung: niedrig
Punktzahl: n × 0.5 wobei n die Anzahl der Vorkommen ist.

E-Mail-Regeln

Wenn Sie eine email-Adresse an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um die Adresse zu validieren. Sie kann Ihnen sagen, ob die E-Mail eine “freie E-Mail” wie Gmail ist oder ob sie tatsächlich Nachrichten empfangen kann.

`FREE_PROVIDER`

Diese Regel entspricht, wenn der Domainname der E-Mail-Adresse als bekannter kostenloser E-Mail-Anbieter wie Gmail erkannt wird. Eine Punktzahl von 0 zeigt eine “Arbeits”-E-Mail mit einem benutzerdefinierten Domainnamen an, und eine Punktzahl von 0,5 zeigt einen kostenlosen E-Mail-Anbieter aus einer Liste der beliebtesten “vertrauenswürdigen Anbieter” an.

Bedeutung: niedrig
Punktzahl: 0 | 0,5 | 1

`DMARC`

Diese Regel überprüft den DNS auf einen _dmarc.-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Der fehlende DMARC-Eintrag deutet darauf hin, dass die Domain schlecht konfiguriert ist.

Bedeutung: niedrig
Punktzahl: 0 | 0,5

`MX`

Diese Regel überprüft den DNS auf einen MX-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Ein fehlender MX-Eintrag deutet darauf hin, dass die E-Mail-Adresse ungültig ist, da E-Mails nicht zugestellt werden können.

Bedeutung: hoch
Punktzahl: 0 | 5

`REPORTED`

Diese Regel stimmt überein, wenn die E-Mail-Adresse in einer der Blocklisten bekannter Forum-Spammer gefunden wird.

Bedeutung: hoch
Punktzahl: 0 | 5

`INVALID`

Diese Regel stimmt überein, wenn das Format der E-Mail-Adresse ungültig ist, wie z. B. ein ungültiger Domainname.

Bedeutung: hoch
Punktzahl: 0 | 5

IP-Adressregeln

Wenn Sie eine ipAddress an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um zu bewerten, wie schädlich der Akteur ist. Es wird Ihnen sagen, ob der Benutzer einen Proxy-Server oder TOR verwendet, ob sich die IP-Adresse in einem Rechenzentrum befindet oder ob es sich um eine bekannte bösartige IP-Adresse handelt. Sie können die IP-Bewertung für Geoblocking verwenden.

`BLOCKED_COUNTRY`

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries entspricht.

Bedeutung: hoch
Punktzahl: 0 | 5

`HOSTING`

Diese Regel stimmt überein, wenn die IP-Adresse als in einem Rechenzentrum bekannt ist.

Bedeutung: mittel
Punktzahl: 0 | 2

`MALICIOUS`

Diese Regel stimmt überein, wenn die IP-Adresse in einer der Blocklisten bekannter bösartiger Akteure gefunden wird.

Bedeutung: hoch
Punktzahl: 0 | 5

`PROXY`

Diese Regel stimmt überein, wenn die IP-Adresse als Proxy-Server wie ein VPN bekannt ist.

Bedeutung: niedrig
Punktzahl: 0 | 0,5

`TOR`

Diese Regel stimmt überein, wenn die IP-Adresse als TOR-Ausgang bekannt ist.

Bedeutung: mittel
Punktzahl: 0 | 1

`UNEXPECTED_COUNTRY`

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries übereinstimmt.

Bedeutung: mittel
Punktzahl: 0 | 1

Zeitzone-Regeln

Die Zeitzone des Benutzers (vom Browser bereitgestellt) wird ausgewertet, um eine genaue Geolokalisierung des Benutzers zu erkennen. Dies ist oft genauer als die IP-Adresse aufgrund der Ungenauigkeit des IP-Datensatzes und der Verwendung von Proxys.

`BLOCKED_COUNTRY`

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries entspricht.

Bedeutung: hoch
Punktzahl: 0 | 5

`UNEXPECTED_COUNTRY`

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries übereinstimmt.

Bedeutung: mittel
Punktzahl: 0 | 1