Zum Inhalt springen

Spam-Filter API

Der Spam-Filter von ALTCHA ist ein einzigartiges Spam-Erkennungsmerkmal, das es ermöglicht, Text und andere Informationen zu klassifizieren und zu filtern, um Spam herauszufiltern und legitime Nachrichten zu identifizieren. Er funktioniert durch die Analyse von Texten und anderen Informationen, bewertet verschiedene Faktoren, um eine numerische Punktzahl bereitzustellen, die anzeigt, ob die Nachricht legitim erscheint oder wahrscheinlich Spam ist.

Der Spam-Filter verwendet Natural Language Processing und Machine Learning, um Daten schnell und zuverlässig zu analysieren. Für optimale Ergebnisse wird empfohlen, Sprachen mit vollständiger Unterstützung zu verwenden. Obwohl auch andere Sprachen analysiert werden können, können einige Bewertungsfaktoren möglicherweise nicht verfügbar sein.

Datenschutz und GDPR-Konformität haben für alle ALTCHA-Dienste höchste Priorität. Der Spam-Filter respektiert die Privatsphäre der Benutzer und stellt die Datenschutzkonformität sicher, um sowohl Sie als auch Ihre Kunden zu schützen. Erfahren Sie mehr über Datenschutz-Überlegungen.

Anwendungsfälle

  • Umfassende Spam-Erkennung: Schnelle und zuverlässige Erkennung von Spam, der über Online-Formulare oder APIs eingereicht wird, durch Analyse von Text und die Validierung von Faktoren wie E-Mail-Adressen und IP-Adressen.
  • E-Mail-Adressvalidierung: Erkennen von gefälschten oder verdächtigen E-Mail-Adressen und Unterscheidung zwischen “freien” und “Arbeits”-E-Mails.
  • IP-Adressvalidierung: Identifizierung, ob eine IP-Adresse mit einem Rechenzentrum, einem Proxy oder einem TOR-Ausgang verbunden ist, und Überprüfung gegen Blocklisten auf bösartige Aktivitäten.
  • Sicherheitsfirewall: Schutz vor häufigen HTML- und SQL-Injektionsversuchen in Texten sowie Identifizierung bekannter Angreifer durch umfangreiche Blocklisten.
  • Spracherkennung: Automatische Erkennung von bis zu 160 Sprachen aus dem bereitgestellten Text.
  • Geolokalisierung: Zuverlässige Erkennung des Benutzerstandorts, der gebräuchlichsten Sprachen, der Währung und anderer Informationen aus IP-Adressen oder Benutzerzeitzonen.
  • Geofencing: Effektive Blockierung bestimmter Länder, Regionen oder Kontinente vom Zugriff oder der Nutzung Ihrer Website oder APIs.

Probieren Sie es aus!

Testen Sie die Spam-Filter-API mit Ihrer eigenen Eingabe mithilfe des unten stehenden Formulars.

ALTCHA Spam-Filter

Testen Sie den Spam-Filter selbst, indem Sie das Formular mit Ihrer eigenen Eingabe absenden.

  • Verwenden Sie verschiedene Sprachen
  • Enthalten Sie Kraftausdrücke oder gebräuchliche Spam-Wörter
  • Verwenden Sie eine echte E-Mail-Adresse und eine unecht aussehende
  • Erkunden Sie eines der unterstützten Textregeln
Indem Sie das Formular absenden, stimmen Sie unserer Datenschutzrichtlinie zu. Ihre IP-Adresse und Ihr Standort werden automatisch erfasst.

Autorisierung

Der Zugriff auf die API erfordert einen API-Schlüssel. Lesen Sie die API-Autorisierungsdokumentation für weitere Informationen.

Verwendung des Widgets

Wenn Sie das ALTCHA-Widget als Captcha-Schutz verwenden, ist die Integration des Spam-Filters direkt auf Ihrer Website einfach. Das Formular wird während der ALTCHA-Verifizierung klassifiziert, bevor die Daten Ihren Server erreichen.

Um den Spam-Filter zu verwenden, fügen Sie das Attribut spamfilter zum Widget hinzu (Version 0.3+ erforderlich):

<altcha-widget
challengeurl="https://eu.altcha.org/api/v1/challenge?apiKey=ckey_..."
spamfilter
></altcha-widget>

Für weitere Informationen und erforderliche Serveränderungen konsultieren Sie die Dokumentation.

Betriebsarten

Der Spam-Filter bietet mehrere erweiterte Funktionen zur Spam-Erkennung. Je nach Anwendungsfall und Zielgruppe können einige Funktionen, wie die Klassifizierung von Textfeldern, datenschutzinvasiv sein. Glücklicherweise können Sie das Verhalten des Spam-Filters problemlos konfigurieren und den Verifizierungsmodus festlegen.

Standardmodus

Im Standardmodus führt der Spam-Filter Folgendes durch:

  • Textklassifizierung aller Textfelder im Formular
  • Überprüfung der E-Mail-Adresse
  • IP-Verifizierung
  • Sprachverifizierung

IP-Adressmodus

Setzen Sie spamfilter="ipAddress", um nur die IP-Adresse und die Zeitzone des Benutzers zu überprüfen. Dieser Modus sendet keine Textfelder oder E-Mail-Adressen und ist daher eine datenschutzfreundlichere Option, die die Übermittlung personenbezogener Daten vermeidet.

<altcha-widget
challengeurl="https://eu.altcha.org/api/v1/challenge?apiKey=ckey_..."
spamfilter="ipAddress"
></altcha-widget>

Während der IP-Adressmodus menschlich generierten Spam nicht erkennen kann, identifiziert er Bots effektiv durch umfassende IP-Adressprüfungen.

Benutzerdefinierte Modi

Sie können das Verhalten des Spam-Filters weiter anpassen, indem Sie programmatische Konfiguration verwenden. Geben Sie spamfilter als Objekt mit einzelnen Einstellungen an, die auf Ihre Bedürfnisse zugeschnitten sind.

Textklassifikation

Die Spam-Filter-API analysiert den bereitgestellten Text und sucht nach gebräuchlichen Mustern, die in Spam gesehen werden. Sie bewertet verschiedene Faktoren und bietet eine kumulative Punktzahl, die die Qualität des Textes angibt.

Sie kann wertvolle Einblicke in den Text bieten:

  • Spracherkennung
  • Gesamteinschätzung der Stimmung
  • Identifizierung von Spamwörtern und Kraftausdrücken
  • URL-Erkennung
  • Erfassung von HTML und schädlichen JavaScript-Injektionen
  • Identifizierung potenzieller SQL-Injektionen

Beachten Sie die Textregeln für weitere Details.

Sprachunterstützung

Der Spam-Filter unterstützt derzeit die Textklassifizierung in den folgenden Sprachen. Für Texte in Sprachen, die nicht auf dieser Liste stehen, wird der Standard-Englisch-Classifier verwendet. Dies bietet eine Basisfunktionalität zur Spam-Erkennung, auch für nicht unterstützte Sprachen.

  • Bulgarisch
  • Tschechisch
  • Dänisch
  • Niederländisch
  • Englisch
  • Finnisch
  • Französisch
  • Deutsch
  • Griechisch
  • Ungarisch
  • Italienisch
  • Norwegisch
  • Polnisch
  • Portugiesisch
  • Rumänisch
  • Russisch
  • Slowakisch
  • Spanisch
  • Schwedisch

E-Mail-Verifizierung

Die API kann E-Mail-Adressen überprüfen und deren Legitimität überprüfen. Eine höhere Punktzahl deutet auf eine verdächtige oder gefälschte E-Mail-Adresse hin.

  • DNS-Rekordprüfung
  • Erkennung von Frei-E-Mail-Providern
  • Blocklistenprüfung für bekannte Spammer

Siehe E-Mail-Regeln für weitere Details.

IP-Adressverifizierung

Die Verifizierung von Benutzer-IP-Adressen ist entscheidend für die Erkennung von Missbrauch. Die API identifiziert Proxies, TOR-Ausgänge, Rechenzentren und bekannte bösartige IP-Adressen.

  • Geo-Ortung
  • Geofencing
  • Identifizierung von Rechenzentren, Proxies, VPNs und TOR-Ausgängen
  • Blocklistprüfung für bekannte bösartige Akteure

Siehe IP-Adress-Regeln für weitere Details.

Zeitzone-Verifizierung

Die Benutzerzeitzone (bereitgestellt vom Browser) wird überprüft, um genaue Geo-Ortungsdaten des Benutzers zu ermitteln. Die API löst Zeitzonen in bestimmte Länder auf.

  • Geo-Ortung
  • Geofencing

Beachten Sie die Zeitzonenregeln für weitere Details.

Sie können die IANA-Zeitzone eines Benutzers mit dem folgenden JavaScript-Code abrufen:

const timeZone = Intl.DateTimeFormat().resolvedOptions().timeZone;

API-Endpunkt

API-Referenz

Um Ihre Daten zu klassifizieren, verwenden Sie den Endpunkt /api/v1/classify:

POST https://eu.altcha.org/api/v1/classify?apiKey=ckey_...
Content-Type: application/json
Referer: https://beispiel.com/
{
"text": "To spam or not to spam, that is the question."
}

Anfrage

Um die API zu verwenden, senden Sie einen JSON-codierten Body im folgenden Format per POST:

{
"email": "@gmail.com",
"ipAddress": "auto",
"text": "Ihr Text hier...",
"timeZone": "Europe/London"
}

Alle Anfrageeigenschaften sind optional:

  • blockedCountries - Ein Array von Ländercodes (ISO 3166 alpha-2), die Sie blockieren möchten.
  • classifier - Erzwingen eines bestimmten Klassifizierers. Unterstützte Klassifizierer: cs, en, de, es, fr, it, nl, pt.
  • disableRules - Ein Array von Regeln zum Deaktivieren. Z.B. ["text.EMOJI"].
  • email - Eine E-Mail-Adresse zum Überprüfen. Um die Privatsphäre des Benutzers zu respektieren, übermitteln Sie nur @<domain>.
  • expectedCountries - Ein Array von Ländercodes (ISO 3166 alpha-2), von denen Sie erwarten, dass der Benutzer darin wohnt.
  • expectedLanguages - Ein Array von Sprachcodes (ISO 639 alpha-2), in denen der Text verfasst sein soll.
  • fields - Übermitteln Sie textuelle Felder als Schlüssel-Wert-Objekt. Kann anstelle von text verwendet werden (die text Eigenschaft hat Vorrang).
  • ipAddress - Die IP-Adresse des Benutzers. Verwenden Sie auto, um die IP des Anrufers zu verwenden. Sowohl IPv4 als auch IPv6 werden unterstützt.
  • text - Der zu klassifizierende Text. Es kann auch ein Array von Zeichenketten übermittelt werden.
  • timeZone - Die Zeitzone des Benutzers im IANA-Format, bereitgestellt vom Browser.

Antwort

Die API antwortet mit einer JSON-codierten Klassifizierung Ihrer Daten:

{
"classification": "GOOD",
"country": {
"code": "gb",
"name": "United Kingdom",
"native": "United Kingdom",
"phone": [
44
],
"continent": "eu",
"capital": "London",
"currency": [
"GBP"
],
"languages": [
"en"
]
},
"ipAddress": {
"city": "London",
"country": "gb",
"ipAddress": "10.0.0.1",
"rules": { ... },
"score": 0.5,
"zip": null
},
"reasons": [
"ipAddress.PROXY"
],
"score": 0.5,
"text": {
"classifier": "en",
"detectedLanguage": "en",
"rules": { ... },
"score": 0
}
}

Das Ergebnis wird durch Eigenschaften in der Antwort bestimmt:

  • classification - Kann GOOD (< 1), NEUTRAL (1…2) oder BAD (> 2) sein, was eine Gesamtbewertung angibt.
  • score - Die Gesamtpunktzahl. Ein Score > 2 deutet auf Spam hin.
  • reasons - Ein Array mit übereinstimmenden Regeln, sortiert nach Score.

Bewertungsregeln

Die Klassifizierungs-API wertet mehrere Bewertungsregeln für jedes bereitgestellte Attribut aus. Die individuellen Regeln und deren Punktzahlen werden von der API in der Antwort zurückgegeben. Der resultierende Gesamtscore ist eine Summe aller Regel-Scores.

Es gibt 4 verschiedene Kategorien von Bewertungsregeln, basierend auf den bereitgestellten Eingaben:

Textregeln

Der Text wird mit den folgenden Regeln mittels Natural Language Processing und Machine Learning analysiert. Diese Regeln sind darauf ausgelegt, gebräuchliche Muster zu erkennen, die in unerwünschten Nachrichten wie Spam und Werbung verwendet werden, aber auch Kraftausdrücke und schädliche Inhalte erkennen.

CAPITALIZATION

Diese Regel findet GROSSGESCHRIEBENE Wörter im Text. Die Großschreibung von Texten deutet auf eine unerwünschte Nachricht hin.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

CURRENCY

Diese Regel findet alle Token, die den gebräuchlichen Preis- oder Währungsformaten entsprechen. Preise im Text deuten auf ein kommerzielles Angebot hin.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

EMOJI

Diese Regel findet alle Emoji-Zeichen. Ein übermäßiger Einsatz von Emoji wird als schädlich angesehen.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

EXCLAMATION

Diese Regel findet alle Ausrufezeichen. Der übermäßige Einsatz von Ausrufen wird als schädlich angesehen.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

HASH_TAGS

Diese Regel findet alle #Hashtags. Der übermäßige Einsatz von Hashtags wird als schädlich angesehen.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.25 wobei n die Anzahl der Vorkommen ist.

HTML

Diese Regel findet alle HTML-Tags. Die Verwendung von HTML wird als schädlich angesehen.

  • Bedeutung: mittel
  • Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

HTML_INJECTION

Diese Regel findet alle schädlichen HTML-Tags wie <script>, <style> und <iframe>, die auf einen böswilligen Versuch hinweisen.

  • Bedeutung: hoch
  • Punktzahl: n × 5 wobei n die Anzahl der Vorkommen ist.

NUMBERS_ONLY

Diese Regel entspricht, wenn der gesamte Text nur aus Zahlen besteht und auf zufällige Eingaben hinweist.

  • Bedeutung: mittel
  • Punktzahl: 0 | 2

PROFANITY

Diese Regel findet gebräuchliche Kraftausdrücke im Text.

  • Bedeutung: hoch
  • Punktzahl: n × x wobei n die Anzahl der Vorkommen und x eine variierende Wortbewertung ist.

RANDOM_CHARS

Diese Regel findet Zeichenfolgen, die zu zufälligen Eingaben passen.

  • Bedeutung: mittel
  • Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

SENTIMENT

Diese Regel bewertet die allgemeine Stimmung des Textes. Eine schlechte oder schädliche Stimmung erhöht die Punktzahl.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1

SHORT_TEXT

Diese Regel entspricht, wenn der Text zu kurz ist, unter 40 Zeichen.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1

SPAM_WORDS

Diese Regel findet gebräuchliche Spam-Wörter im Text.

  • Bedeutung: mittel
  • Punktzahl: n × x wobei n die Anzahl der Vorkommen und x eine variierende Wortbewertung ist.

SPECIAL_CHARS

Diese Regel findet nicht-alfanumerische Sequenzen länger als 5 Zeichen.

  • Bedeutung: mittel
  • Punktzahl: n × 1 wobei n die Anzahl der Vorkommen ist.

SQL_INJECTION

Diese Regel findet potenzielle SQL-Injections, wie z.B. 1; drop table ....

  • Bedeutung: hoch
  • Punktzahl: n × 5 wobei n die Anzahl der Vorkommen ist.

UNEXPECTED_LANGUAGE

Diese Regel entspricht, wenn die erkannte Sprache nicht mit erwarteteSprachen übereinstimmt.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

UNKNOWN_LANGUAGE

Diese Regel entspricht, wenn die Sprache nicht aus dem Text erkannt werden kann.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1

URL

Diese Regel findet URL-Adressen im Text. Der übermäßige Einsatz von URLs wird als schädlich angesehen.

  • Bedeutung: niedrig
  • Punktzahl: n × 0.5 wobei n die Anzahl der Vorkommen ist.

E-Mail-Regeln

Wenn Sie eine email-Adresse an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um die Adresse zu validieren. Sie kann Ihnen sagen, ob die E-Mail eine “freie E-Mail” wie Gmail ist oder ob sie tatsächlich Nachrichten empfangen kann.

FREE_PROVIDER

Diese Regel entspricht, wenn der Domainname der E-Mail-Adresse als bekannter kostenloser E-Mail-Anbieter wie Gmail erkannt wird. Eine Punktzahl von 0 zeigt eine “Arbeits”-E-Mail mit einem benutzerdefinierten Domainnamen an, und eine Punktzahl von 0,5 zeigt einen kostenlosen E-Mail-Anbieter aus einer Liste der beliebtesten “vertrauenswürdigen Anbieter” an.

  • Bedeutung: niedrig
  • Punktzahl: 0 | 0,5 | 1

DMARC

Diese Regel überprüft den DNS auf einen _dmarc.-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Der fehlende DMARC-Eintrag deutet darauf hin, dass die Domain schlecht konfiguriert ist.

  • Bedeutung: niedrig
  • Punktzahl: 0 | 0,5

MX

Diese Regel überprüft den DNS auf einen MX-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Ein fehlender MX-Eintrag deutet darauf hin, dass die E-Mail-Adresse ungültig ist, da E-Mails nicht zugestellt werden können.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

REPORTED

Diese Regel stimmt überein, wenn die E-Mail-Adresse in einer der Blocklisten bekannter Forum-Spammer gefunden wird.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

INVALID

Diese Regel stimmt überein, wenn das Format der E-Mail-Adresse ungültig ist, wie z. B. ein ungültiger Domainname.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

IP-Adressregeln

Wenn Sie eine ipAddress an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um zu bewerten, wie schädlich der Akteur ist. Es wird Ihnen sagen, ob der Benutzer einen Proxy-Server oder TOR verwendet, ob sich die IP-Adresse in einem Rechenzentrum befindet oder ob es sich um eine bekannte bösartige IP-Adresse handelt. Sie können die IP-Bewertung für Geoblocking verwenden.

BLOCKED_COUNTRY

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries entspricht.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

HOSTING

Diese Regel stimmt überein, wenn die IP-Adresse als in einem Rechenzentrum bekannt ist.

  • Bedeutung: mittel
  • Punktzahl: 0 | 2

MALICIOUS

Diese Regel stimmt überein, wenn die IP-Adresse in einer der Blocklisten bekannter bösartiger Akteure gefunden wird.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

PROXY

Diese Regel stimmt überein, wenn die IP-Adresse als Proxy-Server wie ein VPN bekannt ist.

  • Bedeutung: niedrig
  • Punktzahl: 0 | 0,5

TOR

Diese Regel stimmt überein, wenn die IP-Adresse als TOR-Ausgang bekannt ist.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1

UNEXPECTED_COUNTRY

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries übereinstimmt.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1

Zeitzone-Regeln

Die Zeitzone des Benutzers (vom Browser bereitgestellt) wird ausgewertet, um eine genaue Geolokalisierung des Benutzers zu erkennen. Dies ist oft genauer als die IP-Adresse aufgrund der Ungenauigkeit des IP-Datensatzes und der Verwendung von Proxys.

BLOCKED_COUNTRY

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries entspricht.

  • Bedeutung: hoch
  • Punktzahl: 0 | 5

UNEXPECTED_COUNTRY

Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries übereinstimmt.

  • Bedeutung: mittel
  • Punktzahl: 0 | 1