Spam-Filter API
Der Spam-Filter von ALTCHA ist ein einzigartiges Spam-Erkennungsmerkmal, das es ermöglicht, Text und andere Informationen zu klassifizieren und zu filtern, um Spam herauszufiltern und legitime Nachrichten zu identifizieren. Er funktioniert durch die Analyse von Texten und anderen Informationen, bewertet verschiedene Faktoren, um eine numerische Punktzahl bereitzustellen, die anzeigt, ob die Nachricht legitim erscheint oder wahrscheinlich Spam ist.
Der Spam-Filter verwendet Natural Language Processing und Machine Learning, um Daten schnell und zuverlässig zu analysieren. Für optimale Ergebnisse wird empfohlen, Sprachen mit vollständiger Unterstützung zu verwenden. Obwohl auch andere Sprachen analysiert werden können, können einige Bewertungsfaktoren möglicherweise nicht verfügbar sein.
Datenschutz und GDPR-Konformität haben für alle ALTCHA-Dienste höchste Priorität. Der Spam-Filter respektiert die Privatsphäre der Benutzer und stellt die Datenschutzkonformität sicher, um sowohl Sie als auch Ihre Kunden zu schützen. Erfahren Sie mehr über Datenschutz-Überlegungen.
Anwendungsfälle
- Umfassende Spam-Erkennung: Schnelle und zuverlässige Erkennung von Spam, der über Online-Formulare oder APIs eingereicht wird, durch Analyse von Text und die Validierung von Faktoren wie E-Mail-Adressen und IP-Adressen.
- E-Mail-Adressvalidierung: Erkennen von gefälschten oder verdächtigen E-Mail-Adressen und Unterscheidung zwischen “freien” und “Arbeits”-E-Mails.
- IP-Adressvalidierung: Identifizierung, ob eine IP-Adresse mit einem Rechenzentrum, einem Proxy oder einem TOR-Ausgang verbunden ist, und Überprüfung gegen Blocklisten auf bösartige Aktivitäten.
- Sicherheitsfirewall: Schutz vor häufigen HTML- und SQL-Injektionsversuchen in Texten sowie Identifizierung bekannter Angreifer durch umfangreiche Blocklisten.
- Spracherkennung: Automatische Erkennung von bis zu 160 Sprachen aus dem bereitgestellten Text.
- Geolokalisierung: Zuverlässige Erkennung des Benutzerstandorts, der gebräuchlichsten Sprachen, der Währung und anderer Informationen aus IP-Adressen oder Benutzerzeitzonen.
- Geofencing: Effektive Blockierung bestimmter Länder, Regionen oder Kontinente vom Zugriff oder der Nutzung Ihrer Website oder APIs.
Probieren Sie es aus!
Testen Sie die Spam-Filter-API mit Ihrer eigenen Eingabe mithilfe des unten stehenden Formulars.
Testen Sie den Spam-Filter selbst, indem Sie das Formular mit Ihrer eigenen Eingabe absenden.
- Verwenden Sie verschiedene Sprachen
- Enthalten Sie Kraftausdrücke oder gebräuchliche Spam-Wörter
- Verwenden Sie eine echte E-Mail-Adresse und eine unecht aussehende
- Erkunden Sie eines der unterstützten Textregeln
- Klassifizierung
- Dauer
- Gründe
- Erkannte Sprache
- IP-Adresse
- Standort (IP)
- Standort (Zeitzone)
Autorisierung
Der Zugriff auf die API erfordert einen API-Schlüssel. Lesen Sie die API-Autorisierungsdokumentation für weitere Informationen.
Verwendung des Widgets
Wenn Sie das ALTCHA-Widget als Captcha-Schutz verwenden, ist die Integration des Spam-Filters direkt auf Ihrer Website einfach. Das Formular wird während der ALTCHA-Verifizierung klassifiziert, bevor die Daten Ihren Server erreichen.
Um den Spam-Filter zu verwenden, fügen Sie das Attribut spamfilter
zum Widget hinzu (Version 0.3+
erforderlich):
Für weitere Informationen und erforderliche Serveränderungen konsultieren Sie die Dokumentation.
Betriebsarten
Der Spam-Filter bietet mehrere erweiterte Funktionen zur Spam-Erkennung. Je nach Anwendungsfall und Zielgruppe können einige Funktionen, wie die Klassifizierung von Textfeldern, datenschutzinvasiv sein. Glücklicherweise können Sie das Verhalten des Spam-Filters problemlos konfigurieren und den Verifizierungsmodus festlegen.
Standardmodus
Im Standardmodus führt der Spam-Filter Folgendes durch:
- Textklassifizierung aller Textfelder im Formular
- Überprüfung der E-Mail-Adresse
- IP-Verifizierung
- Sprachverifizierung
IP-Adressmodus
Setzen Sie spamfilter="ipAddress"
, um nur die IP-Adresse und die Zeitzone des Benutzers zu überprüfen. Dieser Modus sendet keine Textfelder oder E-Mail-Adressen und ist daher eine datenschutzfreundlichere Option, die die Übermittlung personenbezogener Daten vermeidet.
Während der IP-Adressmodus menschlich generierten Spam nicht erkennen kann, identifiziert er Bots effektiv durch umfassende IP-Adressprüfungen.
Benutzerdefinierte Modi
Sie können das Verhalten des Spam-Filters weiter anpassen, indem Sie programmatische Konfiguration verwenden. Geben Sie spamfilter
als Objekt mit einzelnen Einstellungen an, die auf Ihre Bedürfnisse zugeschnitten sind.
Textklassifikation
Die Spam-Filter-API analysiert den bereitgestellten Text und sucht nach gebräuchlichen Mustern, die in Spam gesehen werden. Sie bewertet verschiedene Faktoren und bietet eine kumulative Punktzahl, die die Qualität des Textes angibt.
Sie kann wertvolle Einblicke in den Text bieten:
- Spracherkennung
- Gesamteinschätzung der Stimmung
- Identifizierung von Spamwörtern und Kraftausdrücken
- URL-Erkennung
- Erfassung von HTML und schädlichen JavaScript-Injektionen
- Identifizierung potenzieller SQL-Injektionen
Beachten Sie die Textregeln für weitere Details.
Sprachunterstützung
Der Spam-Filter unterstützt derzeit die Textklassifizierung in den folgenden Sprachen. Für Texte in Sprachen, die nicht auf dieser Liste stehen, wird der Standard-Englisch-Classifier verwendet. Dies bietet eine Basisfunktionalität zur Spam-Erkennung, auch für nicht unterstützte Sprachen.
- Bulgarisch
- Tschechisch
- Dänisch
- Niederländisch
- Englisch
- Finnisch
- Französisch
- Deutsch
- Griechisch
- Ungarisch
- Italienisch
- Norwegisch
- Polnisch
- Portugiesisch
- Rumänisch
- Russisch
- Slowakisch
- Spanisch
- Schwedisch
E-Mail-Verifizierung
Die API kann E-Mail-Adressen überprüfen und deren Legitimität überprüfen. Eine höhere Punktzahl deutet auf eine verdächtige oder gefälschte E-Mail-Adresse hin.
- DNS-Rekordprüfung
- Erkennung von Frei-E-Mail-Providern
- Blocklistenprüfung für bekannte Spammer
Siehe E-Mail-Regeln für weitere Details.
IP-Adressverifizierung
Die Verifizierung von Benutzer-IP-Adressen ist entscheidend für die Erkennung von Missbrauch. Die API identifiziert Proxies, TOR-Ausgänge, Rechenzentren und bekannte bösartige IP-Adressen.
- Geo-Ortung
- Geofencing
- Identifizierung von Rechenzentren, Proxies, VPNs und TOR-Ausgängen
- Blocklistprüfung für bekannte bösartige Akteure
Siehe IP-Adress-Regeln für weitere Details.
Zeitzone-Verifizierung
Die Benutzerzeitzone (bereitgestellt vom Browser) wird überprüft, um genaue Geo-Ortungsdaten des Benutzers zu ermitteln. Die API löst Zeitzonen in bestimmte Länder auf.
- Geo-Ortung
- Geofencing
Beachten Sie die Zeitzonenregeln für weitere Details.
Sie können die IANA-Zeitzone eines Benutzers mit dem folgenden JavaScript-Code abrufen:
API-Endpunkt
Um Ihre Daten zu klassifizieren, verwenden Sie den Endpunkt /api/v1/classify
:
Anfrage
Um die API zu verwenden, senden Sie einen JSON-codierten Body im folgenden Format per POST
:
Alle Anfrageeigenschaften sind optional:
blockedCountries
- Ein Array von Ländercodes (ISO 3166 alpha-2), die Sie blockieren möchten.classifier
- Erzwingen eines bestimmten Klassifizierers. Unterstützte Klassifizierer:cs
,en
,de
,es
,fr
,it
,nl
,pt
.disableRules
- Ein Array von Regeln zum Deaktivieren. Z.B.["text.EMOJI"]
.email
- Eine E-Mail-Adresse zum Überprüfen. Um die Privatsphäre des Benutzers zu respektieren, übermitteln Sie nur@<domain>
.expectedCountries
- Ein Array von Ländercodes (ISO 3166 alpha-2), von denen Sie erwarten, dass der Benutzer darin wohnt.expectedLanguages
- Ein Array von Sprachcodes (ISO 639 alpha-2), in denen der Text verfasst sein soll.fields
- Übermitteln Sie textuelle Felder als Schlüssel-Wert-Objekt. Kann anstelle vontext
verwendet werden (dietext
Eigenschaft hat Vorrang).ipAddress
- Die IP-Adresse des Benutzers. Verwenden Sieauto
, um die IP des Anrufers zu verwenden. Sowohl IPv4 als auch IPv6 werden unterstützt.text
- Der zu klassifizierende Text. Es kann auch ein Array von Zeichenketten übermittelt werden.timeZone
- Die Zeitzone des Benutzers im IANA-Format, bereitgestellt vom Browser.
Antwort
Die API antwortet mit einer JSON-codierten Klassifizierung Ihrer Daten:
Das Ergebnis wird durch Eigenschaften in der Antwort bestimmt:
classification
- KannGOOD
(< 1),NEUTRAL
(1…2) oderBAD
(> 2) sein, was eine Gesamtbewertung angibt.score
- Die Gesamtpunktzahl. Ein Score > 2 deutet auf Spam hin.reasons
- Ein Array mit übereinstimmenden Regeln, sortiert nach Score.
Bewertungsregeln
Die Klassifizierungs-API wertet mehrere Bewertungsregeln für jedes bereitgestellte Attribut aus. Die individuellen Regeln und deren Punktzahlen werden von der API in der Antwort zurückgegeben. Der resultierende Gesamtscore ist eine Summe aller Regel-Scores.
Es gibt 4 verschiedene Kategorien von Bewertungsregeln, basierend auf den bereitgestellten Eingaben:
Textregeln
Der Text wird mit den folgenden Regeln mittels Natural Language Processing und Machine Learning analysiert. Diese Regeln sind darauf ausgelegt, gebräuchliche Muster zu erkennen, die in unerwünschten Nachrichten wie Spam und Werbung verwendet werden, aber auch Kraftausdrücke und schädliche Inhalte erkennen.
CAPITALIZATION
Diese Regel findet GROSSGESCHRIEBENE Wörter im Text. Die Großschreibung von Texten deutet auf eine unerwünschte Nachricht hin.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.25
wobein
die Anzahl der Vorkommen ist.
CURRENCY
Diese Regel findet alle Token, die den gebräuchlichen Preis- oder Währungsformaten entsprechen. Preise im Text deuten auf ein kommerzielles Angebot hin.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.25
wobein
die Anzahl der Vorkommen ist.
EMOJI
Diese Regel findet alle Emoji-Zeichen. Ein übermäßiger Einsatz von Emoji wird als schädlich angesehen.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.25
wobein
die Anzahl der Vorkommen ist.
EXCLAMATION
Diese Regel findet alle Ausrufezeichen. Der übermäßige Einsatz von Ausrufen wird als schädlich angesehen.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.25
wobein
die Anzahl der Vorkommen ist.
HASH_TAGS
Diese Regel findet alle #Hashtags. Der übermäßige Einsatz von Hashtags wird als schädlich angesehen.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.25
wobein
die Anzahl der Vorkommen ist.
HTML
Diese Regel findet alle HTML-Tags. Die Verwendung von HTML wird als schädlich angesehen.
- Bedeutung:
mittel
- Punktzahl:
n × 1
wobein
die Anzahl der Vorkommen ist.
HTML_INJECTION
Diese Regel findet alle schädlichen HTML-Tags wie <script>
, <style>
und <iframe>
, die auf einen böswilligen Versuch hinweisen.
- Bedeutung:
hoch
- Punktzahl:
n × 5
wobein
die Anzahl der Vorkommen ist.
NUMBERS_ONLY
Diese Regel entspricht, wenn der gesamte Text nur aus Zahlen besteht und auf zufällige Eingaben hinweist.
- Bedeutung:
mittel
- Punktzahl:
0 | 2
PROFANITY
Diese Regel findet gebräuchliche Kraftausdrücke im Text.
- Bedeutung:
hoch
- Punktzahl:
n × x
wobein
die Anzahl der Vorkommen undx
eine variierende Wortbewertung ist.
RANDOM_CHARS
Diese Regel findet Zeichenfolgen, die zu zufälligen Eingaben passen.
- Bedeutung:
mittel
- Punktzahl:
n × 1
wobein
die Anzahl der Vorkommen ist.
SENTIMENT
Diese Regel bewertet die allgemeine Stimmung des Textes. Eine schlechte oder schädliche Stimmung erhöht die Punktzahl.
- Bedeutung:
mittel
- Punktzahl:
0 | 1
SHORT_TEXT
Diese Regel entspricht, wenn der Text zu kurz ist, unter 40 Zeichen.
- Bedeutung:
mittel
- Punktzahl:
0 | 1
SPAM_WORDS
Diese Regel findet gebräuchliche Spam-Wörter im Text.
- Bedeutung:
mittel
- Punktzahl:
n × x
wobein
die Anzahl der Vorkommen undx
eine variierende Wortbewertung ist.
SPECIAL_CHARS
Diese Regel findet nicht-alfanumerische Sequenzen länger als 5 Zeichen.
- Bedeutung:
mittel
- Punktzahl:
n × 1
wobein
die Anzahl der Vorkommen ist.
SQL_INJECTION
Diese Regel findet potenzielle SQL-Injections, wie z.B. 1; drop table ...
.
- Bedeutung:
hoch
- Punktzahl:
n × 5
wobein
die Anzahl der Vorkommen ist.
UNEXPECTED_LANGUAGE
Diese Regel entspricht, wenn die erkannte Sprache nicht mit erwarteteSprachen
übereinstimmt.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
UNKNOWN_LANGUAGE
Diese Regel entspricht, wenn die Sprache nicht aus dem Text erkannt werden kann.
- Bedeutung:
mittel
- Punktzahl:
0 | 1
URL
Diese Regel findet URL-Adressen im Text. Der übermäßige Einsatz von URLs wird als schädlich angesehen.
- Bedeutung:
niedrig
- Punktzahl:
n × 0.5
wobein
die Anzahl der Vorkommen ist.
E-Mail-Regeln
Wenn Sie eine email
-Adresse an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um die Adresse zu validieren. Sie kann Ihnen sagen, ob die E-Mail eine “freie E-Mail” wie Gmail ist oder ob sie tatsächlich Nachrichten empfangen kann.
FREE_PROVIDER
Diese Regel entspricht, wenn der Domainname der E-Mail-Adresse als bekannter kostenloser E-Mail-Anbieter wie Gmail erkannt wird. Eine Punktzahl von 0
zeigt eine “Arbeits”-E-Mail mit einem benutzerdefinierten Domainnamen an, und eine Punktzahl von 0,5
zeigt einen kostenlosen E-Mail-Anbieter aus einer Liste der beliebtesten “vertrauenswürdigen Anbieter” an.
- Bedeutung:
niedrig
- Punktzahl:
0 | 0,5 | 1
DMARC
Diese Regel überprüft den DNS auf einen _dmarc.
-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Der fehlende DMARC
-Eintrag deutet darauf hin, dass die Domain schlecht konfiguriert ist.
- Bedeutung:
niedrig
- Punktzahl:
0 | 0,5
MX
Diese Regel überprüft den DNS auf einen MX
-Eintrag und stimmt überein, wenn der Eintrag nicht konfiguriert ist. Ein fehlender MX
-Eintrag deutet darauf hin, dass die E-Mail-Adresse ungültig ist, da E-Mails nicht zugestellt werden können.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
REPORTED
Diese Regel stimmt überein, wenn die E-Mail-Adresse in einer der Blocklisten bekannter Forum-Spammer gefunden wird.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
INVALID
Diese Regel stimmt überein, wenn das Format der E-Mail-Adresse ungültig ist, wie z. B. ein ungültiger Domainname.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
IP-Adressregeln
Wenn Sie eine ipAddress
an die Klassifizierungs-API bereitstellen, wird sie mit den folgenden Regeln analysiert, die entworfen wurden, um zu bewerten, wie schädlich der Akteur ist. Es wird Ihnen sagen, ob der Benutzer einen Proxy-Server oder TOR verwendet, ob sich die IP-Adresse in einem Rechenzentrum befindet oder ob es sich um eine bekannte bösartige IP-Adresse handelt. Sie können die IP-Bewertung für Geoblocking verwenden.
BLOCKED_COUNTRY
Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries
entspricht.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
HOSTING
Diese Regel stimmt überein, wenn die IP-Adresse als in einem Rechenzentrum bekannt ist.
- Bedeutung:
mittel
- Punktzahl:
0 | 2
MALICIOUS
Diese Regel stimmt überein, wenn die IP-Adresse in einer der Blocklisten bekannter bösartiger Akteure gefunden wird.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
PROXY
Diese Regel stimmt überein, wenn die IP-Adresse als Proxy-Server wie ein VPN bekannt ist.
- Bedeutung:
niedrig
- Punktzahl:
0 | 0,5
TOR
Diese Regel stimmt überein, wenn die IP-Adresse als TOR-Ausgang bekannt ist.
- Bedeutung:
mittel
- Punktzahl:
0 | 1
UNEXPECTED_COUNTRY
Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries
übereinstimmt.
- Bedeutung:
mittel
- Punktzahl:
0 | 1
Zeitzone-Regeln
Die Zeitzone des Benutzers (vom Browser bereitgestellt) wird ausgewertet, um eine genaue Geolokalisierung des Benutzers zu erkennen. Dies ist oft genauer als die IP-Adresse aufgrund der Ungenauigkeit des IP-Datensatzes und der Verwendung von Proxys.
BLOCKED_COUNTRY
Diese Regel stimmt überein, wenn die erkannte Geolokalisierung blockedCountries
entspricht.
- Bedeutung:
hoch
- Punktzahl:
0 | 5
UNEXPECTED_COUNTRY
Diese Regel stimmt überein, wenn die erkannte Geolokalisierung nicht mit expectedCountries
übereinstimmt.
- Bedeutung:
mittel
- Punktzahl:
0 | 1