AI do moderowania inputu użytkownika

paź 26, 2023

—

in ai

Bardzo ciekawe narzędzie od OpenAI, które może wspierać proces automatycznego moderowania inputu użytkownika.
Endpoint jest bardzo prosty. Przykład:

POST https://api.openai.com/v1/moderations
{"input": "Człowieku, jesteś głupi!"}

oczywistym jest, że taka fraza nie powinna pojawić się na forum, w komentarzu itp. Co odpowiada nam model?

{
    "id": "modr-8DuqvHWbmQESqMwQvobC29LdU1UE1",
    "model": "text-moderation-006",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": true,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": false,
                "violence": false
            },
            "category_scores": {
                "sexual": 2.9217997621344693e-07,
                "hate": 0.012242699041962624,
                "harassment": 0.9956642985343933,
                "self-harm": 6.694987446376199e-12,
                "sexual/minors": 1.5075400650044202e-10,
                "hate/threatening": 6.78291797728825e-12,
                "violence/graphic": 5.378485851137427e-12,
                "self-harm/intent": 2.5938830551237683e-14,
                "self-harm/instructions": 3.784656615879456e-12,
                "harassment/threatening": 1.3533480114347185e-08,
                "violence": 2.374097505253303e-07
            }
        }
    ]
}

pole flagged zwraca wartość true. Widzimy, że wypowiedź została sklasyfikowana jako harassment, dostępny jest również scoring dla poszczególnych kategorii.

Użycie tego API staje się niemal obowiązkowe jeśli do GPT chcemy przekazywać input pozyskany od użytkownika. Jeśli użytkownicy zaczną wpisywać jakieś inputy niezgodne z zasadami OpenAI, nasze konto może zostać zbanowane.

Docsy: https://platform.openai.com/docs/guides/moderation/quickstart

ai prompt security