mcp-vision MCP Server

mcp-vision MCP Server

Legg til datamaskinsyn i AI-arbeidsflytene dine med mcp-vision: HuggingFace-drevet objektgjenkjenning og bildeanalyse som en MCP-server for FlowHunt og multimodale assistenter.

Hva gjør “mcp-vision” MCP Server?

“Mcp-vision” MCP Server er en Model Context Protocol (MCP) server som eksponerer HuggingFace datamodeller for datamaskinsyn—som zero-shot objektgjenkjenning—som verktøy for å forbedre synsegenskapene til store språk- eller visjon-språkmodeller. Ved å koble AI-assistenter til kraftige datamaskinsynmodeller muliggjør mcp-vision oppgaver som objektgjenkjenning og bildeanalyse direkte i utviklingsarbeidsflyter. Dette lar LLM-er og andre AI-klienter programmessig forespørre, prosessere og analysere bilder, noe som gjør det enklere å automatisere, standardisere og utvide visjonsbaserte interaksjoner i applikasjoner. Serveren passer for både GPU- og CPU-miljøer og er designet for enkel integrering med populære AI-plattformer.

Liste over prompt-maler

Ingen spesifikke promptmaler er nevnt i dokumentasjon eller depotfiler.

Liste over ressurser

Ingen eksplisitte MCP-ressurser er dokumentert eller listet i depotet.

Liste over verktøy

  • locate_objects
    Oppdag og lokaliser objekter i et bilde ved å bruke en av zero-shot objektgjenkjenningspipelinene som er tilgjengelig via HuggingFace. Inndata inkluderer bildebane, en liste over kandidatetiketter, og et valgfritt modellnavn. Returnerer en liste over oppdagede objekter i standardformat.

  • zoom_to_object
    Zoom inn på et spesifikt objekt i et bilde ved å beskjære bildet til rammen rundt objektet med best deteksjonsscore. Inndata inkluderer bildebane, en etikett som skal finnes, og et valgfritt modellnavn. Returnerer et beskåret bilde eller None.

Bruksområder for denne MCP-serveren

  • Automatisert objektgjenkjenning i bilder
    Utviklere kan bruke mcp-vision til å programmessig oppdage og lokalisere objekter i bilder, og effektivisere oppgaver som bildetagging, innholdsmoderering og visuell søk.
  • Visjonsbasert arbeidsflytautomatisering
    Integrer objektgjenkjenning i større arbeidsflyter, som å sortere bilder etter innhold, automatisere rapportgenerering basert på detekterte elementer, eller forbedre tilgjengelighetsverktøy.
  • Interaktiv bildeutforskning
    AI-assistenter kan hjelpe brukere med å zoome inn på spesifikke objekter i bilder, og støtte oppgaver som kvalitetsinspeksjon, medisinsk bildeanalyse eller produktidentifisering.
  • Utvid AI-agenter med visuelle evner
    LLM-er kan resonnere rundt og handle på visuelt datagrunnlag, noe som muliggjør rikere multimodale interaksjoner og kontekstbevisste svar i applikasjoner som chatboter, digitale assistenter og forskningsverktøy.

Hvordan sette det opp

Windsurf

Ingen oppsettsinstruksjoner for Windsurf er oppgitt i depotet.

Claude

  1. Forutsetninger:
    Sørg for at du har Docker installert og, hvis du bruker GPU, et NVIDIA-aktivert miljø.
  2. Bygg eller bruk Docker-image:
    • Bygg lokalt:
      git clone git@github.com:groundlight/mcp-vision.git
      cd mcp-vision
      make build-docker
      
    • Bruk offentlig image (valgfritt): Ingen bygging nødvendig.
  3. Rediger konfigurasjon:
    Åpne claude_desktop_config.json og legg til følgende under mcpServers:
    • For GPU:
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "mcp-vision"],
          "env": {}
        }
      }
      
    • For CPU:
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "mcp-vision"],
          "env": {}
        }
      }
      
    • For offentlig image (beta):
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "groundlight/mcp-vision:latest"],
          "env": {}
        }
      }
      
  4. Lagre og start på nytt:
    Lagre konfigurasjonen og start Claude Desktop på nytt.
  5. Verifiser oppsett:
    Sørg for at mcp-vision er tilgjengelig som en MCP-server i Claude Desktop-grensesnittet.

Sikring av API-nøkler

  • Ingen krav eller eksempler på API-nøkler er oppgitt i dokumentasjonen.

Cursor

Ingen oppsettsinstruksjoner for Cursor er oppgitt i depotet.

Cline

Ingen oppsettsinstruksjoner for Cline er oppgitt i depotet.

Hvordan bruke denne MCP-enheten i flyter

Bruke MCP i FlowHunt

For å integrere MCP-servere i FlowHunt-arbeidsflyten din, start med å legge til MCP-komponenten i flyten og koble den til AI-agenten din:

FlowHunt MCP flow

Klikk på MCP-komponenten for å åpne konfigurasjonspanelet. I systemets MCP-konfigurasjonsseksjon, sett inn MCP-serverdetaljene dine ved å bruke dette JSON-formatet:

{
  "mcp-vision": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

Når det er konfigurert, kan AI-agenten nå bruke denne MCP-en som et verktøy med tilgang til alle dens funksjoner og egenskaper. Husk å endre “mcp-vision” til det faktiske navnet på MCP-serveren din og bytt ut URL-en med din egen MCP-server-URL.


Oversikt

SeksjonTilgjengeligDetaljer/Notater
OversiktHuggingFace datamodeller for datamaskinsyn som verktøy for LLM-er via MCP
Liste over prompt-malerIngen promptmaler dokumentert
Liste over ressurserIngen eksplisitte ressurser listet
Liste over verktøylocate_objects, zoom_to_object
Sikring av API-nøklerIngen instruksjoner om API-nøkler
Sampling Support (mindre viktig i evaluering)Ikke nevnt

Roots-støtte: Ikke nevnt


Alt i alt gir mcp-vision nyttig og direkte integrasjon med HuggingFace visjonsmodeller, men mangler dokumentasjon på ressurser, promptmaler og avanserte MCP-funksjoner som roots eller sampling. Oppsettet er godt dokumentert for Claude Desktop, men ikke for andre plattformer.

Vår vurdering

mcp-vision er en fokusert og praktisk MCP-server for å legge til visuell intelligens i AI-arbeidsflyter, spesielt i miljøer som støtter Docker. Dens hovedstyrker er klare verktøy og enkelt oppsett for Claude Desktop, men den vil dra nytte av rikere dokumentasjon, spesielt rundt ressurser, promptmaler og støtte for flere plattformer og avanserte MCP-funksjoner.

MCP-score

Har en LISENS✅ MIT
Har minst ett verktøy
Antall Forks0
Antall Stjerner23

Vanlige spørsmål

Hva er mcp-vision MCP Server?

mcp-vision er en åpen kildekode Model Context Protocol-server som eksponerer HuggingFace datamodeller for datamaskinsyn som verktøy for AI-assistenter og LLM-er, og muliggjør objektgjenkjenning, bildebeskjæring og mer i AI-arbeidsflytene dine.

Hvilke verktøy tilbyr mcp-vision?

mcp-vision tilbyr verktøy som locate_objects (for zero-shot objektgjenkjenning i bilder) og zoom_to_object (for å beskjære bilder til detekterte objekter), tilgjengelig via MCP-grensesnittet.

Hva er hovedbruksområdene for mcp-vision?

Bruk mcp-vision for automatisert objektgjenkjenning, visjonsbasert arbeidsflytautomatisering, interaktiv bildeutforskning og for å utvide AI-agenter med visuell resonnering og analyseevner.

Hvordan setter jeg opp mcp-vision med FlowHunt?

Legg til MCP-komponenten i FlowHunt-flyten din og sett inn mcp-vision-serverdetaljene i konfigurasjonspanelet ved å bruke det oppgitte JSON-formatet. Sørg for at MCP-serveren din kjører og er tilgjengelig fra FlowHunt.

Trenger jeg en API-nøkkel for mcp-vision?

Ingen API-nøkkel eller spesielle legitimasjoner kreves for å kjøre mcp-vision i henhold til gjeldende dokumentasjon. Sørg bare for at Docker-miljøet ditt er konfigurert og at serveren er tilgjengelig.

Integrer mcp-vision med FlowHunt

Gi AI-agentene dine et løft med objektgjenkjenning og bildeanalyse ved bruk av mcp-vision. Plugg den inn i FlowHunt-arbeidsflytene dine for sømløs multimodal resonnering.

Lær mer

OpenCV MCP Server
OpenCV MCP Server

OpenCV MCP Server

OpenCV MCP Server kobler OpenCVs kraftige bilde- og videobehandlingsverktøy med AI-assistenter og utviklerplattformer via Model Context Protocol (MCP). Aktiver ...

4 min lesing
OpenCV MCP Server +4
Model Context Protocol (MCP) Server
Model Context Protocol (MCP) Server

Model Context Protocol (MCP) Server

Model Context Protocol (MCP) Server fungerer som en bro mellom AI-assistenter og eksterne datakilder, API-er og tjenester, og muliggjør sømløs integrasjon av ko...

3 min lesing
AI MCP +4
Visio MCP Server
Visio MCP Server

Visio MCP Server

Visio MCP Server muliggjør programmert opprettelse og redigering av Microsoft Visio-diagrammer via et standardisert API. Integrer Visio-automatisering i dine AI...

4 min lesing
Automation Diagrams +5