Odkrywanie wykorzystania komputerów i przeglądarek przez LLM-y

FlowHunt bada ewolucję AI od modeli tekstowych do systemów obsługujących GUI i przeglądarki, wykonujących takie zadania jak wyszukiwanie w sieci i obsługa ciasteczek, przedstawiając wizję przyszłości AI w interakcji człowiek-komputer.

Odkrywanie wykorzystania komputerów i przeglądarek przez LLM-y

Od dużych modeli językowych do AI obsługującej graficzne interfejsy użytkownika

Rozmowa rozpoczęła się od podkreślenia niesamowitego postępu: od przetwarzania tekstu do systemów AI zdolnych korzystać z komputerów jak ludzie. Minęły czasy, gdy AI zajmowała się wyłącznie językiem; dziś, dzięki rozwojowi dużych modeli językowych i automatyzacji AI, systemy uczą się klikać, pisać i przewijać — naśladując prawdziwe użycie komputera przez człowieka.

Eksperymenty FlowHunt pokazują, jak bardzo AI staje się zaawansowana. Zamiast tylko pisać kod, systemy takie jak Claude od Anthropic są obecnie szkolone do interakcji z graficznymi interfejsami użytkownika (GUI). Niezależnie od tego, czy chodzi o obliczenie prostego działania na wirtualnym kalkulatorze, czy o obsługę wyskakujących okienek z ciasteczkami podczas surfowania w sieci, te modele AI podejmują codzienne zadania i pokonują realne przeszkody.

Pokonywanie przeszkód w interakcji z komputerem

W podcaście zespół FlowHunt wyjaśnił, jak testują AI za pomocą interaktywnych zadań na komputerze. Na przykład podczas testowania umiejętności Claude’a w obsłudze komputera, AI otrzymała typowe zadania, takie jak korzystanie z kalkulatora czy wyszukiwanie w sieci — wyzwania, które zwykle ujawniają jej ograniczenia. Mimo wyniku około 70 punktów wobec średniej ludzkiej 75, próba ujawniła kluczowe krzywe uczenia się, wynikające z ograniczonego dostępu do API i innych restrykcji obliczeniowych.

Eksperymenty te podkreślają znaczenie niezawodnego dostępu do odpowiednich narzędzi. Gdy AI napotkała nieoczekiwane trudności, jak utknięcie na wyskakującym okienku z ciasteczkami, stało się jasne, że aby działać wydajnie, AI musi dostosowywać się do dynamicznych środowisk, gdzie układy ekranów i interfejsy użytkownika szybko się zmieniają. Podkreślenie słów kluczowych takich jak „interfejs komputerowy AI” czy „automatyzacja GUI” akcentuje zaawansowanie tych nowych możliwości AI.

AI interacting with GUI

Ocena korzystania z przeglądarek przez dwa modele

Znaczną część dyskusji poświęcono analizie, jak różne modele AI radzą sobie z realnymi zadaniami. Zespół FlowHunt porównywał Claude’a od Anthropic i modele OpenAI w scenariuszach takich jak wyszukiwanie tanich lotów online — zadanie symulujące pracę agenta turystycznego.

AI searching online for flights

Model OpenAI wykazał dużą sprawność w nawigacji po wynikach wyszukiwania Google i obsłudze interaktywnych elementów, takich jak dialogi zgody na ciasteczka, dowodząc swojej kompetencji w automatyzacji przeglądarki. Jednak napotkał też trudności w omijaniu zabezpieczeń antybotowych, co uwidacznia ewoluujący „wyścig zbrojeń” między systemami AI a zabezpieczeniami stron.

Tymczasem model Anthropic przyjął bardziej ostrożne i przemyślane podejście, rozważając priorytety przed podjęciem działania. Takie zachowanie sugerowało bardziej ludzkie rozumowanie, choć ostatecznie również napotkało przeszkody, zwłaszcza podczas finalizacji rezerwacji. Słowa kluczowe takie jak „modele rozumowania AI” czy „automatyzacja przeglądarki” dobrze oddają wyzwania i innowacje kształtujące tę dziedzinę.

Kształtując przyszłość z AI

Podcast FlowHunt zostawia nas z ważnym pytaniem: w świecie, gdzie AI jest coraz bardziej zdolna do wykonywania złożonych zadań komputerowych i rozumowania na ludzkim poziomie, jaka będzie nasza rola? Potencjał AI do rewolucjonizowania naszej pracy i interakcji z technologią jest ogromny, lecz wymaga on też przemyślanych regulacji, zasad etycznych i współpracy.

Teraz bardziej niż kiedykolwiek ważne jest, by być ciekawym i zaangażowanym w te technologiczne przełomy — od dużych modeli językowych po interfejsy komputerowe AI. Niezależnie od tego, czy jesteś programistą, naukowcem czy entuzjastą, ewolucja AI omawiana w tym podcaście zachęca nas wszystkich do współtworzenia przyszłości, w której technologia wzmacnia każdego.

Najczęściej zadawane pytania

Jak duże modele językowe są wykorzystywane poza przetwarzaniem tekstu?

Nowoczesne LLM-y są obecnie szkolone do interakcji z graficznymi interfejsami użytkownika (GUI) komputera, wykonując działania takie jak klikanie, pisanie czy nawigacja w sieci — wychodząc poza samo generowanie tekstu.

Jakie wyzwania napotykają systemy AI podczas korzystania z przeglądarek i GUI?

Systemy AI napotykają przeszkody takie jak zmieniające się układy ekranu, wyskakujące okienka z ciasteczkami, ograniczony dostęp do API oraz zabezpieczenia antybotowe, co wymaga od nich elastyczności i zaawansowanego rozumowania, by działać efektywnie.

Jak różne modele AI wypadają w zadaniach automatyzacji przeglądarki?

Eksperymenty FlowHunt wykazały, że modele OpenAI świetnie radzą sobie z nawigacją po wynikach wyszukiwania i obsługą interaktywnych dialogów, natomiast Anthropic Claude stosuje ostrożniejsze, bardziej ludzkie rozumowanie, lecz również może napotkać trudności.

Jaka będzie rola człowieka, gdy AI stanie się bardziej zaawansowana?

W miarę jak AI przejmuje coraz bardziej złożone zadania komputerowe, ludzie muszą współpracować, ustalać zasady etyczne i dbać, by technologia służyła wszystkim w zmieniającym się świecie.

Yasha jest utalentowanym programistą specjalizującym się w Pythonie, Javie i uczeniu maszynowym. Yasha pisze artykuły techniczne o AI, inżynierii promptów i tworzeniu chatbotów.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Gotowy, aby stworzyć własną AI?

Inteligentne chatboty i narzędzia AI w jednym miejscu. Połącz intuicyjne bloki, by zamienić pomysły w zautomatyzowane Flows.

Dowiedz się więcej