Google's reCAPTCHA v2 is one of the tools to distinguish humans from automated programs, protecting websites from automated attacks. However, modern AI technologies, including advanced machine learning models, are starting to effectively break these protections. The article "Breaking reCAPTCHA v2" reveals that using YOLO (You Only Look Once) models , it is possible to solve 100% of reCAPTCHA v2 tasks. In this article, we will not only check how AI outsmarted reCAPTCHA, but also remind ourselves how this mechanism works, so that we can understand everything.
It is worth noting that the study only covers reCAPTCHA version v2, i.e. the one that works after clicking the "I am not a robot" field.
In research on the reCAPTCHA v2 mechanism, it is stated that:
“Our study also finds that reCAPTCHAv2
is heavily based on cookie and browser history data when
evaluating whether a user is human or not.”
Does this mean that the mechanism shamelessly looks into our browser history and knows which websites we have visited?
Fortunately not 😉
The mechanism does not directly search the user's browsing history or cookies. Instead, it uses data collected by Google from the user's previous interactions with other reCAPTCHA-protected sites . This allows it to assess the user's reputation based on their previous online behavior.
If the mechanism at this stage v2 has no suspicions about the user's human nature, it allows the user to proceed calmly without having to solve additional challenges.
reCAPTCHA v2 offers three different types of image challenges, each testing a different aspect of visual reasoning:
The study on the effectiveness of breaking reCAPTCHAv2 focused on the use of advanced machine learning models, in particular YOLO (You Only Look Once). YOLO is a family of algorithms designed to recognize objects in images, known for its exceptional speed and precision. Unlike other methods, YOLO processes the entire image in a single pass , which makes it an ideal tool for tasks that require rapid identification of objects - such as reCAPTCHA tests.
The study used the YOLOv8 model, one of the newest and most advanced variants of this algorithm, which was specifically tailored to the image segmentation and classification tasks of reCAPTCHAv2. This model allowed the researchers not only to accurately recognize objects in images, but also to automatically go through the subsequent stages of the captcha without human intervention.
🎥 https://yolov8.com/
The research process took place in a controlled test environment that simulated real-world web browsing conditions . Python 3.9 and Selenium WebDriver for Firefox were used, which allowed for accurate mapping of user interactions with the captcha, from mouse movements to IP changes thanks to the use of VPN.
The YOLOv8 algorithm was fine-tuned and trained on specially collected and labeled data. It used 14,000 image/label pairs , which enabled the model to recognize key objects such as cars, bikes, and road signs, which are commonly used in captcha tasks. The experiments tested various scenarios, such as image classification on a 3×3 grid, segmentation of images divided into 16 parts, and dynamic tasks where images changed after being clicked.
Each stage of the experiment involved analyzing not only the effectiveness of the YOLO model in solving captchas, but also the impact of factors such as mouse movements, IP variables, and the presence of browsing history and cookies. With this approach, the study aimed not only to demonstrate AI's capabilities in breaking security, but also to identify the weaknesses of the reCAPTCHAv2 system in various, realistic conditions of use.
The use of VPNs proved crucial in bypassing bot detection mechanisms. The variable IPs meant that each attempt at the captcha was treated as a separate session, allowing the bot to continue without raising suspicion. This allowed the bot to complete the entire series of tests without any problems, as the conclusion underlines:
“A VPN limits the ability of risk assessment algorithms to monitor and create a profile of the bot over several runs by allocating a different IP address for each run.”
In the top graph (a) we can see that initially the bot performs relatively well, but after about the 20th attempt the number of challenges increases rapidly , especially for Types 2 and 3, indicating that the system begins to recognize the bot's repetitive behavior as suspicious. As a result, reCAPTCHAv2 imposes more and more tasks to verify the user, which eventually leads to the bot being blocked completely.
In the lower graph (b), where VPN is used, the distribution of the number of challenges is much more even, and the bot can go through many more attempts (up to 100) without a sudden increase in difficulty. The IP variability makes the system treat each attempt of the bot as a separate session, which effectively avoids the increase in the number of challenges. The differences between the graphs clearly indicate that VPN is a key tool in breaking the security of the captcha, allowing bots to pass the tests without arousing suspicion from the system.
Mouse movement simulation significantly affects the effectiveness of bots in bypassing reCAPTCHAv2. Research shows that imitating human movements reduces the number of challenges imposed by the system, making the bot less recognizable. Natural, fluid movements best imitate real user behavior, which increases the chances of passing captcha tests.
The results from the graphs are as follows:
Without mouse movement (Graph a):
The bot encounters a large number of challenges, regardless of the type of captcha. The system quickly recognizes the lack of natural movements, which results in increased difficulty of the tasks.
Simple, linear movements (Graph b):
The introduction of simple, linear movements reduces the challenge, especially for Type 2 and Type 3 captchas, but there are still moments of increased difficulty.
Motions along Bézier curves (Graph c):
Simulating more complex, fluid movements significantly reduces the challenge. Bézier curves best mimic the natural movements of the human hand, making it harder for the system to detect a bot and allowing it to pass tests more efficiently.
Browsing history and cookies also had an impact on the performance of reCAPTCHAv2. The presence of this data allows the system to better recognize real users . The results of the study show that access to user data significantly improves the bot's efficiency, reducing the number of additional tasks to perform.
The graphs show the results as follows:
No browsing history or cookies (Chart a):
When the bot is running without user data, the number of captcha challenges is high and unstable. There is a particularly noticeable increase in difficulty for some types, such as Type 3, where challenges can reach as many as 60 tasks in a single attempt. The lack of cookies and history causes the bot to be treated as new and potentially suspicious, leading to an increase in the number of tests.
Presence of browsing history and cookies (Chart b):
When the bot has access to browser data, the number of challenges drops significantly and tests are more predictable. The reCAPTCHA system treats the bot as less suspicious, which reduces the number of tasks, especially for more demanding captcha types. The stability of the results is higher, which suggests that the presence of user data has a positive effect on recognition and reduces the risk of bot detection.
The researchers also decided to test how their bot would perform in comparison to a real human.
Chart (a) – Number of challenges for people:
For humans, Type 3 challenges were the most common. These challenges usually occurred less than 4 times per session, indicating that the reCAPTCHA system generally considered human behavior to be trustworthy. However, there were exceptions, and humans sometimes encountered Type 2 challenges.
Chart (b) – Number of bot challenges:
The number of challenges that bots were given was similar to that encountered by humans. Interestingly, unlike human users, bots were more likely to receive Type 1 and 2 challenges, while Type 3 challenges were much less common.
The article does not directly address methods for bypassing reCAPTCHA v3. The study focuses primarily on analyzing reCAPTCHAv2, specifically on bots solving visual challenges using YOLO models. reCAPTCHA v3 works differently than v2 – it does not require users to solve the challenges directly, but evaluates suspicious behavior in the background , assigning scores to users. Due to the different way reCAPTCHA v3 works, the methods examined in the article may not be directly applicable to this newer version, which is primarily designed to detect bots without requiring visual challenges.
The study found that modern AI models such as YOLOv8 are able to successfully defeat reCAPTCHAv2, achieving 100% success rate in solving image tests. The key finding is that reCAPTCHA is no longer fully effective in distinguishing bots from real users, undermining its value as a protection tool.
Various factors, such as browsing history, cookies, mouse movements, and VPN usage, significantly impact the number and type of challenges reCAPTCHAv2 poses. Simulating human behaviors, such as natural mouse movements or changing IP addresses, allows bots to avoid detection and reduce the number of challenges they pose, making them nearly indistinguishable from real users.
The results show that current captcha systems, especially those based on reCAPTCHA v2 (and possibly v3), need to evolve to meet new threats from advanced AI algorithms. This study is an important warning to security developers who should seek new, more resilient methods to protect against automated bot attacks.
During the Microsoft AI Tour 2024 conference in Mexico, Microsoft Chairman and CEO Satya Nadella announced a significant investment of $1.3 billion over the next three years to strengthen artificial intelligence (AI) infrastructure and promote AI and digital literacy programs in the country.
The financial sector has always been at the forefront of technological innovation, but the introduction of artificial intelligence (AI) has opened up new, previously unseen opportunities. AI not only automates routine tasks, but also introduces intelligent systems capable of analyzing massive amounts of data, predicting trends, and making investment decisions in real time. In this article, we will look at how AI is influencing investment algorithms and risk management, changing the face of the financial and banking sector.
Contents
Trading automation, also known as algorithmic trading, uses advanced algorithms to execute trades in financial markets. AI takes this practice to the next level by:
AI is capable of predicting market trends by analyzing historical data and identifying patterns that may be invisible to the human eye. Techniques such as deep learning and neural networks are used to:
AI helps identify various types of financial risks, such as credit, market and operational risks, by:
AI plays a key role in fraud prevention by:
With AI, banks can offer more personalized services such as:
Process automation thanks to AI leads to:
Combining AI with blockchain technology can increase transaction security and transparency.
Work on AI that can recognize and respond to customer emotions has the potential to revolutionize customer service.
Rather than replacing employees, AI will increasingly be used as a decision-support tool, allowing for more strategic use of human resources.
Artificial intelligence is significantly affecting the financial and banking sector, offering new opportunities in terms of investment and risk management. Process automation, deeper data analysis and prediction of market trends are just some of the benefits of implementing AI. At the same time, one cannot forget about the challenges related to security, ethics and technology integration. The key to success will be a balanced approach that takes into account both technological innovation and social responsibility.
[et_pb_section bb_built=”1″ inner_width=”auto” inner_max_width=”none”][et_pb_row][et_pb_column type=”4_4″ custom_padding__hover=”|||” custom_padding=”|||”][et_pb_text _builder_version=”4.9.4″ text_text_shadow_horizontal_length=”text_text_shadow_style,%91object Object%93″ text_text_shadow_horizontal_length_tablet=”0px” text_text_shadow_vertical_length=”text_text_shadow_style,%91object Object%93″ text_text_shadow_vertical_length_tablet=”0px” text_text_shadow_blur_strength=”text_text_shadow_style,%91object Object%93″ text_text_shadow_blur_strength_tablet=”1px” link_text_shadow_horizontal_length=”link_text_shadow_style,%91object Object%93″ link_text_shadow_horizontal_length_tablet=”0px” link_text_shadow_vertical_length=”link_text_shadow_style,%91object Object%93″ link_text_shadow_vertical_length_tablet=”0px” link_text_shadow_blur_strength=”link_text_shadow_style,%91object Object%93″ link_text_shadow_blur_strength_tablet=”1px” ul_text_shadow_horizontal_length=”ul_text_shadow_style,%91object Object%93″ ul_text_shadow_horizontal_length_tablet=”0px” ul_text_shadow_vertical_length=”ul_text_shadow_style,%91object Object%93″ ul_text_shadow_vertical_length_tablet=”0px” ul_text_shadow_blur_strength=”ul_text_shadow_style,%91object Object%93″ ul_text_shadow_blur_strength_tablet=”1px” ol_text_shadow_horizontal_length=”ol_text_shadow_style,%91object Object%93″ ol_text_shadow_horizontal_length_tablet=”0px” ol_text_shadow_vertical_length=”ol_text_shadow_style,%91object Object%93″ ol_text_shadow_vertical_length_tablet=”0px” ol_text_shadow_blur_strength=”ol_text_shadow_style,%91object Object%93″ ol_text_shadow_blur_strength_tablet=”1px” quote_text_shadow_horizontal_length=”quote_text_shadow_style,%91object Object%93″ quote_text_shadow_horizontal_length_tablet=”0px” quote_text_shadow_vertical_length=”quote_text_shadow_style,%91object Object%93″ quote_text_shadow_vertical_length_tablet=”0px” quote_text_shadow_blur_strength=”quote_text_shadow_style,%91object Object%93″ quote_text_shadow_blur_strength_tablet=”1px” header_text_shadow_horizontal_length=”header_text_shadow_style,%91object Object%93″ header_text_shadow_horizontal_length_tablet=”0px” header_text_shadow_vertical_length=”header_text_shadow_style,%91object Object%93″ header_text_shadow_vertical_length_tablet=”0px” header_text_shadow_blur_strength=”header_text_shadow_style,%91object Object%93″ header_text_shadow_blur_strength_tablet=”1px” header_2_text_shadow_horizontal_length=”header_2_text_shadow_style,%91object Object%93″ header_2_text_shadow_horizontal_length_tablet=”0px” header_2_text_shadow_vertical_length=”header_2_text_shadow_style,%91object Object%93″ header_2_text_shadow_vertical_length_tablet=”0px” header_2_text_shadow_blur_strength=”header_2_text_shadow_style,%91object Object%93″ header_2_text_shadow_blur_strength_tablet=”1px” header_3_text_shadow_horizontal_length=”header_3_text_shadow_style,%91object Object%93″ header_3_text_shadow_horizontal_length_tablet=”0px” header_3_text_shadow_vertical_length=”header_3_text_shadow_style,%91object Object%93″ header_3_text_shadow_vertical_length_tablet=”0px” header_3_text_shadow_blur_strength=”header_3_text_shadow_style,%91object Object%93″ header_3_text_shadow_blur_strength_tablet=”1px” header_4_text_shadow_horizontal_length=”header_4_text_shadow_style,%91object Object%93″ header_4_text_shadow_horizontal_length_tablet=”0px” header_4_text_shadow_vertical_length=”header_4_text_shadow_style,%91object Object%93″ header_4_text_shadow_vertical_length_tablet=”0px” header_4_text_shadow_blur_strength=”header_4_text_shadow_style,%91object Object%93″ header_4_text_shadow_blur_strength_tablet=”1px” header_5_text_shadow_horizontal_length=”header_5_text_shadow_style,%91object Object%93″ header_5_text_shadow_horizontal_length_tablet=”0px” header_5_text_shadow_vertical_length=”header_5_text_shadow_style,%91object Object%93″ header_5_text_shadow_vertical_length_tablet=”0px” header_5_text_shadow_blur_strength=”header_5_text_shadow_style,%91object Object%93″ header_5_text_shadow_blur_strength_tablet=”1px” header_6_text_shadow_horizontal_length=”header_6_text_shadow_style,%91object Object%93″ header_6_text_shadow_horizontal_length_tablet=”0px” header_6_text_shadow_vertical_length=”header_6_text_shadow_style,%91object Object%93″ header_6_text_shadow_vertical_length_tablet=”0px” header_6_text_shadow_blur_strength=”header_6_text_shadow_style,%91object Object%93″ header_6_text_shadow_blur_strength_tablet=”1px” box_shadow_horizontal_tablet=”0px” box_shadow_vertical_tablet=”0px” box_shadow_blur_tablet=”40px” box_shadow_spread_tablet=”0px” vertical_offset_tablet=”0″ horizontal_offset_tablet=”0″ z_index_tablet=”0″]
Współczesne tempo i intensywność zmian sprawiają, że zdolność analizy możliwych przyszłości staje się umiejętnością niezwykle pożądaną. Szybki postęp technologiczny, zmiany w sposobie myślenia oraz ewolucja wartości, to tylko niektóre z czynników, które utrudniają patrzenie w przyszłość i planowanie działań. W konsekwencji wiele osób nie wie na jaki świat należy się przygotować, a co za tym idzie – na czym powinni skupić swoją uwagę już dzisiaj.
Wizje przyszłości dają nam więc nie tylko wgląd w wyzwania jakim będziemy musieli sprostać za jakiś czas, ale przede wszystkim dają wgląd w nasze założenia, wskazują aktualne potrzeby i możliwe kierunki działania. To podejście strategiczne, które umożliwia organizacjom identyfikację nieoczekiwanych szans i zagrożeń oraz wspiera wczesne wykrywanie nadchodzących zmian. Dzięki foresightowi możliwe jest świadome podejmowanie decyzji i wykorzystywanie pojawiających się możliwości.
Lista metod foresightowych jest stosunkowo obszerna. Częstym celem ich stosowania jest opracowanie zestawu scenariuszy rozwoju badanej dziedziny w długoterminowej perspektywie. Scenariusze te nie służą przewidywaniu przyszłości, wręcz przeciwnie, opierają się na założeniu, że przyszłych zdarzeń nie da się przewidzieć. Dlatego tworzy się kilka alternatywnych wizji rozwoju, które obrazują różne możliwe kierunki rozwoju sytuacji. W trakcie tego procesu mogą ujawnić się niedostrzegalne wcześniej, bądź zupełnie nowe szanse i zagrożenia. Rekomendacje, które powstają, z definicji są mniej podatne na zaburzenia na ścieżce rozwoju. W efekcie, organizacje stają się bardziej odporne na niepewność i elastyczne w obliczu zmieniających się warunków.
Pomimo stosunkowo ustrukturyzowanego podejścia, proces opracowywania scenariuszy, podobnie zresztą jak większość naszych działań, nie jest wolny od błędów poznawczych. Skróty myślowe i tendencje, które kształtują nasze postrzeganie świata mogą w znacznym stopniu wpłynąć na analizę scenariuszową i stanowić przeszkodę w jej realizacji.
Codziennie stajemy przed wyborami, wyciągamy wnioski i formułujemy opinie. Jednak ilość informacji, która dociera do nas w każdej chwili, jest tak duża, że nasz umysł nie jest w stanie przetwarzać ich wszystkich z jednakową dokładnością. W związku z tym, nieustannie musimy wybierać te, które są dla nas najważniejsze – te, które są godne zapamiętania, mają znaczenie emocjonalne lub są istotne dla kontroli naszych zachowań. Aby ułatwić sobie proces selekcji, mózg stosuje uproszczone metody myślenia, czyli heurystyki. Błędy poznawcze wynikają właśnie z takich uproszczeń w przetwarzania informacji. Opierają się one na schematach zakorzenionych w naszych doświadczeniach, nabytej wiedzy oraz wzorcach, które dostrzegamy w otaczającym świecie. Jednak poleganie na tych wzorcach i przeszłych doświadczeniach może być ograniczające, szczególnie w badaniu skomplikowanej i nieprzewidywalnej przyszłości. Aby skutecznie analizować przyszłość, niezbędne jest odejście od utartych schematów myślenia i wyobrażeń, opartych wyłącznie na przeszłości.
Spośród wielu błędów poznawczych, które mogą ograniczać zakres i kreatywność opracowywanych scenariuszy, szczególnie warto zwrócić uwagę na Iluzję końca historii (eng. End-of-history illusion). Ten błąd poznawczy odnosi się do przekonania, że jednostka osiągnęła już znaczny rozwój osobisty, więc w przyszłości nie nastąpią już większe zmiany w jej charakterze, wartościach czy upodobaniach. Skutkiem takiego myślenia jest niedocenianie przez ludzi jak bardzo ich własna przyszłość, jak i świat wokół nich, mogą zmienić się w przyszłości.
W kontekście projektowania scenariuszy iluzja końca historii może prowadzić do nadmiernego skupienia się na obecnych warunkach i trendach. Eksperci, kierując się tym błędem, mogą zakładać, że obecny stan świata — polityczny, ekonomiczny, społeczny — pozostanie stosunkowo niezmieniony. Taka perspektywa sprzyja konserwatywnemu spojrzeniu na przyszłość, które nie uwzględnia potencjalnych zakłóceń ani radykalnych zmian. W efekcie mogą zostać zignorowane pojawiające się technologie, nowe ruchy społeczne czy inne globalne wydarzenia, które mogą radykalnie wpłynąć na przyszłość.
Aby uniknąć iluzji końca historii w foresighcie, niezbędne jest świadome rozpoznawanie i kwestionowanie teraźniejszości. Wymaga to aktywnego poszukiwania słabych sygnałów i pojawiających się trendów, które mogą sugerować możliwość istotnych zmian. Przyjmując, że przyszłość prawdopodobnie będzie różniłą się od teraźniejszości, tak samo, jak teraźniejszość różni się od przeszłości, możliwe jest tworzenie bardziej kompleksowych i dynamicznych scenariuszy. W rezultacie organizacje będą lepiej przygotowane na szeroki zakres możliwych przyszłości.
Znaczącym błędem poznawczym w kontekście analizy potencjalnych przyszłości jest heurystyka dostępności (eng. Availability heuristic). Jest to skrót myślowy, który polega na ocenianiu prawdopodobieństwa i częstości zdarzeń na podstawie łatwości, z jaką odpowiednie przypadki mogą być przywołane z pamięci. W konsekwencji, ludzie często przeceniają prawdopodobieństwo zdarzeń, których przykłady występowania wciąż dobrze pamiętają. Można bez wahania stwierdzić, że decyzje, które podejmujemy są często zależne od tego skrótu myślowego. Przy dokonywaniu wyborów kierujemy się informacjami, które pozyskaliśmy niedawno lub osobistymi doświadczeniami, ignorując alternatywne czynniki, których nie możemy sobie tak łatwo przypomnieć. Podobnie eksperci mogą nadmiernie podkreślać wpływ niedawnych lub szeroko nagłośnionych wydarzeń podczas opracowywania przyszłych scenariuszy, co prowadzi do pominięcia mniej oczywistych, ale potencjalnie bardziej istotnych czynników, które również mogą wpłynąć na badany obszar.
Aby ograniczyć wpływ heurystyki dostępności, kluczowe jest uświadomienie sobie jej istnienia. Choć nie zmieni to sposobu, w jaki nasz mózg analizuje informacje, może pomóc w rozpoznaniu momentów, kiedy ulegamy temu błędowi i zachęcić nas do poszukiwania bardziej obiektywnych informacji. To właśnie dlatego podczas tworzenia scenariuszy korzysta się z wiedzy szerokiego grona ekspertów. Wprowadzają oni różnorodne perspektywy, które mogą być nieoczywiste dla badaczy foresightu, ale są niezbędne dla wszechstronnego spojrzenia na możliwe przyszłości.
Wszyscy mamy skłonność do dostrzegania informacji, które potwierdzają nasze dotychczasowe przekonania, jednocześnie ignorując te, które mogłoby je kwestionować. Zjawisko to znane jako efekt potwierdzenia (ang. Confirmation bias) polega na tym, że podświadomie wyszukujemy, interpretujemy i zapamiętujemy informacje w sposób zgodny z naszymi wcześniejszymi opiniami lub hipotezami. W efekcie mniej uwagi poświęcamy alternatywnym punktom widzenia. Nasze przekonanie o własnej racji może być na tyle silne, że nawet w obliczu danych, które przeczą naszym poglądom jesteśmy skłonni je zignorować lub zinterpretować tak, by wzmocnić naszą perspektywę. Dzieje się tak dlatego, że analiza nowych informacji wymaga czasu i energii, dlatego nasz mózg stara się przyspieszyć ten proces, często kosztem obiektywności.
Osoby angażujące się w proces opracowywania scenariuszy oraz organizacje, dla których prowadzana jest analiza, powinny uwzględniać szeroki wachlarz możliwych przyszłości. Należy brać pod uwagę zarówno pozytywne, jak i negatywne scenariusze, aby nie wpaść w pułapkę efektu potwierdzenia. W przeciwnym razie może dojść do faworyzowania tych scenariuszy, które są zgodne z obecnymi oczekiwaniami ekspertów co do przyszłości i odrzucenia lub niedocenienia informacji sugerujących alternatywne zmiany. W rezultacie organizacje mogą nie dostrzec pojawiających się zagrożeń lub szans, a w konsekwencji nie będą przygotowane do podjęcia lepszych decyzji strategicznych.
W ostatnich latach modele językowe znalazły szerokie zastosowanie w wielu różnych dziedzinach, w tym w foresightcie. Sztuczna inteligencja oferuje potężne narzędzia do przetwarzania ogromnych ilości danych i identyfikowania wzorców, które mogą unikać ludzkiej uwadze. W efekcie niektórzy postrzegają algorytmy jako niezawodne narzędzia umożliwiające podejmowanie trafnych decyzji. Aby jednak AI mogła spełniać tę rolę, musiałaby być całkowicie bezstronna i wolna od wszelkich uprzedzeń. Choć odpowiedzi generowane przez AI miały w założeniu być obiektywne, praktyka pokazała, że – podobnie jak ludzie – sztuczna inteligencja również nie jest odporna na stronniczość.
Źródłem tego problemu są przede wszystkim dane używane do trenowania modeli AI. Systemy uczą się z ogromnych zbiorów danych, które zawierają informacje opracowane przez człowieka, a te nierzadko są naznaczone różnymi uprzedzeniami.
W praktyce problem stronniczości w AI dotyczy wielu etapów – od zbierania danych, przez ich selekcję, po sam proces uczenia maszynowego. Przykładowo, w modelach językowych takich jak GPT, stronniczość może pojawić się na poziomie treści źródeł, które model analizuje. Jeżeli treści te odzwierciedlają stereotypy lub ograniczone perspektywy, model będzie je utrwalać w swoich odpowiedziach. Co więcej, niektóre badania wykazały, że AI może nieświadomie dyskryminować na podstawie płci, rasy czy innych cech demograficznych, nawet jeśli nie zostały one bezpośrednio uwzględnione w danych wejściowych.
Jeśli dane treningowe zawierają błędy lub odzwierciedlają stereotypy czy uprzedzenia w stosunku do pewnych grup społecznych model nieuchronnie się ich nauczy i będzie je powielać w swoich wynikach. Może to prowadzić do niezamierzonych, a wręcz szkodliwych, konsekwencji, zwłaszcza w kluczowych obszarach, takich jak systemy rekrutacyjne, wymiar sprawiedliwości czy opieka zdrowotna.
Podobne ryzyko występuje także w foresighcie. Całkowite poleganie na AI bez świadomości jej uprzedzeń może prowadzić do fałszywego przekonania o obiektywności jej wyników. Odzwierciedla to wspomniany wcześniej efekt potwierdzenia. Kiedy korzystamy ze sztucznej inteligencji, mamy kontrolę nad tym, jak formułujemy pytania lub polecenia dla systemu. W rezultacie użytkownik może nieświadomie kierować odpowiedzią AI w taki sposób, aby potwierdzała jego wcześniejsze przekonania, co prowadzi do tworzenia scenariuszy, opartych na jego własnych, ograniczonych perspektywach. Dlatego, aby zminimalizować ryzyko stronniczości, wciąż konieczna jest dokładna weryfikacja wyników pracy z AI oraz uzupełnianie ich o ludzką ocenę. Pozwoli to zminimalizować ryzyko wystąpienia tego błędu Taka kombinacja pozwala na głębsze zrozumienie wyników, uwzględnienie różnych punktów widzenia oraz na bardziej zrównoważone i trafne decyzje. Jednak w foresighcie, gdzie kluczowe jest badanie różnorodnych i często nieoczywistych scenariuszy przyszłości, integracja AI z ludzkim doświadczeniem i intuicją może znacznie zwiększyć wartość prognoz i analiz.
Choć obawy związane ze stronniczością AI są uzasadnione, warto podkreślić, że sztuczna inteligencja niesie ze sobą ogromny potencjał w dziedzinie foresightu. Algorytmy AI potrafią błyskawicznie przetwarzać ogromne ilości danych, identyfikując trendy i korelacje, które umknęłyby uwadze nawet najbardziej doświadczonych analityków. To pozwala na tworzenie bardziej kompleksowych i wiarygodnych scenariuszy przyszłości, uwzględniających subtelne sygnały zmian. Co więcej, AI może pomóc w przezwyciężeniu ludzkich ograniczeń, takich jak efekt potwierdzenia, poprzez generowanie różnorodnych perspektyw i prowokowanie do myślenia poza utartymi schematami. Kluczem do skutecznego wykorzystania AI jest świadomość jej potencjalnych uprzedzeń oraz umiejętne połączenie jej możliwości z ludzką intuicją i krytycznym myśleniem.
W kontekście tworzenia scenariuszy, błędy poznawcze i heurystyki nie muszą być postrzegane jedynie jako ograniczenia, ale mogą stanowić kluczowy element, który skłania nas do głębszej refleksji nad naszym podejściem do foresightu. Te naturalne zniekształcenia percepcji przypominają nam, że żadna analiza, niezależnie od tego, jak zaawansowana technologicznie czy wszechstronna, nie jest w stanie w pełni uchwycić złożoności przyszłych wydarzeń. Zamiast próbować całkowicie wyeliminować błędy poznawcze, powinniśmy je postrzegać jako wskazówkę do rozwijania nowych metod, które uwzględniają te ograniczenia i wykorzystują je w sposób, który wzbogaca naszą analizę przyszłości.
Być może najważniejszym wyzwaniem, przed którym stajemy, jest przyjęcie bardziej pokornej postawy wobec przyszłości. Świadomość, że nasz umysł jest skłonny do uproszczeń, powinna prowadzić nas do poszukiwania bardziej zróżnicowanych i interdyscyplinarnych podejść do foresightu. Integracja sztucznej inteligencji z ludzką intuicją i doświadczeniem, zamiast być prostym połączeniem technologii i tradycyjnej analizy, może stać się katalizatorem dla zupełnie nowej jakości prognozowania, w której wielość perspektyw pozwala na zbudowanie bardziej odpornych scenariuszy.
Co więcej, uznanie nieprzewidywalności jako nieodłącznego elementu przyszłości może zainspirować organizacje do przyjęcia strategii otwartości i elastyczności, które są kluczowe w świecie szybkich i niespodziewanych zmian. Zamiast postrzegać przyszłość jako coś, co należy kontrolować lub przewidzieć, możemy ją traktować jako dynamiczny proces, w którym kluczowe znaczenie mają nasze reakcje na to, co nieoczekiwane. To z kolei oznacza, że foresight przestaje być jedynie narzędziem planowania, a staje się platformą do ciągłego uczenia się, adaptacji i innowacji.
W ostatecznym rozrachunku, błędy poznawcze mogą pełnić rolę przypomnienia o naszych ludzkich ograniczeniach, ale też o potencjale, jaki tkwi w twórczym myśleniu i odwadze do eksplorowania nieznanych obszarów. Przyszłość, z całym swoim bogactwem możliwości i niespodzianek, wymaga od nas nie tylko precyzyjnych narzędzi analitycznych, lecz także otwartego umysłu, gotowego na to, co nieprzewidziane. To właśnie ta gotowość na nieoczekiwane jest kluczem do skutecznego foresightu — takiego, który nie tylko reaguje na zmiany, ale aktywnie je kształtuje.
Autor: Aleksandra Szymańska
[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]
Google has announced significant updates to its Gemini AI models that introduce improved performance, lower costs, and broader developer access. Google is showing that it is committed to lowering the barrier to entry by offering cheaper, faster, and more efficient models.
Contents
Google has just unveiled two new, production-ready models: Gemini-1.5-Pro-002 and Gemini-1.5-Flash-002 . Both offer significant quality improvements across a variety of tasks, including an impressive 20% increase in math benchmark scores . These models not only handle math better, but also offer twice the speed of results and three times lower latency than previous versions.
Perhaps most importantly for developers building AI apps, Google has significantly reduced the cost of using Gemini 1.5 Pro—by more than 50% for queries and responses under 128K tokens. What’s more, throughput limits have been raised, meaning that you can now do a lot more in less time, opening the door to building more complex apps in less time.
Google is making these changes to make it easier for developers to build intelligent applications. With better understanding of long contexts and improved visual capabilities, the new models are ready to be deployed in even more advanced scenarios. In addition, changes to default filter settings give more control over the configuration of models, which is key to tailoring AI for specific use cases.
“This is a significant step forward in building faster, smarter, and cheaper AI solutions,” said one Google engineer. “We made these changes so developers can build innovative products without worrying about cost or performance.”
While it’s not Gemini 2 yet, the latest version is a big upgrade over the experimental models that were tested before. It allows developers to build apps faster, cheaper, and with greater precision . This opens up new possibilities, especially for startups and smaller companies that may have previously faced financial barriers to developing AI-based solutions.
The new Gemini models can process longer contexts, which is crucial for solutions in the field of analysis of legal documents or financial reports - areas that have huge potential in Poland. Thanks to this, for example, applications supporting lawyers in the analysis of contracts can work faster and with greater precision.
Artificial intelligence (AI) has dominated many areas of technology in recent years, and now it’s time for a revolution in robotics. Jim Fan, a senior scientist at Nvidia, predicts that we’ll see a breakthrough in this field in the next few years. In an interview with Sequoia Capital, he spoke of the hope for a “GPT-3 moment for robotics”—a breakthrough in robotic models similar to what GPT-3 achieved in natural language processing.
Fan, who leads AI research for robots at Nvidia, expects to see significant progress in creating baseline models for robots in the next two to three years. His team is working on the Groot project, which aims to create advanced baseline models for humanoid robots. Despite the optimistic outlook, Fan emphasizes that it will take even longer for robots to be widely implemented in everyday life. It’s not just about the technical aspects—the robots must be affordable, mass-producible, and hardware-secure and privacy-compliant.
Fan sees huge potential in humanoid robots, arguing that the world is designed with the human body in mind. “All of our restaurants, factories, hospitals, and tools and equipment—they’re all made for the human form and human hands,” he emphasizes. In his opinion, humanoid robots could eventually perform all the tasks that are currently reserved for humans. He predicts that within two to three years, the hardware ecosystem for humanoids will be ready on a large scale.
Nvidia’s approach to robotic AI development is all about combining three types of data: data from the internet, simulations, and data from real robots. Fan notes that each method has its advantages and disadvantages, but that combining them is key to success.
Fan compares the current state of robotics to the state of natural language processing before GPT-3. He envisions a similar evolution—from specialized models to more general approaches that can then be tailored to specific tasks. One of the biggest challenges he sees is the data collection process. Fan believes that the full potential of Transformer-type models in robotics has not yet been realized, and that once the data pipeline is fully developed, the models will be able to scale even further.
Nvidia is working on innovative techniques like “Eureka,” which automates the process of creating reward functions for robots that previously required manual development. Additionally, Fan’s research extends to virtual environments, such as video games, where AI for virtual agents is being developed. The ultimate goal is to create a single model that can control both virtual and physical agents.
During an interview, Fan quoted Nvidia CEO Jensen Huang as saying, “Everything that moves will eventually become autonomous.” According to Fan, if there are to be as many intelligent robots as smartphones in the future, they need to start building them now.
Despite his optimistic outlook, Fan acknowledges that many challenges remain. One is integrating fast, automated responses with slower, informed planning and decision-making processes into a single model. Nevertheless, his team at Nvidia is working hard to make AI a breakthrough in robotics on a par with what GPT-3 brought to natural language processing.
Artificial intelligence is constantly evolving, and humanoid robots may soon become an everyday reality. What challenges lie ahead? One thing is certain – the future of technology looks promising.
Artificial intelligence (AI) has dominated many areas of technology in recent years, and now it’s time for a revolution in robotics. Jim Fan, a senior scientist at Nvidia, predicts that we’ll see a breakthrough in this field in the next few years. In an interview with Sequoia Capital, he spoke of the hope for a “GPT-3 moment for robotics”—a breakthrough in robotic models similar to what GPT-3 achieved in natural language processing.
Fan, who leads AI research for robots at Nvidia, expects to see significant progress in creating baseline models for robots in the next two to three years. His team is working on the Groot project, which aims to create advanced baseline models for humanoid robots. Despite the optimistic outlook, Fan emphasizes that it will take even longer for robots to be widely implemented in everyday life. It’s not just about the technical aspects—the robots must be affordable, mass-producible, and hardware-secure and privacy-compliant.
Fan sees huge potential in humanoid robots, arguing that the world is designed with the human body in mind. “All of our restaurants, factories, hospitals, and tools and equipment—they’re all made for the human form and human hands,” he emphasizes. In his opinion, humanoid robots could eventually perform all the tasks that are currently reserved for humans. He predicts that within two to three years, the hardware ecosystem for humanoids will be ready on a large scale.
Nvidia’s approach to robotic AI development is all about combining three types of data: data from the internet, simulations, and data from real robots. Fan notes that each method has its advantages and disadvantages, but that combining them is key to success.
Fan compares the current state of robotics to the state of natural language processing before GPT-3. He envisions a similar evolution—from specialized models to more general approaches that can then be tailored to specific tasks. One of the biggest challenges he sees is the data collection process. Fan believes that the full potential of Transformer-type models in robotics has not yet been realized, and that once the data pipeline is fully developed, the models will be able to scale even further.
Nvidia is working on innovative techniques like “Eureka,” which automates the process of creating reward functions for robots that previously required manual development. Additionally, Fan’s research extends to virtual environments, such as video games, where AI for virtual agents is being developed. The ultimate goal is to create a single model that can control both virtual and physical agents.
During an interview, Fan quoted Nvidia CEO Jensen Huang as saying, “Everything that moves will eventually become autonomous.” According to Fan, if there are to be as many intelligent robots as smartphones in the future, they need to start building them now.
Despite his optimistic outlook, Fan acknowledges that many challenges remain. One is integrating fast, automated responses with slower, informed planning and decision-making processes into a single model. Nevertheless, his team at Nvidia is working hard to make AI a breakthrough in robotics on a par with what GPT-3 brought to natural language processing.
Artificial intelligence is constantly evolving, and humanoid robots may soon become an everyday reality. What challenges lie ahead? One thing is certain – the future of technology looks promising.
In a world where machines are increasingly entering the domain of human creativity, we are on the threshold of a revolution in software development. As in Isaac Asimov's visionary novel I, Robot, where machines gradually take over increasingly complex tasks, so in our reality, tools such as Coursor AI, Devin, GitHub Copilot, and Replit Agent are beginning to transform the programming landscape.
After announcing its AI assistant Moshi in July, Kyutai has, as promised, released open-source models. The release includes several items: a technical report, weights for Moshi and its Mimi codec, and streaming inference code in PyTorch, Rust, and MLX.
According to the report, Moshi consists of three main components: Helium, a 7B language model; Mimi, a neural audio codec; and a new multi-stream architecture. The system can model real-time conversations with overlaps and gaps. Kyutai Labs provides two Moshi models with artificially generated voices. More details can be found in the published paper and the GitHub repository
OpenAI previously demonstrated this feature for GPT-4o but has not yet released it.
During the presentation, Kyutai CEO Patrick Perez explained that Moshi was developed by an eight-person team in just six months. What sets Moshi apart is its ability to speak and listen in real time. Kyutai claims that Moshi's theoretical latency is just 160 milliseconds, while in practice it ranges from 200 to 240 milliseconds.
Moshi's architecture is based on a new approach that Kyutai calls the "audio language model." Instead of converting speech to text in the usual way, this model heavily compresses audio data and treats it as pseudowords. This allows it to work directly with audio data and predict speech, making it a native multimodal model, similar to GPT-4o.
First, a pure text model called Helium was trained. Then, combined training was performed with text and audio data. Synthetic dialogues were used to fine-tune the conversation.
Since the underlying language model has only 7 billion parameters, it exhibits the typical limitations of small models in dialogue. Nevertheless, the language capabilities and speed are impressive and indicate the potential when more powerful and larger modules are used in this technology.
To give Moshi a consistent voice, Kyutai worked with a voice actress named Alice. She recorded monologues and dialogue in a variety of styles, which were then used to train the speech synthesis system.
Kyutai sees huge potential in Moshi to change the way we communicate with machines. The company sees promising applications, especially in the area of accessibility for people with disabilities.
After announcing its AI assistant Moshi in July, Kyutai has, as promised, released open-source models. The release includes several items: a technical report, weights for Moshi and its Mimi codec, and streaming inference code in PyTorch, Rust, and MLX.
According to the report, Moshi consists of three main components: Helium, a 7B language model; Mimi, a neural audio codec; and a new multi-stream architecture. The system can model real-time conversations with overlaps and gaps. Kyutai Labs provides two Moshi models with artificially generated voices. More details can be found in the published paper and the GitHub repository
OpenAI previously demonstrated this feature for GPT-4o but has not yet released it.
During the presentation, Kyutai CEO Patrick Perez explained that Moshi was developed by an eight-person team in just six months. What sets Moshi apart is its ability to speak and listen in real time. Kyutai claims that Moshi's theoretical latency is just 160 milliseconds, while in practice it ranges from 200 to 240 milliseconds.
Moshi's architecture is based on a new approach that Kyutai calls the "audio language model." Instead of converting speech to text in the usual way, this model heavily compresses audio data and treats it as pseudowords. This allows it to work directly with audio data and predict speech, making it a native multimodal model, similar to GPT-4o.
First, a pure text model called Helium was trained. Then, combined training was performed with text and audio data. Synthetic dialogues were used to fine-tune the conversation.
Since the underlying language model has only 7 billion parameters, it exhibits the typical limitations of small models in dialogue. Nevertheless, the language capabilities and speed are impressive and indicate the potential when more powerful and larger modules are used in this technology.
To give Moshi a consistent voice, Kyutai worked with a voice actress named Alice. She recorded monologues and dialogue in a variety of styles, which were then used to train the speech synthesis system.
Kyutai sees huge potential in Moshi to change the way we communicate with machines. The company sees promising applications, especially in the area of accessibility for people with disabilities.