Segurança Legal

#385 – DeepSeek e o momento Sputnik


Listen Later

Neste episódio comentamos sobre o DeepSeek R1, o modelo de IA chinês que você irá descobrir por que é considerado um “momento Sputnik” na corrida tecnológica e como isso abalou o mercado de inteligência artificial.​

Guilherme Goulart e Vinícius Serafim analisam a fundo o revolucionário modelo de inteligência artificial chinês, o DeepSeek R1. Eles discutem como sua arquitetura inovadora, com mistura de especialistas e cadeia de raciocínio, permitiu um treinamento com custo computacional drasticamente menor, desafiando gigantes como a OpenAI e impactando o mercado, como visto na queda das ações da Nvidia. O debate explora as implicações da eficiência do modelo R1, as controvérsias sobre seu treinamento, seu status como código aberto e o que esse momento Sputnik significa para a geopolítica da tecnologia e o futuro da corrida da IA. Assine, siga e avalie nosso podcast para não perder nenhuma análise sobre tecnologia e segurança.

 Visite nossa campanha de financiamento coletivo e nos apoie!

 Conheça o Blog da BrownPipe Consultoria e se inscreva no nosso mailing


ShowNotes

  • Paper – DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • ‘Sputnik moment’: $1tn wiped off US stocks after Chinese firm unveils AI chatbot
  • EUA devem propor banimento do DeepSeek em aparelhos do governo
  • China’s DeepSeek just showed every American tech company how quickly it’s catching up in AI
  • DeepSeek making a splash with EU data protection bodies
  • IA: il Garante privacy chiede informazioni a DeepSeek. Possibile rischio per i dati di milioni di persone in Italia
  • Intelligenza artificiale: il Garante privacy blocca DeepSeek
  • ‘Comoditização’ da IA pode impulsionar o Brasil
  • How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead
  • How Disruptive Is DeepSeek? Stanford HAI Faculty Discuss China’s New Model
  • DeepSeek: startup que sacudiu o Vale do Silício e abriu novos caminhos para os países em desenvolvimento
  • Taiwan Bans DeepSeek AI Over National Security Concerns, Citing Data Leakage Risks
  • OpenAI, Microsoft looking into DeepSeek over alleged copying of AI model: Reports
  • Foto do Episódio – Cientistas do Smithsonian Institution, Dr. Josef A. Hynek (C) e Fred L. Whipple (L), traçando a órbita do Sputnik I. Dmitri Kessel na Revista Life.

    📝 Transcrição do Episódio

    (00:06) Sejam todos muito bem-vindos e bem-vindas. Estamos de volta com o Segurança Legal, seu podcast de segurança da informação e direito da tecnologia. Eu sou o Guilherme Goulart e aqui comigo está o meu amigo Vinícius Serafim. E aí, Vinícius, tudo bem? E aí, Guilherme, tudo bem? Olá aos nossos ouvintes. Há quanto tempo! Foram férias longas, umas fériaizinhas. Eu tirei uns dias em janeiro, fevereiro e, depois, fui acometido ainda por uma faringoamidalite, uma faringite e uma amidalite ao mesmo tempo. Então, estou me recuperando. O que importa é que não dava para falar, esse era o resultado.

    (00:44) Estamos voltando agora, depois de praticamente um mês sem gravar. Sempre lembrando que, para nós, é fundamental a participação de todos por meio de perguntas, críticas e sugestões de tema. Então, você nos encontra pelo e-mail [email protected],

    (01:03) mas também no YouTube, Mastodon, Blue Sky e Instagram. Basta fazer sua pesquisa que você vai nos encontrar. E também, muito importante, na nossa campanha de financiamento coletivo no Apoia-se: apoia.se/segurancalegal. É a sua oportunidade de contribuir para uma iniciativa livre e desimpedida de produção de conteúdo. A gente sabe como é difícil, com tantos podcasts, tantas redes, tantas coisas que as pessoas precisam contribuir hoje. Mas se você не puder ou não quiser contribuir via Apoia-se, contribua pelo menos recomendando, repercutindo ou até mesmo

    (01:34) conversando com a gente, nos mandando mensagem. Isso ajuda a manter o podcast funcionando. Também, lá no YouTube, faça comentários. Se você está nos vendo pelo YouTube, dê o seu “joinha” e aquela coisa toda. Por quê? Por que os YouTubers e o pessoal produtor de conteúdo pede isso? Porque isso envolve criar uma situação de engajamento e de aumento de recomendação, ou seja, você dá uma ajuda, um impulsionamento no algoritmo. Diga, Vinícius.

    (02:07) Tem um podcast do The Verge que eu escuto, eles sempre falam no final que têm 29 razões para você assistir ao The Verge. Não, não é o The Verge, é o Practical AI, um outro podcast que eu achei. E eles chegam no final — e é muito bom, gente, Practical AI é muito interessante — e dizem que têm 29 razões para você ouvir o podcast. E aí eles dizem: “hoje eu vou te dar a razão número tanto”. As razões estão todas no site deles, as 29 razões. Nós podíamos conseguir umas 30, talvez, para botar no nosso. E uma outra dica: baixe

    (02:46) todos os episódios, ponha no pendrive e dê de presente para aquele seu amigo da TI. Boa, boa. Põe no pendrive, “ó, aqui o pendrive de presente com os episódios do Segurança Legal”. Mais de 300 episódios. Naqueles MP3 players pequeninhos, lembra? Eu tive um daqueles. Eu tenho um daqueles, um mini. Será que não foi tu que pegou o meu? Eu perdi o meu, um branco. Não, o meu era paraguaio, mas tu tinhas um Apple, né? Ah não, eu tinha um Apple Nano, acho que era Nano. Como era o nome daquilo? iPod Nano.

    (03:17) O iPod Nano, isso aí. E o legal é o seguinte: a única interface que ele tinha… Não, o meu nem tela tinha. O teu era com uma telinha colorida? O meu nem tela tinha. E o legal é que tu fazias toda a carga de MP3 nele pelo próprio cabo conector P2, que já servia para sinalização de dados também. Onde tu ligavas o fone de ouvido, ligavas também o conector para depois fazer o upload dos MP3. É o iPod Shuffle,

    (03:56) Vinícius, o nome. Shuffle, cara, era esse aí. Esse aí eu perdi. Emprestei para a Rafa, na época em que ela era minha namorada ainda, e ela perdeu o meu iPod Shuffle. Mas como a gente estava namorando, a gente не dá bola que perdeu o nosso iPod Shuffle. Não tem problema. Dois gigas só de armazenamento. Ah, mas era suficiente, tinha um monte de música lá. É, não vai caber os 385 episódios. Vamos embora, vamos lá. Estamos já viajando aqui. Uma coisa que eu acho que vale mencionar, Vinícius, e depois

    (04:34) a gente vai retomar isso com a questão do DeepSeek, é que tudo isso que a gente vai comentar agora… Antes um detalhe: a gente gravou, antes das nossas férias, um episódio sobre a questão da Meta e o posicionamento da Meta com relação à moderação de conteúdo. A gente gravou como “parte um” e dissemos que nós voltaríamos ao assunto. Nós vamos voltar ao assunto. Mas aconteceu tanta coisa nesse período

    (05:13) que a gente não imaginava que fosse acontecer, que meio que fomos atropelados pelo negócio. Então a gente vai voltar àquele tema, mas obviamente não vai ficar limitado mais às questões específicas da Meta. Mas voltaremos nele. É um metaepisódio sobre o que aconteceu com a Meta e o que aconteceu depois. Então aguardem. Se você estava pensando “mas cadê a parte dois?”, calma, foi isso que aconteceu. Guilherme, vai lá, agora sim.

    (05:53) É, mas o que você falou está relacionado com o que eu estava dizendo, que é justamente o fato de que em pouco mais de um mês e alguns dias, a gente teve uma movimentação tão grande no mercado de IA no mundo. Claro que, ao mesmo tempo, a gente teve nesse mesmo período a posse do Trump. E quem está acompanhando o noticiário, entre tantas modificações que estão acontecendo nos Estados Unidos, algumas delas estão afetando o mercado de tecnologia também. Mas esse novo modelo, o DeepSeek, contrabalanceou, ou seja, modificou o regime de forças, o regime econômico. Deu um impulso e uma modificação muito grande no mercado de IA.

    (06:33) Isso em 20, 30 dias. A gente teve uma mexida muito grande. Então, o que a gente vai fazer hoje? O Vinícius vai começar agora nos explicando um pouco do porquê o DeepSeek seria tão inovador, quais são as razões mais técnicas de como ele funciona e por que ele teria se sobreposto aos modelos atuais, sobretudo no quesito eficiência. E depois nós vamos falar rapidamente também sobre algumas questões, sei lá, mais geopolíticas, o que a gente pode esperar, quais são os impactos que a gente deve ver a partir de agora

    (07:09) com o que se chamou, e que vai ser o título do podcast, de “o momento Sputnik”, ou seja, aquela virada na corrida aeroespacial da União Soviética, que parece, alguns têm dito, talvez com certo exagero, que seria o caso aqui com o DeepSeek. Então, Vinícius, por que o DeepSeek… ele está na versão 3 já, é isso? Não, na real eles lançaram o V3. Eles tinham o V3 e depois saiu o R1. O que causou a confusão toda, o frenesi todo, foi o R1, e não o V3 que eles já tinham.

    (07:47) E é importante a gente chamar a atenção para o fato de que o DeepSeek não foi alguém que sentou numa cadeira, teve um momento “Eureka!” e saiu o DeepSeek. É um grupo de pesquisadores chineses que já está há um bom tempo trabalhando com IA. Esse grupo já vem desenvolvendo outros modelos. Existem, aliás, outros modelos, como por exemplo o Qwen, do Alibaba. E eles estão investindo de novo para gerar um novo modelo que andaram lançando também, mas não é um modelo tão bom que tenha causado tanta confusão. Mas a

    (08:29) China está investindo bastante nisso. E esse grupo que desenvolveu o DeepSeek R1, que causou essa confusão toda, recebeu um aporte de uma empresa que botou grana para eles desenvolverem. E uma coisa muito interessante: a gente sabe muito bem, porque quem acompanha o noticiário ou lê um pouco do que acontece no mundo sabe que na China essas coisas não passam muito despercebidas pelo governo, ou seja, existe uma proximidade muito grande do governo chinês com a questão estratégica do

    (09:06) que as empresas estão fazendo. E eles botaram grana. Teve um fundo de investimento que botou grana nesse projeto, de tal forma que eles não limitaram o desenvolvimento do R1 no sentido de ter que ser um produto comercializável. Ele é comercializável, mas não exclusivamente. Inclusive, ele é todo open source. Depois a gente discute até que ponto ele é open source, mas isso talvez foi o

    (09:46) que causou maior confusão. A gente chega nisso depois. Então, esse grupo já estava desenvolvendo e a China, há algum tempo — e nós vamos entrar nesse assunto depois —, teve um embargo pelo governo Biden que limitou a venda de processadores da Nvidia, as GPUs da Nvidia, para a China. Isso, inclusive, quando o Biden fez, deu uma quedinha nas ações da Nvidia na época. Porque o mercado chinês não é desprezível, claro. E como todo mundo quer investir em IA, naturalmente teria

    (10:27) que comprar processadores da Nvidia. Com o embargo do Biden, a Nvidia, não lembro se ela já tinha ou se ela ajustou, mas lançou os H800. E já tinha, acho, que os H20. Calma, calma. Quem está nos ouvindo agora, e acredito que tenha pessoas que não sabem o que é H800, não sabem o que é H20. Ah, beleza. O H100 é a Ferrari, vamos dizer assim, da Nvidia para Inteligência Artificial. São os processadores de Inteligência Artificial, os H100, os mais potentes.

    (11:08) Esses são os processadores que o Biden não deixou mais a Nvidia vender para a China, lembrando que a Nvidia é uma empresa norte-americana. Então a Nvidia não pode mais vender H100 há um bom tempo para a China, se não me engano, desde 2022. Então esse pessoal do DeepSeek teve que primeiro lidar сom isso. Suspeita-se que eles tinham acesso a um certo número de H100, não se sabe quantos. Mas eles certamente tinham acesso e usaram os H800, que, apesar de o número ser mais alto, são piores que os

    (11:50) H100. Eles são propositalmente reduzidos, tiveram sua capacidade de comunicação reduzida para poder se encaixar nos limites do embargo. Então, os H800 podiam ser vendidos, os H20 também. Eles tiveram que usar, vamos dizer assim, GPUs de segunda linha. A informação que eu tenho aqui é que os H100 foram proibidos de serem exportados para a China em setembro de 2022, e os próprios H800 também entraram nesse embargo depois, em outubro. Isso aí. Então, no

    (12:34) início eram os H100, aí a Nvidia lançou os H800. E tinha os H20, acho que de mais tempo. [Música] Resultado: os pesquisadores chineses tiveram que lidar com uma certa limitação em termos de capacidade de processamento. Certo? Isso é muito… tem muita especulação, Guilherme. Porque eu ouço bastante podcast gringo sobre inteligência artificial, sobre as questões do DeepSeek e outras situações, e eu vi em vários deles o pessoal falando que a equipe do DeepSeek lá na China teria tido acesso a algumas

    (13:14) dezenas de milhares de H100 que teriam comprado antes ou que teriam contrabandeado, sei lá. Furaram o embargo, alguma coisa eles fizeram. Enfim, o fato foi que eles tiveram que dar um jeito de otimizar o treinamento do modelo para não precisar de tanto recurso quanto foi utilizado para treinar, por exemplo, o GPT-4 da OpenAI. Que é o grande desafio, a grana que você precisa para treinar esses grandes modelos. Exato. E aí a gente chega agora

    (13:55) nas estratégias que eles utilizaram. E eu не vou entrar em muitos detalhes técnicos para não fazer ninguém dormir ou ter um treco. A primeira coisa que chama muita atenção é a tal da “mistura de especialistas”. Então, imaginemos um cérebro humano com uma miríade de neurônios. O nosso cérebro é especializado, a gente até conversava sobre isso antes. Quando estou enxergando ou ouvindo algo, as áreas dos meus cérebros que são ativadas,

    (14:31) e até mesmo para o tipo de atividade que a gente faz, mudam. A parte do cérebro ativada é diferente e são partes especializadas. Eu não ativo o meu cérebro todo para ouvir uma música. Ah não, tu não ativa? Eu uso tudo. Tudo bem, não vamos entrar nos 10%, mas isso aí pode pesquisar, já ouvi falar que isso é mentira, é balela. Mas não vamos falar sobre isso. O fato é que os modelos de IA tradicionais, digamos assim, acionavam o

    (15:08) cérebro todo, ou seja, o modelo, que é o cérebro virtual, para analisar qualquer problema. E para acionar um modelo todo, a gente está falando de um modelo de 500, 600 bilhões de parâmetros. Isso demanda recurso. Então, o que eles fizeram foi essa mistura de especialistas, que nada mais é do que a especialização. Você tem um modelo grande, com centenas de bilhões de parâmetros, mas aciona só certas partes desse modelo para resolver certos tipos de problema. O resultado disso é

    (15:53) que você не precisa de um poder computacional tão grande para botar esse negócio para funcionar. Só uma coisa. A gente está falando de treinamento e do funcionamento do modelo já em operação, certo? Não cheguei no treinamento ainda. Isso é essencial, porque не adianta nada você treinar um modelo e não conseguir fornecê-lo por falta de recurso. E eles não teriam recurso para fornecer um modelo muito potente, que exigisse muitos recursos. Então, essa foi

    (16:30) a primeira sacada da arquitetura que eles fizeram: especializar o cérebro. A segunda coisa que eles fizeram, isso no funcionamento, com o modelo já pronto. E isso é crítico, porque você até pode gastar muito dinheiro uma vez para treinar um modelo, mas não pode ficar gastando muito toda hora para usá-lo. Então essa foi uma mudança bem radical. A segunda é que eles

    (17:04) usaram um recurso que não é desconhecido, que é o Chain of Thought (cadeia de raciocínio). O que eles fizeram? Eles focaram o R1 para, ao dar um problema para ele, ele elaborar uma cadeia de raciocínio para resolver o problema e expor essa cadeia. A OpenAI já faz isso há mais tempo, mas guarda, você não vê. “Ah, mas o [modelo] que eu estou utilizando lá

    (17:45) mostra.” Sim, ele te mostra, vamos dizer assim, uma parte mais superficial do raciocínio do modelo. E esses caras, como o negócio é open source, resolveram fazer com que a cadeia de raciocínio seja toda exposta. O modelo funciona dessa forma e expõe o raciocínio dele. E esse processo, junto com a mistura de especialistas, resulta em um modelo com uma eficiência muito alta em termos de consumo de recurso e resultado. Bom, isso para usar e para treinar o modelo. E lembre-se que para treinar o modelo, eu posso até ter um custo mais alto,

    (18:25) desde que para usar depois não tenha que gastar tanto. Então esses dois pontos de arquitetura que eu falei são extremamente importantes. No treinamento do modelo, eles usaram um treinamento multiestágio, que eles chamaram. Isso está no artigo que os autores do DeepSeek publicaram. O que eles fizeram no início, na partida do modelo, o que em inglês a gente chama de cold start (partida a frio),

    (18:59) foi pegar exemplos de cadeias de raciocínio elaboradas por outros modelos, com as respostas, e usaram isso para treinar o modelo. Fizeram um treinamento supervisionado, deram para ele vários exemplos de cadeias de raciocínio com as respostas, como funciona, e botaram ele para aprender já desse jeito. Depois a gente discute de onde vieram esses exemplos, que é outro problema. Na sequência, depois do cold start, eles fizeram aprendizado

    (19:45) por reforço. O aprendizado por reforço é aquele em que, em vez de… no supervisionado, você dá uma série de exemplos: “aqui está a entrada e aqui a saída correta”, e ele tenta, com base na entrada, se aproximar da saída correta. Essencialmente é isso. No aprendizado por reforço, você dá uma entrada e recompensa ou penaliza o modelo conforme ele acerta ou erra. É uma avaliação para saber se ele está indo bem ou não. Você diz “isso aqui está bom”, ele precisa de feedback.

    (20:21) E é feito por humanos, muitas vezes. Sim, inclusive tem gente que é bem mal paga para fazer esse tipo de coisa. Se não me engano, o pessoal do The Wall Street Journal fez uma matéria sobre isso. Acho que tem no podcast deles um episódio sobre a galera que ganhava 400, 500 reais por mês para ficar dando feedback em cima de coisas que são usadas para treinar modelos. Então, o que eles fizeram? Eles aprimoraram, nessa segunda etapa do treinamento, a parte de codificação, gerar código de

    (21:00) programação, matemática e lógica. Depois eles fizeram outro refinamento, um fine-tuning, em que fizeram de novo um esquema com inserção de escrita criativa, etc., para o modelo ter um pouco mais de liberdade. E aí, depois, fizeram mais uma etapa final de aprendizado por reforço. Deram de novo vários problemas e recompensaram o modelo pelas respostas que ele estava dando. E uma coisa muito interessante: eles incentivavam o modelo a dar a explicação do que ele

    (21:46) estava fazendo. Então, quanto mais o modelo explicava o que estava fazendo, mais recompensado ele era. Isso para reforçar bem essa característica de “pensar” (entre aspas bem grandes aqui) o que vai ser feito e depois explicar o que fez. E isso vem junto com a resposta. Faz parte da estrutura do modelo ele te dizer a cadeia de raciocínio dele e te dar a resposta final. É intrínseco ao modelo, digamos assim. E aí começam as coisas interessantes, Guilherme, que eu vou puxar para fazer a ponte com os outros itens que você trouxe, que no

    (22:32) meu ponto de vista são muito mais interessantes. Resumindo tudo o que você falou até agora: por terem essa restrição de hardware, eles otimizaram os processos tanto de treinamento quanto para poder usar o modelo depois. E eles teriam, hipoteticamente — a gente não sabe, mas é aproximado e o mercado pelo visto acreditou nesse número —, gasto 5.5 milhões de dólares para treinar esse modelo, o que, em termos de treinamento de

    (23:09) modelo de IA nessa escala, é ridículo, não é nada. Porque eles fizeram um modelo que se equipara, e aí tem tarefas que ele ganha, tem tarefas que ele perde, ao Claude 3 Opus da OpenAI. E o detalhe: a OpenAI teria gasto, teria porque também não se sabe, mas é estimado, mais de 100 milhões de dólares para treinar o GPT-4. Então a gente está falando de um custo 20 vezes menor no caso deles do que o do concorrente. E aí, Guilherme, o que acontece?

    (23:50) As ações da Nvidia despencaram quase 600 bilhões de dólares num dia, de uma segunda para uma terça-feira. Por que isso aconteceu? Porque o pessoal de repente começou a pensar: “Opa, eu не preciso mais comprar tanto chip da Nvidia e nem preciso comprar a Ferrari da Nvidia para fazer modelos muito bons. E não preciso comprar também para depois rodar esses modelos”. Então as ações da Nvidia despencaram. Foi isso que aconteceu. Aí, Guilherme, agora sim, o ponto que eu acho muito curioso…

    (24:29) Eu só queria, me perdoa, voltar nisso, mas entender como esses modelos e como a IA funciona para mim ainda é um grande desafio, e acho que para muita gente. Não só para mim, para nós, para todo mundo, mas até para os próprios pesquisadores. Aqueles artigos que a gente já leu em que eles mesmos às vezes dizem: “Olha, a gente não sabe muito bem como esses resultados estão sendo atingidos, eles simplesmente ocorrem”. Mas de forma bem resumida, você poderia dizer que eles foram muito mais eficientes num processo de treinamento e, por

    (25:06) consequência, precisaram usar menos recursos para treinar o modelo, buscando formas alternativas? Seria isso? E depois, uma vez que ele já está treinado — porque basicamente a gente vai ter esses dois momentos, eu treino o modelo, ele está pronto, e aí eu vou submeter coisas para ele e ele vai me dar os outputs —, nesse segundo momento eles também teriam sido mais eficientes por fazerem aquele processo de ativar somente certas áreas

    (25:47) do modelo e não o modelo todo o tempo? Então eles foram eficientes em dois momentos diferentes, é isso? Isso aí, em dois momentos cruciais. E conseguiram chegar e fizeram tudo isso com hardware que не é o top. Galera, teve gente que chegou para mim falando: “Ah, que os chineses fizeram isso com chip de videogame velho”. Pelo amor de Deus, não foi isso que aconteceu. Os chips eram muito bons, você nem tem um desses em casa. Então é caro ainda, não é uma coisa

    (26:23) barata. Explicar como funciona é um outro esquema. Eu achei um vídeo esses dias muito bom que explicava Transformers de uma maneira muito visual, muito interessante. É um vídeo em inglês, posso até depois deixar no show notes. Mas ele tem uma explicação visual muito boa sobre como funciona a camada de atenção dos modelos. Tem vários detalhes ali no meio do caminho. Mas enfim. E aí, Guilherme, você falou lá “usando menos dados” para treinar. Eu falei

    (26:59) “menos recursos”, mas menos dados também. Se você tiver que treinar com um volume de informação muito grande, vai usar mais recursos também. Eles usaram menos dados para treinar esse modelo, só que tem um detalhe aí. Primeiro, lembrando que a questão do valor é bastante discutível. O Dario Amodei foi citado numa matéria do MIT, que vai estar no show notes, e ele disse: “Ah, o pessoal lá do DeepSeek deve ter mais ou menos 1 bilhão de dólares em H100. Eles devem ter lá uns H100 da Nvidia”.

    (27:39) Mas como é que ele vai saber disso? Aí que está. É aquela coisa de eles quererem dizer que o modelo não foi tão barato assim, saca? Mas vocês vão ver especulação de todo jeito nesse sentido. Mas o valor que todo mundo parece concordar é na casa dos 5.5

    (28:03) milhões de dólares que custou a brincadeira. É por aí, para chegar num resultado de um modelo que custou mais de 100 milhões. Porque você tem todo o conhecimento que foi sendo adquirido até chegar a esse ponto. E aí, a questão é: vocês lembram que eu falei no início, do cold start, que eles usaram vários exemplos de cadeias de raciocínio para treinar o modelo? Isso teve que vir de algum lugar. Pouco tempo depois do lançamento do R1, a OpenAI e a Microsoft denunciaram que eles estavam… anunciaram uma investigação e

    (28:44) denunciaram que o DeepSeek teria usado os modelos deles para fazer “destilação”. O que é destilação? Você pega um modelo pronto, dá problemas para ele resolver, ele te dá o retorno, e você pega a entrada e o retorno e usa para treinar um outro modelo. Então, eles teriam utilizado a destilação para treinar o DeepSeek a partir dos modelos da OpenAI. E eles ficaram bravos com isso porque não pode, violou os termos de serviço. O que eu acho uma ironia fantástica, porque várias vezes a gente já falou aqui que esses modelos

    (29:23) foram treinados em cima dos dados de quem? Da internet. E eles pediram autorização para quem? Por que o New York Times, por que um monte de empresas que produzem livros estão processando a OpenAI, por exemplo? Porque eles usaram sem autorização os dados для treinamento. E agora eles estão bravos porque usaram os modelos deles sem autorização para destilar e melhorar outro modelo. Enfim, isso é uma acusação, não está no artigo oficial do DeepSeek.

    (30:00) Esse é talvez o ponto de conexão entre esses dois momentos da nossa discussão: como se chegou até aqui e por que isso é tão importante. Só um instante, Vinícius. [som de tosse] O Guilherme teve que tossir, galera. Então, essa primeira questão, eu acho que a gente precisa colocar também um poco os pés no chão. A gente está olhando para um momento fundamental nessa discussão

    (30:37) geopolítica de uma corrida pela busca de uma IA que vá dominar o mercado. Essa tua fala sobre a acusação e como isso foi uma grande ironia, e de fato foi. É muito irônico porque a gente está vendo isso, não é uma especulação, não é uma hipótese. A gente sabe, todo mundo sabe. O próprio Zuckerberg, vazaram falas dele dizendo que ele autorizou o uso de material

    (31:16) protegido por direitos autorais para treinar os seus modelos Llama. Enfim, treinar a inteligência artificial. Mas ao mesmo tempo, você tem essa ironia de fazer algo e depois, quando outras pessoas fazem, dizer: “olha, mas ele está fazendo aquilo”, mas você também fez. Isso também não significa que tornaria o próprio DeepSeek livre de outros tipos de manipulações ou violações em seu processo de

    (31:56) treinamento. Porque me parece que, no momento atual, um dos problemas intrínsecos é justamente essa curadoria de dados e a busca frenética por mais dados. E aí me corrija se eu estiver errado, Vinícius, mas pelo que eu entendi, eles também começaram a usar novas táticas e estratégias dentro do próprio modelo para consumir menos dados. Isso também é bom, porque torna o modelo mais sustentável. E vai chegar um momento em que todos os modelos já tiverem consumido toda a informação

    (32:36) possível de ser consumida, e você vai ter que buscar estratégias alternativas para que esses modelos continuem evoluindo sem a necessidade de, sei lá, ficar buscando dados na mente das pessoas, Neuralink e tudo mais. Eles не são os bonzinhos da história, esse é o ponto. Não me parece que há mocinhos e bandidos nessa história, porque as dinâmicas de poder aqui são muito parecidas. Agora, o que a gente sabe e o que a gente vê, e eu também acho uma coisa irônica, Vinícius, é que o novo modelo foi lançado no dia da

    (33:15) posse do Trump, que teve toda uma questão mundial, a participação do próprio Elon Musk com figuras terríveis, com aquele plano sendo anunciado ao lado do Sam Altman, que seria o plano Stargate, um plano bilionário de investimentos do governo. Porque a quantidade de dinheiro envolvida nesse mercado agora passa invariavelmente pela participação dos governos. Então é irônico também a gente ver um modelo

    (33:58) sendo lançado na data da posse do Trump, na data do anúncio do plano Stargate, dizendo que é possível fazer, não sei se mais com menos, mas é possível fazer coisas diferentes. E, claro, premidos pela própria necessidade. E aí a gente vê como é interessante que momentos de necessidade podem fazer com que soluções criativas nasçam. E por isso que houve essa queda toda de 600 bilhões. Foi a maior queda já registrada no mercado americano na história. De qualquer

    (34:37) forma, porque de repente a gente tem aquela coisa da bolha da IA e tudo mais, e talvez o que a gente tenha visto é um estouro, não de toda a bolha, mas de parte dela. Ela não murchou completamente, ela deu uma desinflada. É, o pessoal deu uma desesperada. Mas ao mesmo tempo, no que diz respeito à Nvidia, o que é pior para a Nvidia? Para a Nvidia não é tão ruim assim ter um modelo que usa menos processamento. Tudo bem, caíram as ações,

    (35:13) o pessoal saiu apavorado. Os 600 bilhões… O pior para a Nvidia é quem desenvolve começar a desenvolver seus próprios processadores, o que a OpenAI está fazendo. A OpenAI está lançando seus próprios processadores para IA, e outros vão fazer. Então, por enquanto, a Nvidia é a líder de mercado e ela continua sendo. Mesmo que o modelo use menos para treinar e para executar, existe uma demanda muito grande por uso de IA, e cada dia tem mais. E cada vez mais uso de IA precisa de mais processadores da Nvidia. Então

    (35:50) pode desacelerar o ritmo de compra, talvez, mas a Nvidia não vai deixar de vender, fica bem tranquilo. Agora, quer ver como isso já passou, a coisa já se ajustou e a vida está seguindo? Em 5 de fevereiro, pesquisadores de Stanford e da Universidade de Washington treinaram um modelo de IA por menos de 50 dólares em créditos de computação na nuvem. O modelo é conhecido como StarCoder 2 (SC2) e o desempenho dele é similar ao Claude 3 Opus da OpenAI e ao DeepSeek R1, que gastou 5 milhões de dólares. No que diz respeito a habilidades

    (36:45) de matemática e codificação. Então, nessas duas habilidades especificamente, o desempenho dele é idêntico ao de modelos muito mais caros. É, e aqui uma coisa, Vinícius, pelo que estou lendo, o DeepSeek se sairia melhor nessas atividades mais de matemática e de codificação pela própria natureza de reinforcement que eles utilizaram. E ainda não seria tão bom assim em tarefas mais subjetivas, que exigiriam um pensamento mais, né? Ou seja, a forma que eles usaram

    (37:24) para treinar de forma mais eficiente, ou com menos recursos, fez com que ele ficasse melhor nessas coisas mais práticas e objetivas, digamos assim. Eu vou te dizer que no Perplexity você tem acesso ao R1 e tem acesso ao Claude 3. E eu já usei os dois com as mesmas coisas para ver o que acontece, e eu não percebo grande diferença no resultado. É uma percepção pessoal também. É, mas o negócio é medido, quero dizer. Sim, sim, mas estou dizendo no dia a dia, porque tem os testes que são aplicados a que

    (38:04) esses modelos são submetidos. E aí ali tem pequenas diferenças. Agora, para o dia a dia, para tua aplicação diária, se tu testar os dois, vai ver que eles resumem coisas muito bem, que os dois funcionam muito bem para pegar uma notícia, resumir, gerar um texto, fazer uma análise. Eles estão realmente muito próximos. E só perceba que ninguém fala do SC2 lá de Stanford e da Universidade de Washington. Ninguém fala desse cara que eles usaram menos de 50

    (38:41) dólares para programar. Eles usaram 30 minutos, se não estou enganado, de 16 GPUs Nvidia H100. Você pode alugar na nuvem. Foi o que eles precisaram para fazer o treinamento do modelo deles. E, claro, o que eles fizeram? Fizeram destilação do Gemini, que é o modelo do Google. Pegaram a ideia… e essa destilação é interessante, porque você pega um modelo preferencialmente melhor, um modelo “professor”, e um modelo “aluno”.

    (39:22) Você dá problemas para o modelo resolver, ele te retorna, e você pega essa entrada e essa saída e treina um modelo novo ou um modelo menor. E esses caras de Stanford fizeram com menos de 50 dólares, a partir do zero. Tem uma outra coisa aí. Até o Ronaldo Lemos falou disso na Folha, e vai ficar lá no show notes também a reportagem dele. É o fato de ser um modelo aberto, open source, que usa a licença do MIT.

    (40:02) E segundo ele, e a gente também pode inferir isso, essa transparência na publicação do modelo seria um ponto de transição bastante importante. Inclusive, eu li aqui numa das notícias que o DeepSeek estaria mantendo a missão originalmente trazida pela OpenAI, lembra disso? Que era uma empresa que nasce com a missão de produzir inteligência artificial para a humanidade sem fins lucrativos. Depois ela vira… “esquece tudo isso que eu falei, a gente não é mais Open”.

    (40:42) Fica “Open” no nome. Mas o fato desse modelo vir com código aberto, ou seja, outras pessoas podendo utilizá-lo, inclusive assim como outros modelos, o próprio Llama também aberto, o Ronaldo Lemos diz assim: “Ah, isso poderia até impulsionar a corrida de inteligência artificial no Brasil”. Diante de um modelo tão poderoso sendo disponível abertamente, o Brasil, com seus institutos, com seu plano agora de IA, poderia também utilizar isso. E ele usa o exemplo, e eu digo, que o Brasil até poderia criar um buscador

    (41:19) tão bom quanto o Perplexity somente com o uso desse modelo do DeepSeek. Acho com certo exagero, mas acredito que o fato disso ter sido lançado como open source é de fato algo muito importante nessa corrida. É, mas é “open” até certo ponto também. Porque é o seguinte: você tem o “open” no sentido de que sabe os pesos. Vamos simplificar: o cérebro, quando ele é treinado, depois que ele é treinado, você tem uma série de

    (42:00) números, vetores. Isso é o modelo da IA. Esse estado do modelo é representado por uma série de números. Isso é o que a OpenAI não te dá. Você consegue usar o modelo da OpenAI, a gente usa todo dia quando usa o ChatGPT ou o Perplexity,

    (42:38) mas você não tem acesso ao modelo em si. Eles estão executando o modelo lá, pegam o que você pediu, a resposta, e te dão, mas você não consegue ver os parâmetros do modelo lá dentro. Isso é fechado. O que o pessoal do R1, do DeepSeek, fez foi dizer: “tá aqui o modelo para vocês, quem quiser copiar”. Então você pode pegar o modelo e rodar se tiver máquina suficiente. Eles pegaram o Llama da Meta e o

    (43:17) Qwen do Alibaba, se não estou enganado, pegaram modelos menores, o 7B da Llama e o outro, e o que eles fizeram? Pegaram o R1 e, por destilação, treinaram esses dois modelos menores. Então, por exemplo, eu consigo na minha placa GPU, que não é um H100 de jeito nenhum, rodar o modelo destilado do R1. E eu consigo conversar com o meu modelo aqui, sem usar a nuvem. O modelo roda aqui na minha máquina. E da mesma forma, quem tem

    (44:00) equipamento suficiente pode pegar o modelo completo do R1 e rodar. O tamanho dele? Cara, eu не sei de cabeça, mas é na casa de centenas de bilhões de parâmetros também, para ser equivalente ao Claude 3 Opus. Então, para rodar um negócio desses, você vai precisar de recurso, vai precisar de H100 ou H800. Não vai conseguir rodar numa placa como a minha, e a minha placa é boa.

    (44:33) Mas o que eu estou dizendo, de maneira muito mais ampla, é: é importante ou não isso estar aberto? Calma. O fato de você ter o modelo não quer dizer que você saiba com base no que ele foi treinado, exatamente. E isso é muito importante, porque o modelo acaba cristalizando uma série de conceitos e vieses que vêm das fontes de treinamento. Inclusive, o DeepSeek, se você acessar chat.deepseek.com,

    (45:05) e for lá conversar e pedir sobre coisas do Governo da China, sobre Taiwan, sobre a Praça da Paz Celestial, vai acontecer uma coisa muito engraçada. Ele vai começar a responder, e ele começa a responder certinho, se você consegue ler rápido. Daqui a pouco ele chega numa hora que ele meio que se dá conta, tem um filtro, e aquilo some da tela e ele diz: “vamos conversar sobre outra coisa”. Calma aí.

    (45:37) A vantagem do modelo aberto é que o Perplexity, que é uma empresa norte-americana, pegou o modelo e está disponibilizando-o. Lá no Perplexity, ao selecionar o modelo R1, ele te diz: “R1 hospedado nos Estados Unidos”. E isso só é possível porque esse modelo está aberto. Então, sim, o Brasil ou qualquer outro país ou pesquisador pode pegar esse modelo, rodá-lo, ou rodar versões menores, que são esses destilados, para criar novas soluções. Coisa que não se pode

    (46:18) fazer com a OpenAI. Não dá para fazer, a não ser usando a API deles. Então ajuda, mas é um ponto de virada. É um ponto de virada porque a OpenAI dá um acesso ao modelo via API ou via chat, mas ela não deixa você rodar o modelo localmente, não deixa alguém pegar e fazer modificações. Não pode nem destilar, segundo os termos de uso deles. Isso que você falou sobre a China é bem importante, Vinícius. E acho que cabe uma observação

    (46:59) importante: sim, isso de fato aconteceu, o que você diz, de ele te bloquear ao perguntar sobre a República Popular. E isso, pelo que eu li, estaria numa última camada de moderação do modelo publicamente disponibilizado, não estaria no modelo em si. É uma camada de moderação, assim como ocorre com o ChatGPT. E me parece que esses bloqueios e moderações se dão na camada de moderação, porque uma vez que o modelo esteja pronto, ele vai chegar àquela resposta, sendo bloqueado pela

    (47:45) camada de moderação. E eu acho importante dizer que o fato dos chineses fazerem isso не significa que os americanos também не estejam fazendo, com diversas camadas de moderação. E aqui eu estou falando de maneira muito mais ampla, não somente sobre a OpenAI. Hoje mesmo eu estava lendo, vou colocar no show notes se eu achar, sobre certos vieses de organização da Inteligência Artificial do X (Twitter) acerca

    (48:23) da política alemã, que estaria toda encoberta de vieses também. Então, não é que tenha mocinhos e bandidos. De novo, me parece que uma das grandes questões que a gente vai ter no uso massificado dessas ferramentas é que elas são mantidas por companhias que, ao longo dos últimos anos, demonstraram estar muito despreocupadas com questões éticas no uso dessas tecnologias. Então, vai ser cada vez mais um problema a

    (49:08) gente olhar para essas grandes caixas-pretas que é a OpenAI, por exemplo, te cuspindo coisas de forma que você não saiba exatamente qual o tipo de moderação ela está realizando ali. Por isso que me parece que um modelo aberto, podendo ser utilizado para aplicações eventualmente governamentais… me refiro à aprovação recente de uma regra do CNJ para o uso de inteligência artificial no judiciário. Por isso que me parece que é um game changer isso ficar aberto. Porque a gente vai ter,

    (49:48) e principalmente pelo governo americano… os americanos não são mocinhos nesse sentido. Eles vão moderar, vão colocar uma série de controles ali para dizer ou não dizer coisas. Não acho que são só os chineses que estão fazendo isso, me parece. Depende muito. Eu diria que eu não tenho ainda uma resposta sobre isso. Porque o que tenho visto em termos de moderação, o ChatGPT, por exemplo, modera bastante discurso de ódio. E a parte de geração de imagem no DALL-E é bem moderada.

    (50:34) Já em outras, no Grok, eu estou testando o Grok 3, a geração de imagens via Grok é completamente descontrolada. Eu pedi, literalmente: “um pato devorando um leão”, e pedi “muito sangue e muita tripa”. Não botei nem “vísceras”. O ChatGPT/DALL-E não gerou, reclamou, disse “não gero gore explícito” e

    (51:19) não gerou. Já o Grok gerou imagens bem impactantes, bem realistas. Comecei a ficar com medo de pato agora. Então, você percebe que há diferenças no processo de moderação das ferramentas. Até o momento, e eu uso bastante, já testei várias delas… estou fazendo um comparativo de um tempo para cá entre ChatGPT, Perplexity, Claude, Gemini e Grok, todos pagos, usando os melhores modelos para ver efetivamente o que essas coisas nos dão

    (51:57) de respostas, e eu não tenho percebido restrições ou algum tipo de censura, que nem eu percebi claramente no DeepSeek hospedado na China, o chat.deepseek.com. Eu não percebi o que eu percebi lá nessas outras ferramentas, em nenhum momento. Pelo contrário. É uma percepção muito pessoal, né, Vinícius? Sim, sim. Mas às vezes eu peço para ele gerar uma história e algumas vezes ele se perde e até excede

    (52:47) na tentativa de evitar conteúdo inadequado. Às vezes ele percebe umas coisas como conteúdo inadequado que não têm nada a ver e não responde, exagera. Eu fiz a seguinte pergunta: “Se quando eu tinha 6 anos, minha irmã tinha metade da minha idade. Agora eu tenho 70, quantos anos tem minha irmã?”. Cara, você faz essa pergunta e muito modelo se perde enlouquecidamente. E tinha um, agora não lembro qual, que eu perguntava isso e dizia: “não

    (53:20) posso tratar sobre menores de idade”. Cara, nada a ver, estou dando um problema matemático. Mas o ponto, eu acho que ele é mais meta, Vinícius, e mais do que uma percepção nossa, pessoal, sobre “ele bloqueia isso ou não”, eu acho que em termos governamentais e de comprometimento social dessas empresas, elas não estão tão comprometidas eticamente em fazer modelos que sejam bons para a sociedade. Elas estão comprometidas, para eu concluir, a fazerem modelos que atendam aos seus interesses

    (53:59) particulares e econômicos. É o que nós temos visto, sobretudo nesse último mês. Eu acho injusto dizer, Vinícius: “Ah, os chineses estão fazendo e os americanos не vão fazer”. Sei que você não disse isso, mas eu acho que eles estão bem equivalentes no que diz respeito a interesses existentes para realizar bloqueios e moderações que não vão ser boas para a gente, tanto os chineses quanto os americanos, e me parece que em níveis bastante similares de interesses.

    (54:38) A minha preocupação se dá quando se coloca: “Ah, o DeepSeek R1 é open source, então a gente vai aplicar em coisas do governo”, como se soubesse os vieses que estão lá dentro. Na real, teria que fazer que nem a França. Semana passada o Macron anunciou um projeto de desenvolvimento de IA na França de cento e poucos bilhões de dólares, acho que foi.

    (55:23) Então, no Brasil, se a gente quer falar sério de usar IA no governo e ter uma certa segurança, uma certa independência, nós teríamos que ter os nossos data centers, infraestrutura controlada por nós, para treinar os nossos modelos. Concordo. E aí com as fontes controladas ou supervisionadas por nós. Aí o governo brasileiro estaria realmente tendo controle do processo todo. Porque do DeepSeek R1, o que é aberto são

    (56:01) os pesos, o modelo treinado. Exatamente como isso foi feito, com quais informações, isso não se tem. Mas se a gente for pegar o DeepSeek e os modelos da OpenAI, o DeepSeek é muito mais aberto para eventuais investigações sobre vieses do que qualquer modelo fechado da OpenAI. Mais ou menos, porque você poderia analisar diretamente os pesos, fazer algum tipo de análise. Poderia rodar o

    (56:46) DeepSeek, acompanhá-lo em execução, sem dúvida nenhuma, ou olhá-lo de uma perspectiva para tentar descobrir esses vieses. Mas isso você também pode fazer na interação com o modelo. Claro que aí entra aquela última camada de moderação. Mas na interação com o modelo, principalmente via API, que não está passando pela interface da aplicação, você poderia tentar detectar esses vieses tranquilamente.

    (57:26) Inclusive tem uma brincadeira, um prompt, agora eu não vou lembrar exatamente, mas ele induz um viés do modelo que é de achar que todo cirurgião é homem. Tinha um pessoal testando, eu testei também há umas semanas, em que ele presumia que o cirurgião, cujo gênero не estava dado, era o pai do menino no problema, e não a mãe. Aí ele errava tudo por causa dessa

    (58:11) presunção dele. É um viés que ele tem. E se você tentar usar coisas com “enfermeira”, “enfermagem”, a tendência dele é falar de mulheres com mais frequência. Então esses vieses você ainda consegue pegar, ainda consegue levantar. Sim, tem bastante coisa aí, mas o impacto foi grande. O que eu tenho certeza, e aí eu vou citar o Steve Gibson para ir terminando, é que ele disse: “o que a gente fala hoje sobre IA pode не ser mais verdade amanhã”. E eu acho que o que a gente viu nesses últimos 20 dias é bem isso. As nossas

    (58:53) certezas vão ficando bem efêmeras nesse mundo. E o que a gente viu, inclusive com o esvaziamento dessa bolha, foi como esse mercado e como este mundo é volátil e rápido, cada vez mais rápido. Mas fica aqui a nossa tentativa de organizar um pouco esse caos, claro, sem querer dar respostas definitivas. Enfim, vamos pensando juntos. Agradecendo, Vinícius, àqueles e àquelas que nos acompanharam até aqui e pedindo para que nos acompanhem no próximo.

    (59:31) E que estejamos todos juntos aqui no próximo episódio do podcast Segurança Legal. Até a próxima. Até a próxima. Hoje você vai sair correndo, né? Tenho que sair correndo aqui, cara. Então não vai ter aqueles minutinhos em que a gente ainda fica conversando mais alguma coisa. Valeu, pessoal, um abraço. Valeu, grande abraço.

     

    ...more
    View all episodesView all episodes
    Download on the App Store

    Segurança LegalBy Guilherme Goulart e Vinícius Serafim

    • 4
    • 4
    • 4
    • 4
    • 4

    4

    7 ratings


    More shows like Segurança Legal

    View all
    Braincast by B9

    Braincast

    108 Listeners

    RapaduraCast - Podcast de Cinema e Streaming by Cinema com Rapadura

    RapaduraCast - Podcast de Cinema e Streaming

    111 Listeners

    MacMagazine no Ar by MacMagazine.com.br

    MacMagazine no Ar

    179 Listeners

    Xadrez Verbal by Central 3 Podcasts

    Xadrez Verbal

    174 Listeners

    Giro do Loop by Loop Infinito

    Giro do Loop

    91 Listeners

    Tecnocast by Tecnoblog

    Tecnocast

    43 Listeners

    NerdCast by Jovem Nerd

    NerdCast

    1,010 Listeners

    Naruhodo by B9, Naruhodo, Ken Fujioka, Altay de Souza

    Naruhodo

    121 Listeners

    Petit Journal by Petit Journal

    Petit Journal

    78 Listeners

    Durma com essa by Nexo Jornal

    Durma com essa

    46 Listeners

    História FM by Leitura ObrigaHISTÓRIA

    História FM

    30 Listeners

    Ciência Suja by Ciência Suja

    Ciência Suja

    20 Listeners

    Vortex by Parasol Storytelling

    Vortex

    19 Listeners

    Só no Brasil by Pipoca Sound

    Só no Brasil

    4 Listeners

    IA Sob Controle - Inteligência Artificial by Alura - Hipsters Network

    IA Sob Controle - Inteligência Artificial

    1 Listeners