December 10, 2024

🎁 OpenAI inicia os "12 dias de lançamentos"

3 minutes

Bom dia!

A OpenAI deu início ao evento “12 dias de lançamentos”, trazendo inovações diárias que devem marcar o final de 2024 na indústria de inteligência artificial. O destaque até agora é o ChatGPT Pro, que oferece acesso a modelos avançados, e o tão aguardado lançamento do modelo de geração de vídeos Sora.

Na Folha de hoje:

* OpenAI inicia “12 dias de lançamentos”

* DeepMind lança Genie 2, ampliando a criação de mundos 3D

* Microsoft testa Copilot Vision para navegação assistida no Edge

* Meta apresenta Llama 3.3, mais eficiente e acessível

* Clone Robotics revela robô humanoide com músculos artificiais

* Amazon Nova integra IA generativa ao Bedrock

* Tencent lança modelo de geração de vídeos de código aberto

* Neurocientista explora preservação cerebral para imortalidade

Obrigado por ler Folha Artificial! Subscreva gratuitamente para receber novos posts toda terça pela manhã.

Tempo de leitura: 10 minutos

NOTÍCIAS DA SEMANA

OPENAI

🎁 OpenAI inicia “12 dias de lançamentos”

A OpenAI deu início ao evento "12 dias de lançamentos" em 5 de dezembro, apresentando diariamente novos recursos e produtos de inteligência artificial. Entre os destaques estão o lançamento do modelo completo de raciocínio avançado o1 e o o1 pro. A OpenAI também finalmente disponibilizou acesso geral ao modelo de geração de vídeos Sora. Segue um resumo das novidades anunciadas até aqui:

* Dia 1: a OpenAI anunciou o ChatGPT Pro, uma assinatura mensal de US$ 200 que oferece acesso ilimitado aos modelos mais avançados da empresa, incluindo o OpenAI o1, o o1-mini, o GPT-4o e o Advanced Voice. O plano também apresenta o o1 pro mode, uma versão aprimorada do modelo o1 que utiliza mais recursos computacionais para fornecer respostas mais precisas a questões complexas. O público-alvo são pesquisadores e engenheiros que necessitam de inteligência artificial de ponta em suas atividades diárias.

* Dia 2: anúncio do Programa de Pesquisa de Fine-Tuning por Reforço, permitindo que desenvolvedores ajustem modelos de IA para tarefas específicas em áreas como Saúde, Finanças e Engenharia. O programa oferece acesso antecipado à API de Fine-Tuning por Reforço, que permite uma personalização de alto nível para instituições de pesquisa e empresas que realizam operações complexas lideradas por especialistas.

* Dia 3: A OpenAI lançou oficialmente o Sora, seu modelo de inteligência artificial que gera vídeos realistas a partir de comandos de texto. Disponível para assinantes do ChatGPT Plus e Pro, o Sora permite criar vídeos de até 20 segundos em resoluções de até 1080p, com diferentes proporções de tela. Os usuários podem gerar conteúdo totalmente novo ou utilizar recursos próprios para estender, remixar e combinar vídeos. A interface do Sora também inclui ferramentas como storyboards, facilitando a especificação precisa de cada quadro. Para mitigar possíveis abusos, a OpenAI implementou medidas de segurança, incluindo marcas d'água visíveis e metadados C2PA que identificam os vídeos como gerados por IA. Inicialmente, o upload de vídeos com pessoas está restrito, visando aprimorar as proteções contra deepfakes. O Sora não está disponível no Reino Unido, Suíça e Área Econômica Europeia, mas a OpenAI planeja expandir o acesso nos próximos meses.

O anúncio da temporada de “shipmas” (trocadilho entre Natal e lançamento) ocorreu durante o DealBook Summit do New York Times, onde o CEO da OpenAI, Sam Altman, compartilhou insights sobre a adoção do ChatGPT, revelando que a plataforma possui 300 milhões de usuários ativos semanais e processa 1 bilhão de mensagens diariamente. Altman também mencionou que a Inteligência Artificial Geral (AGI) pode surgir mais cedo do que o esperado, possivelmente em 2025, embora seu impacto inicial seja sutil.

WORLD LABS

🖼️ World Labs apresenta modelo que cria mundos 3D

A World Labs, startup cofundada pela especialista em IA Fei-Fei Li, lançou um sistema inovador que converte imagens estáticas em ambientes 3D interativos. Utilizando modelos de inteligência artificial, a tecnologia permite que usuários naveguem por cenas tridimensionais geradas a partir de uma única foto, proporcionando uma experiência imersiva diretamente no navegador.

O resultado é uma ferramentas poderosa na criação de conteúdos digitais, com potencial para impactar setores como jogos, cinema e realidade virtual. Ao transformar imagens 2D em espaços 3D exploráveis, a ferramenta oferece novas possibilidades para desenvolvedores e criadores de conteúdo, facilitando a produção de ambientes virtuais detalhados e interativos.

DEEPMIND

🧩 DeepMind apresenta Genie 2: modelo que gera mundos 3D interativos

A DeepMind, divisão de IA do Google, lançou o Genie 2, um modelo avançado capaz de criar ambientes 3D interativos a partir de imagens ou descrições textuais. Apenas alguns dias após o lançamento do World Labs, o Genie 2 amplia a competição na criação de mundos virtuais, oferecendo um potencial ilimitado para cenários de treinamento e desenvolvimento de agentes de IA incorporados.

O Genie 2 representa um salto considerável, permitindo a navegação e interação em tempo real nesses ambientes, algo essencial para o desenvolvimento de IA mais avançadas e dinâmicas. Além disso, a tecnologia traz grandes implicações para a prototipagem de jogos, fornecendo uma plataforma poderosa para explorar novas possibilidades nos setores de entretenimento e pesquisa.

MICROSOFT

🖥️ Microsoft testa Copilot Vision no Edge para navegação assistida por IA

A Microsoft está testando o Copilot Vision, um recurso que permite ao assistente de IA visualizar e interagir com páginas da web no navegador Edge. Com o consentimento do usuário, o Copilot Vision pode ler textos e imagens das páginas visitadas, oferecendo assistência como responder a perguntas, fornecer resumos e sugerir próximos passos. Atualmente, o recurso está disponível para um número limitado de assinantes do Copilot Pro nos Estados Unidos, através do programa Copilot Labs.

A Microsoft enfatiza a privacidade e a segurança dos usuários, assegurando que o Copilot Vision não armazena nem utiliza dados de editores para treinamento de modelos de IA. O recurso é ativado apenas com a permissão explícita do usuário e está sendo implementado gradualmente, começando com sites selecionados e expandindo ao longo do tempo.

META

🦙 Meta lança Llama 3.3, modelo de IA mais eficiente

A Meta anunciou o Llama 3.3, uma versão otimizada de seu modelo de linguagem, projetada para oferecer inferência mais econômica, com custos de geração de tokens a partir de US$ 0,01 por milhão de tokens. Essa eficiência visa tornar soluções de IA mais acessíveis para desenvolvedores, permitindo a implementação de aplicações sofisticadas com menor investimento.

O Llama 3.3 mantém a capacidade de processar imagens e textos, ampliando seu uso em áreas como realidade aumentada e análise de documentos. Essa atualização é mais um passo da Meta para democratizar o acesso a tecnologias de IA avançadas com a disponibilização de modelos de código aberto, promovendo inovação em diversos setores.

CLONE ROBOTICS

🤖 Clone Robotics apresenta Clone Alpha, robô humanoide com músculos artificiais

A Clone Robotics, empresa polonesa, anunciou o Clone Alpha, um robô humanoide que replica a anatomia humana com mais de 200 ossos sintéticos, músculos artificiais e um sistema respiratório sintético. Utilizando a tecnologia Myofiber, seus músculos artificiais são acionados por um sistema de bombas e válvulas que movimenta água pelo corpo, proporcionando movimentos mais suaves e naturais. A produção está limitada a 279 unidades, com pré-vendas previstas para 2025.

O Clone Alpha vem com 16 habilidades pré-instaladas, incluindo a capacidade de memorizar o layout de uma casa, preparar refeições simples e realizar tarefas domésticas. Usuários podem ensinar novas funções ao robô por meio da plataforma Telekinesis da empresa. Os fundadores, Dhanush Radhakrishnan e Lucas Kozlik, vislumbram aplicações tanto em residências quanto em ambientes de trabalho, destacando que o design humanoide permite uma integração mais fácil em espaços projetados para pessoas.

AMAZON

🛠️ Amazon expande sua aposta na IA com o lançamento do Amazon Nova

A Amazon lançou recentemente o Amazon Nova, uma nova geração de modelos de base integrados ao serviço Amazon Bedrock. Esses modelos são projetados para processar textos, imagens e vídeos, permitindo que empresas desenvolvam aplicações de IA generativa capazes de compreender e gerar conteúdos multimídia de forma eficiente. Com essa iniciativa, a Amazon busca oferecer soluções de inteligência artificial que simplifiquem a vida de consumidores, vendedores e anunciantes, além de aprimorar experiências em suas plataformas, como a Alexa.

Embora a Amazon tenha ingressado posteriormente na corrida da IA, o lançamento do Amazon Nova representa um movimento estratégico importante. A empresa possui uma vasta base de clientes e recursos substanciais, posicionando-se como uma concorrente potencialmente influente no setor de inteligência artificial. Ao fornecer modelos de IA avançados e competitivos, a Amazon demonstra sua capacidade de rapidamente escalar e inovar, oferecendo ferramentas que podem transformar a forma como empresas e desenvolvedores criam e implementam soluções de IA generativa.

TENCENT

🎥 Tencent lança HunyuanVideo, modelo de IA de código aberto para geração de vídeos

A Tencent apresentou o HunyuanVideo, um modelo de inteligência artificial de código aberto projetado para gerar vídeos realistas a partir de textos. Com 13 bilhões de parâmetros, o HunyuanVideo é atualmente o maior modelo de texto-para-vídeo disponível no domínio open-source. A Tencent afirma que seu desempenho é comparável ou superior ao de modelos proprietários líderes de mercado, como o Runway Gen-3 e o Luma 1.6.

O lançamento do HunyuanVideo ocorre em um momento de rápida evolução na tecnologia de geração de vídeos por IA. A disponibilização de um modelo de alto desempenho e de código aberto oferece uma base impressionante para desenvolvedores e pesquisadores construírem novas aplicações. Dado o ritmo acelerado dos avanços nesse campo, é provável que até 2025 testemunhemos modelos ainda mais sofisticados, ampliando as possibilidades de criação de conteúdo audiovisual por meio de inteligência artificial.

ELEVENLABS

🗣️ ElevenLabs lança plataforma de IA conversacional para criação de agentes de voz personalizados

A ElevenLabs, conhecida por suas soluções de clonagem de voz por IA, anunciou uma plataforma que permite a desenvolvedores criar agentes de voz interativos de forma rápida e escalável. A ferramenta integra reconhecimento de fala, modelos de linguagem e síntese de voz, proporcionando conversas naturais com baixa latência e capacidade de interrupção dinâmica. Além disso, oferece suporte a múltiplos idiomas e permite a integração com modelos de linguagem como Gemini, Claude e GPT, bem como a criação de vozes personalizadas.

Essa ferramenta facilita a implementação de assistentes virtuais em setores como atendimento ao cliente, educação e entretenimento, permitindo que empresas desenvolvam soluções de IA conversacional sem a complexidade tradicionalmente associada a esses projetos. A plataforma também possibilita a integração com aplicativos de terceiros para obtenção de informações em tempo real ou execução de ações específicas, ampliando as possibilidades de uso dos agentes de voz criados.

PESQUISA

🧠 Neurocientista defende preservação cerebral para potencial imortalidade

O neurocientista Dr. Ariel Zeleznikow-Johnston, da Universidade Monash em Melbourne, propõe que a preservação do cérebro pode permitir que indivíduos sejam revividos no futuro, possibilitando uma forma de imortalidade. Ele argumenta que, ao manter a estrutura neural intacta, seria viável restaurar a consciência quando a tecnologia avançar o suficiente para tal. Essa perspectiva se baseia em avanços na criopreservação, técnica experimental que envolve a conservação de corpos em temperaturas extremamente baixas, e em métodos que procuram preservar o conectoma, que é o mapeamento completo das conexões entre os neurônios no cérebro. O conectoma é essencial para a memória, personalidade e outras características individuais, e sua integridade seria fundamental para reconstituir a consciência e a identidade de uma pessoa.

A proposta de Zeleznikow-Johnston levanta questões éticas e práticas significativas. Por um lado, oferece uma nova abordagem para lidar com doenças terminais, sugerindo que, em vez de tratamentos paliativos, poderíamos preservar pacientes até que a medicina futura possa curá-los. Por outro lado, há preocupações sobre as implicações sociais, como o potencial aumento das desigualdades, caso apenas alguns tenham acesso a essas tecnologias. Além disso, a definição de morte seria reavaliada, passando da cessação das funções vitais para a perda irreversível da identidade pessoal.

CURTAS

* 🔍 A Cohere lançou o Rerank 3.5, modelo de IA que aprimora a precisão em sistemas de busca empresariais, oferecendo suporte a mais de 100 idiomas e melhorando a capacidade de raciocínio para lidar com dados complexos. A tecnologia visa otimizar a relevância dos resultados de pesquisa, beneficiando setores como finanças, saúde e manufatura. Saiba mais.

* 🇺🇸 Os Estados Unidos ampliaram as restrições ao acesso da China a chips avançados e ferramentas de fabricação de semicondutores, incluindo tecnologias de memória de alta largura de banda. A medida visa limitar o uso desses recursos em aplicações militares e afeta empresas globais que dependem de tecnologia americana. Saiba mais.

* 📱 Após o fracasso do seu hardware AI Pin, a Humane anunciou que seu sistema operacional de IA, o CosmOS, agora será compatível com smartphones, carros e dispositivos inteligentes. A iniciativa pretende criar uma experiência integrada entre diferentes tecnologias, promovendo interações mais naturais e conectadas. Saiba mais.

* 🛡️ A Amazon Web Services (AWS) lançou o Automated Reasoning, um sistema projetado para reduzir as "alucinações" em modelos de inteligência artificial, onde respostas geradas não correspondem à realidade. Integrado ao Amazon Bedrock Guardrails, o sistema verifica as respostas dos modelos em relação aos dados fornecidos pelos clientes, assegurando maior precisão e confiabilidade nas aplicações de IA. Saiba mais.

* 📰 O proprietário do Los Angeles Times, Patrick Soon-Shiong, anunciou que o jornal introduzirá um "medidor de viés" alimentado por inteligência artificial em seus artigos a partir de janeiro. A ferramenta visa avaliar o viés percebido nas reportagens, oferecendo aos leitores múltiplas perspectivas sobre o mesmo tema. A iniciativa ocorre após a decisão de não endossar a candidatura de Kamala Harris nas eleições presidenciais de 2024, o que gerou controvérsias e levou à renúncia de membros da equipe editorial. Soon-Shiong busca equilibrar as opiniões no jornal, incluindo vozes conservadoras, para restaurar a confiança dos leitores. Saiba mais.

* 🎤 A Hume AI apresentou o Voice Control, ferramenta experimental que ajusta vozes de IA em até dez dimensões, como gênero e entusiasmo. Com controle contínuo e sem necessidade de clonagem, a solução atende marcas e desenvolvedores na criação de vozes alinhadas a seus produtos. Saiba mais.

* 📱 O Google iniciou a distribuição da atualização de dezembro para dispositivos Pixel, introduzindo recursos como o Expressive Captions, que adiciona descrições de sons não verbais em legendas, e melhorias no Lookout, utilizando o modelo Gemini 1.5 para fornecer descrições mais precisas de imagens. Além disso, o Gemini Assistant agora integra-se ao Spotify e possui extensões que permitem realizar chamadas e enviar e-mails por comando de voz. Usuários dos Pixel 9 recebem funcionalidades exclusivas, como sugestões de respostas no Call Screen e aprimoramentos no aplicativo de capturas de tela. Saiba mais.

* 🔍 A Exa lançou o Websets, uma ferramenta que transforma a web em um banco de dados estruturado, codificando conteúdos em vetores que capturam o significado. Ideal para buscas complexas, o Websets atende investidores e recrutadores com listas precisas, embora demande mais tempo de processamento. Saiba mais.

VÍDEO DA SEMANA

A World Labs chamou a atenção esta semana ao revelar sua inovadora tecnologia que transforma imagens estáticas em ambientes 3D interativos. Com apenas uma foto, o sistema recria cenários tridimensionais que podem ser explorados em tempo real, abrindo novas possibilidades para jogos, cinema e realidade virtual. Clique aqui ou na imagem acima para assistir.

FERRAMENTAS

* 🎤 ACE Studio: ferramenta de síntese vocal que utiliza inteligência artificial para gerar vocais realistas a partir de entradas de MIDI e letras. Oferece uma variedade de cantores virtuais em inglês, chinês e japonês, permitindo a criação de vocais principais, harmonias e backing vocals para diversos gêneros musicais. Link

* 🤖 Supabase Assistant: assistente de IA integrado ao Supabase Studio, projetado para auxiliar desenvolvedores na gestão de bancos de dados Postgres. Oferece suporte na criação de esquemas, escrita e depuração de consultas SQL, elaboração de políticas de segurança em nível de linha (RLS) e desenvolvimento de funções e gatilhos. Com uma interface intuitiva, o Assistant interpreta comandos em linguagem natural, otimizando o fluxo de trabalho e reduzindo erros, tornando-se uma ferramenta valiosa tanto para iniciantes quanto para profissionais experientes. Link

* 📝 Pointer AI: ferramenta que integra inteligência artificial ao Google Docs, automatizando tarefas de edição e formatação de documentos. Atualmente disponível para o Google Docs, com planos de expansão para o Google Sheets e Slides, o Pointer AI visa aumentar a produtividade ao permitir que a IA execute ações conforme as indicações do usuário. Link.

* 🗣️ ElevenLabs Conversational AI: plataforma que permite a criação de agentes de voz interativos para websites e aplicativos. Combina reconhecimento de fala, modelos de linguagem e síntese de voz para conversas naturais, com baixa latência e suporte a múltiplos idiomas. Ideal para atendimento ao cliente, jogos e agendamentos, com fácil integração via SDKs em React, Python e outros. Link

MINITUTORIAL

📽️ Crie vídeos com personagens persistentes

A Rendernet agora permite criar vídeos realistas com consistência de personagens, perfeito para contar histórias e marketing de produtos. Passo-a-passo:

* Visite RenderNet AI e crie uma conta gratuita.

* Selecione “Create New” no painel principal e siga os passos para criar seu personagem.

* Escolha o personagem que você criou e digite um prompt descrevendo a cena e o movimento do personagem.

* Clique em “Generate Video” para criar seu vídeo com o personagem.

Para ter mais controle sobre o vídeo, você também pode gerar uma imagem do seu personagem e convertê-la em vídeo usando o recurso Video Anyone no Studio.

Até a próxima!

Obrigado por ler Folha Artificial! Subscreva gratuitamente para receber novos posts toda terça pela manhã.

This is a public episode. If you would like to discuss this with other subscribers or get access to bonus episodes, visit folhaartificial.substack.com

...more