A mais recente inovação da empresa chinesa de tecnologia DeepSeek, o modelo v3, é indiscutamente uma das estrelas deste ano no universo dos modelos de IA open source. Essa novidade vem causando bastante burburinho e discussões por aí. No entanto, uma particularidade tem chamado a atenção: em algumas de suas respostas, o modelo se identifica como "ChatGPT", o que levantou diversas suspeitas de plágio por parte da crítica. Mas nós, como um veículo de mídia tecnológica de Hong Kong, queremos ir além da superfície e analisar o porquê desse AI estar sacudindo o setor de tal forma. Descartando a ideia de que se trata apenas de uma cópia barata, qual será então o grande lance de mestre da DeepSeek com o v3? Vamos mergulhar nesse assunto!
A DeepSeek, criada em 2023 pelo fundo de private equity chinês "Fantasy Quant", é toda focada no desenvolvimento das mais avançadas tecnologias de inteligência artificial. Embora seja uma novata no pedaço, a DeepSeek rapidamente se destacou com suas inovações tecnológicas de cair o queixo. O modelo arrasador DeepSeek-V3 vem equipado com nada menos que 671 bilhões de parâmetros, estabelecendo um novo padrão de equilíbrio entre desempenho e custo.
É absolutamente empolgante: a DeepSeek desenvolveu um modelo de IA super eficiente em apenas dois anos, com um custo de apenas 5,57 milhões de dólares. Comparado com os robustos 63 milhões de dólares necessários para o modelo GPT-4 da OpenAI, isso é definitivamente uma vantagem de custo nada desprezível. E olha que as previsões apontam que o futuro GPT-5 pode chegar a custar até 500 milhões de dólares. Essa conquista sensacional tem o apoio de várias tecnologias inovadoras. Como não ficar de queixo caído com essa revolução no mundo da inteligência artificial?
O modelo DeepSeek-V3 reduz de maneira eficaz a necessidade de recursos durante o processo de inferência, graças à sua arquitetura única de "misto de especialistas". Este framework só precisa ativar 370 bilhões de parâmetros para a inferência, reduzindo significativamente o consumo de recursos de cálculo em tempo real. Em contraste, modelos completos como o GPT-4, uma vez ativados, geralmente exigem uma grande quantidade de potência de processamento e memória, com o uso de memória até atingindo centenas de GB.
Para elevar ainda mais a performance, o DeepSeek-V3 incorporou a tecnologia de Atenção Latente Multi-Cabeças (MLA), que reduz de forma eficaz a necessidade de memória no processamento de textos longos, diminuindo o consumo de recursos em até impressionantes 96%. Além disso, a tecnologia de Codificação de Posição Decoplada (RoPE) adicionada garante que os dados comprimidos mantenham as informações de posicionamento essenciais, melhorando a velocidade e a precisão da inferência.
Estes avanços tecnológicos indicam que a futura tecnologia de AI não só poderá funcionar de forma eficiente em servidores de alta gama, como também será facilmente adaptável a dispositivos eletrônicos de consumo, como smartphones e tablets. Isso permitirá aos usuários desfrutar de serviços de AI comparáveis aos de hardware de alto desempenho a um custo reduzido, concretizando a democratização tecnológica no mercado.
No entanto, apesar do potencial considerável de DeepSeek, este também levantou algumas preocupações. Por exemplo, durante os testes, DeepSeek-V3 se identificou como ChatGPT, provocando questionamentos sobre se seus dados de treinamento incluem conteúdo de ChatGPT. Essa situação desencadeou um debate sobre a independência do modelo e a transparência dos dados. Até o momento, DeepSeek não emitiu uma resposta oficial, levantando questões sobre a importância da transparência e da regulamentação no desenvolvimento da tecnologia AI. Sam, da OpenAI, parece ter expressado algumas opiniões sobre isso no X (antigo Twitter).
Ao analisarmos profundamente a tecnologia por trás do Deepseek, percebemos o motivo pelo qual ele causou tanto burburinho no setor: o mercado chinês possui os maiores recursos de dados do mundo, no entanto, enfrenta várias limitações em termos de capacidade de processamento de hardware, o que tem levado as empresas de IA na China a focarem cada vez mais na melhoria da eficiência. O sucesso do DeepSeek destaca um novo equilíbrio entre recursos e desempenho. Enquanto isso, com gigantes da tecnologia como Google, Microsoft e Meta apostando em energia nuclear devido ao alto consumo de energia para treinamento em IA, startups como DeepSeek estão escolhendo inovar tecnologicamente para reduzir o desperdício de recursos, oferecendo novas soluções para toda a indústria. A trajetória do DeepSeek nos lembra que a competição futura em IA não será apenas sobre a tecnologia em si, mas também sobre encontrar as melhores soluções para utilização de recursos, o que pode ser chave para transformar as regras do jogo no mercado.



